会員メニュー(データ配信サービス)
会員メニュー(会員管理)
お問い合わせ・FAQ
リンク集
サイトマップ
アクセスマップ
文字サイズ
小
中
大
HOME
センターの紹介
調査研究
技能と技術
報文誌・年報・
その他の刊行物
統計・事例
データベース
(職業能力開発支援情報)
トップ
>
データベース(職業能力開発支援情報)
>
専門課程・応用課程課題情報検索
>
課題情報を検索する
>
課題の要約
XPathを利用した『Webページ上の情報抽出ソフトウェア』の制作(H21)
大学校及び設置科
中国職業能力開発大学校 情報技術科
課題実習の前提となる科目または知識、技能・技術
工場内ネットワーク、システムプログラム、ソフトウェア設計、コンテンツ制作、Webアプリケーション
課題に取り組む推奨段階
コンテンツ制作実習およびWebアプリケーション実習終了後
課題によって養成する知識、技能・技術
課題を通して、主にWebクライアント/Webサーバプログラミングおよび連携プログラミング技術の実践力を身に付けます。
課題情報シートをダウンロードする
製作の目的と概要
近年インターネットの普及により、知りたい情報をすぐに検索することができるようになりました。しかし、検索した後、逆に膨大な量の情報から、知りたい情報だけを抜き出す手段が必要になってきました。このような問題に直面したとき、知りたい情報を抜き出す手法の一つにXPathがあります。XPathは、本来XMLから情報を抜き出す仕掛けであり、クライアントのJavaScriptで利用は可能ですが、標準的に使われているInternetExplorer(R)では動作しません。また、JavaScriptのドメイン制限のため、外部のWebサイトから抽出することができません。しかし、Perlなどサーバー側で動作するプログラムであれば、XPathを使用できるようにするためのモジュールが用意されており、また、HTMLでもXPathを可能にしたモジュールも存在します。
そこで本制作では、書籍のISBNをバーコードリーダーで読み取り、amazon.co.jp(R)などのWebサイトからタイトル・著者などの書籍情報をXPathを利用して取り出し表示する情報抽出ソフトウェアを作成しました。
成果
今回の総合制作は、XPathを利用し、書籍のバーコードをスキャナーで読み込み情報を検索するシステムです。メインのページはテキスト入力とボタン、検索するホームページを選択するリストを使用した基本的なフォームです。テキストエリアにバーコードリーダーまたは手入力でISBNを入力し検索をかけると、サーバー上のPerlのプログラム(CGI)に、入力したISBNと選択したWebサイトの情報が渡され、サーバー上で必要な書籍情報だけをXPathを利用して抜き出します。
処理したデータは、メインページに埋め込まれたJavaScriptでAjaxを利用し、非同期で動的に処理し、テーブル形式で次々と表示します。図1は実際に実行した画面です。
図1 書籍検索画面
ページのトップに戻る