共通科目情報処理(講義)、体育専門学群対象、2002年01月18日
電子・情報工学系
新城 靖
<yas@is.tsukuba.ac.jp>
このページは、次の URL にあります。
http://www.hlla.is.tsukuba.ac.jp/~yas/ipe/taiiku-kougi-2001/2002-01-18
あるいは、次のページから手繰っていくこともできます。
http://www.hlla.is.tsukuba.ac.jp/~yas/ipe/
http://www.hlla.is.tsukuba.ac.jp/~yas/index-j.html
http://www.ipe.tsukuba.ac.jp/~yshinjo/
- ハイパーテキストとハイパーメディア
- HTML
- タグ
- 文書の構造
- ヘッダ
- 見出し
- パラグラフ
- リスト(箇条書)
- ハイパーリンク(アンカ)
- インライン・イメージ
- 整形済みテキスト
- 表
インターネット上にある膨大な情報から、必要な情報を見つけ出すためには、
次のような方法がある。
- 興味のあるWWWページに埋め込まれているリンクを次々と手繰っていく。
- 特定の分野についてのFAQやリンク集を参考にする。
- 雑誌やテレビなど、一般のメディアに掲載されたURLを打ち込む。
- よく整理されたメニュー(ディレクトリ)を次々に選択していく。
- キーワードを打ち込んで探す(キーワード検索)。
検索対象のデータ(今の場合、WWWページ)にも、キーワードが与えられて
いる。キーワード検索とは、利用者から与えられたキーワードを持つ対象デー
タを利用者に返すことである。
リンク集
とは、他のページへのリンクを集めたWWWページ。
なにかWWWページを探したい時には、すぐに「キーワード検索」を思い浮か
べるかもしれないが、実際には、
FAQ
FAQやリンク集の方が速いことがある。
ヒット率と選択率
- ヒット率
- 欲しかった情報のうち、どのくらい見つかったか。
- 選択率
- 見つかった情報のうち、どのくらいが本当に欲しかったものか。

図? ヒット率と選択率
あちらを立てればこちらが立たず。
トレードオフ。
3つの論理演算
- AND、両方)、(&)
- OR、どちらか、または (|)
- NOT、否定、ふくまない (!)
外枠は、全体(インターネット上の膨大な数のWWWページ)を表す。
色が付いている所が、見つかったデータを表す。
「keyword1」で検索。

図? キーワードを1つ与えた時
keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND)
keyword1 OR keyword2 OR keyword3

図? キーワードを3つ与えた時(OR)
NOT keyword1

図? キーワードを1つ与えた時(NOT)
キーワードを1つ与えた時の NOT は使えない。
NOT keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND,NOT)
NOT は、AND といっしょにつかう。
NOT 単独では、使えない。
絞込検索(しぼりこみけんさく)のイメージ

図? キーワードを1つ与えた時

図? キーワードを2つ与えた時

図? キーワードを3つ与えた時
絞込検索は、実は、AND と同じ。
keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND)
- 検索エンジン(サーチエンジン)
-
WWWで検索機能を使う時、実際に検索を行うプログラム。
インターネット上のあるWWWサーバで動いていてる。
検索結果は、手元のWWWブラウザの画面に表示される。
検索対象のデータにキーワードを与える方法
- 内容すべてをキーワードと考える(全文検索)
- 特定のキーワードを与える
- WWWページを作った人がキーワードを与える
- 検索エンジンの提供者(人間)がキーワードを与える
- プログラムでキーワードを自動抽出する
自動抽出したものは、ヒット率はよいが選択率が悪い。
人間が整理したものは、選択率はよいがヒット率が悪い。
- WWWロボット。
- WWWページからプログラムでキーワードを自動抽出するプログラム。
WWWロボットの動き
- ロボットは、あるURLが与えられると、そのページ
を訪れる(ページの内容を得る)。
- 得たページの内容を解析して、キーワードを抽出する。
- そのページにリンクが含まれていたら、1 に戻って繰り返す。
このような繰り返しの方法を、コンピュータ・サイエンスの用語では
再帰(recursion)
とう。ロボットは、世界中の WWWページを歩き回り、キーワードを抽出する。
ただし、一度訪れたことがあるページは記録しておいて、2度訪れないようす
る。
インターネット上の重要な情報源に FAQ がある。
FAQ は、もともとは、
Frequently Asked Questions
の略で、「よくある質問」という意味である。
実際には質問だけでなく
て答えもいっしょに書かれている。しかも、実用的で非常に品質がよい情報
が集まっていることが多いので、質問したいことがなくても、自分の興味がある
分野の FAQ を探して読むことはよい勉強になる。
FAQ を作る活動は、ネットワーク・ニュースでよく行なわれている。というの
も、繰り返しなされる質問をまとめて定期的に投稿することで、記事の質を高
めることができる。インターネットで流通するようなフリー・ソフトウェアで
も、マニュアルとは別に FAQ が作られることもよくある。
自分が欲しい情報を決めなさい。それを、次の2種類のサーチエンジンを
使って検索しなさい。
探したい情報により、どちらを選択すればよいかが違う。
よいキーワードになるものには次のようなものがある。
これを確かめなさい。他にどのようなキーワードがよいか。
固有名詞を例に、類似のデータを引出してみなさい。
AND, OR, NOT などの演算で組み合わせてみなさい。
サーチエンジンによっては、これ以外の他の演算子を提供していることがある。
自分が探したい情報を決め、それを探してみなさい。
次のような内容を含む電子メールを新城に送りなさい。
- 名前、学籍番号、学類
- 探したい情報
- 選択したサーチエンジン
- 検索の方法。キーワードや演算子。
- 欲しかったページの割合
電子メールの宛先と題名は、次のようにすること。
To: yas@is.tsukuba.ac.jp
Subject: [ipe-inet] Report3: WWW Search
締め切りは、2002年1月25日金曜日とする。
18日の実習時間中に出すことが望ましい。
↑[もどる]
←[1月11日]
・[1月18日]
→[2月1日]
Last updated: 2002/01/18 05:00:18
Yasushi Shinjo / <yas@is.tsukuba.ac.jp>