Webの世界はまだ始まったところで、新しい言葉が次々とでてきます。特に技術用語が多く、そのほとんどが英語、あるいはカタカナで表示されます。WWW、HTML、インターネット、ブラウザなど至る所に見られます。検索の世界もサーチエンジンと言う言葉が使われています。「サーチエンジンって何ですか」とよく聞かれることがありますが、返答に困る言葉です。そこで、今回はサーチエンジンを取り上げてみました。
サーチエンジンという言葉はWWWの出現する前からあったのか、それともWWW以降なのか、はっきりしませんが、10年以上前に人工知能(AI)が流行った頃に、推論エンジンという言葉がよく使われました。専門家がいろいろな状況のもとで的確な判断をする情報処理構造を分析し、その処理を模擬できれば頭脳の代行ができるということで開発が行われました。推論エンジンは簡単に言えば if~thenルール を処理するソフトでしたが、時々、検索処理をするところをサーチエンジンという場合がありました。大事なことですが、このようなソフトはOSがUNIXのワークステーションで開発されていました。
検索用のソフトは商用データベースで使われている大規模なものからパソコンで手軽に使う小規模なものまでいろいろあります。パソコンでよく使われるのはgrepです。初期の頃のYahoo!もgrepを使っていましたが、データが10MB位あっても十分に利用できます。そして、大規模なものは日本語のテキストから検索用の索引を作成します。しかし、HTMLで書かれたWebページの索引化には日本語のテキストの他にHTMLのタグも処理しなければなりません。しかも、タグは絶えず拡張しているため、ソフトの対応は遅れてしまいます。
Webの世界ではサーチエンジンという言葉が氾濫しています。一般的に解釈すれば、Web情報を探している人が利用する検索や索引サービスをサーチエンジンといい、Yahoo!、Lycos、AltaVistaなどを指します。そして、サービスの優劣がそこで使われる検索を含めたソフトの優劣によるところが大きいためにコンピュータの用語を使って表現しているようです。サーチエンジンは本来の検索ソフト(狭義)から離れて、サービス全体(広義)を包括的に表すようになってきました。昔のサーチエンジンを知っている人にとっては戸惑いを感じる所です。検索デスクではサーチエンジンという言葉の使用を避け、検索・索引サービスと呼んでいます。そう、今朝読んだ新聞記事はSearch Engineと使わずにInternet Search Serviceと書いてありました。まだ、少数派のようです。
各検索サービスの処理システムを次の8種類の観点から捕らえてみました。これらは検索サービスに重要な速報性、網羅性、使いやすさに影響を与える要因です。
(1) 収集手段 -- A.ロボット B.登録 C.ブラウズ
情報をどのように入手するかです。
(2) 収集ページ - A.全ページ B.主要ページ C.ホームページ
収集する範囲がホームページ内のどの部分までか。
(3) 索引範囲 -- A.HTML+本文 B.本文 C.紹介文 D.キーワード
索引の作成がページ内のどの部分を対象にしているか。
(4) 検索条件 -- A.AND/OR/NOT B.AND/OR C.AND D.なし
検索技術の基本のAND/OR/NOTは完璧に処理して欲しいものです。
(5) 単語処理 -- A.漢字/カナ/英字/数字 B.漢字/カナ C.英字/数字 D.なし
漢字、カタカナ、英字、数字の処理を正しく処理できるか
(6) 紹介文 --- A.ソフトが作成 B.人が作成 C.登録利用 D.なし
検索した結果を表示する際に用いる紹介文。
(7) 出力順序 -- A.スコア順 B.月日順 C.ABC順 D.なし
スコア順といっても、いろいろな方法があります。
(8) 結果表示 - A.総数表示/頁単位 B.総数表示 C.頁単位 D.なし
検索結果を表示するのもいろいろなパターンがあります。
その他に、逆リンク、類似検索、概念検索、それからおまけのサービスとして、ホットニュース、クリッピング、個人情報管理などがあります。