ユーザーは何を基準にして検索サービスを選択し利用しているのでしょうか。情報を探すにはいろいろなレベルがあり、ある場合には成功し、ある場合には失敗します。ぴったりかどうかは満足するかどうかで決まるものですから、日本のようにブランド志向の強い国民性ではブランドを確立した方が有利なのかも知れません。今回は米国を中心とした最先端の検索サービスを対象に、検索して探しだせる可能性について考察しました。
検索画面に収集数が載せてあるところがあります。例えば、Lycosは5,995万件、HotBotは5,400万件、Exciteは5,000万件、AltaVistaは3,000万件などです。この表示自体は悪いことではなく、検索システムの内容を公開するところは、公開しないところに比べて良心的な所とみなせます。トップに近い所は収集数の多いことを宣伝材料に使いますが、大量の情報を処理するシステムを持っていることは賞賛に値します。
検索システムごとにデータベースの索引方法が異なります。収集したページのブラウザに表示するテキスト部分しか索引化しないところ、それも全部ではなく一部しか処理しないところなどあります。最近はさらに徹底してきており、ブラウザの表面に表れない裏の部分、すなわちHTML文のタグの部分を処理するところもあります。
ブラウザの発展も急で、新しい方法が次々と開発されています。それと共にWebページには新しいタグが追加されていきます。最新のActiveX Controlは<OBJECT>で表現しますが、それを処理する検索サービスはまだないというか、タイムラグのあるのが現状です。フレームなどを使ったページは、たとえテキスト画面だけでも処理は複雑で、利用できるようになって10ヶ月近くなりますが、正しく処理できてないようです。
調査するキーワードに何を使うかは議論が分かれるところですが、分類カテゴリーにあるような比較的大きな概念を表すキーを選びました。検索数が少ないのは合計を求めた場合に影響が少ないからです。もちろん、ここに表れるキー以外にも調べましたが、結局、この10種類に落ち着きました。何十万と検索すること自体無意味かも知れませんが、多ければ多いほど、新しいキーや使用頻度の少ないキーを検索する可能性は高いとみなせます。検索サービスによっては、接続時の状況により検索数はいくらかぶれますが、何回も調べるということは行いませんでした。
ところで、Web情報の収集数と実際の検索数とは比例しません。上記の理由によるわけですが、それではユーザーは何を頼りに検索を利用したらよいかということでいろいろ手がかりを求めました。早速、10種類のキーワードを使って検索調査を試みました。
検索キー | Excite | HotBot | Altav | Ultra | Dejan | Opent | Lycos | Webcr | Yahoo |
biology | 534 | 505 | 290 | 187 | 25 | 96 | 59 | 12 | 0.54 |
hardware | 1264 | 1257 | 644 | 405 | 178 | 107 | 113 | 36 | 0.52 |
holiday | 337 | 327 | 179 | 185 | 27 | 35 | 35 | 14 | 0.51 |
java | 682 | 866 | 236 | 145 | 70 | 52 | 58 | 21 | 0.52 |
literature | 729 | 732 | 384 | 285 | 42 | 77 | 71 | 21 | 0.55 |
market | 1823 | 1695 | 983 | 732 | 228 | 180 | 117 | 63 | 0.60 |
movie | 617 | 631 | 335 | 391 | 151 | 79 | 69 | 29 | 0.66 |
museum | 707 | 595 | 334 | 269 | 23 | 66 | 80 | 24 | 1.00 |
outdoor | 337 | 272 | 153 | 115 | 14 | 31 | 30 | 14 | 1.00 |
photography | 358 | 279 | 158 | 185 | 17 | 35 | 36 | 16 | 0.53 |
合計 | 7388 | 7159 | 3695 | 2900 | 774 | 757 | 666 | 251 | 6.43 |
検索力 | 1999 | 1937 | 1000 | 785 | 209 | 205 | 180 | 88 | 1.75 |
10種類の合計を求め、3番目にあるAltaVistaを1,000とみなした時の相対的な値を求め、それを検索力、Search Powerと名付けました。それをグラフ化したのが、一番最初に示したグラフです。以後、検索デスクでは検索力を使います。検索の可能性を示す一つの目安としてご利用下さい。最近は半分以上のサービスが毎日更新しますので、毎週日曜日に再調査し検索力を更新する予定です。さらに、日本の検索サービスにも適用する予定です。
(1) Excite 7月15日に新装以来トップを走っています。索引化はタグ部分を含まないので、逆リンクは得られません。Concept Searchは通常のKeyword Searchよりも何割か多くのページを検索します。紙面を意欲的に構成し、検索結果も非常に精選されており、機能面の不足を十分に補います。検索画面でAltaVistaの2倍のパワーがあると宣伝していますが、この検索力からも裏付けできます。
(2) HotBot 以前のInktomeが5月20日にHotBotに新装開店しました。タグの部分も索引化しており、メニュー選択ですが機能面ではAltaVistaと肩を並べるほどの充実ぶりです。更新が2ヶ月位かかるのと、検索結果のスコア順出力の改善が望まれます。
・追加9.18> 7週ぶりに更新し約12.5%増加、6,000万件(推定)。検索力は2,180となりトップ。
(3) AltaVista 昨年12月15日にオープンして以来、HotBotがサービスする半年間トップの座を占めていました。そのパワーは他の検索システムに影響を与え、AltaVistaを追いつき追い越せが合い言葉で、検索力では3位になってしまいました。タグの部分も索引化しており、機能面でもコマンドの採用で使いやすくなっています。
(4) Infoseek Ultra 6月にUltraseekとしてオープンする予定が延期になり、8月15日に名前もシステムも変更したUltraが仮オープンしました。検索力は従来のGuideの約6~7倍あります。Ultraは毎日というか毎時に更新しますが、Guideは8月15日以来更新されていません。さて、索引化はリンク部分、すなわち <a href= の取り込みが行われていますが、Ultraから収集し始めたのかデータ量は少ないようです。機能面はAltaVistaまでは達していませんが、ビギナー向けの心くばりがみられます。
(5) DejaNews NetNewsの分野ですが、最近充実してきました。NetNewsの情報は断片的ですので利用するのは難しいのですが、最新の本音の情報が流れていますので、利用価値の高い情報源の一つとみなせます。もちろん、毎日更新し、情報量も増加しています。短いページビューが広告媒体と結びつき威力を発揮し始めたようです。
(6) OpenText 昨年6月にオープンした時、AND/OR検索を正しく処理すると宣伝していましたが、裏を返せば他の検索サービスが正しくAND/OR検索していないことを表しています。今年の7月中旬にデータ量を倍以上に増加させ、堅苦しい検索画面をシンプルなものに変更し、少し不規則ですが毎日更新するようになっており、検索力も着実に増加しています。HTML部分の索引化は行っていませんが、類似ページの検索が可能です。
(7) Lycos 昨年急成長しましたが、6,000万件の収集で検索力は10分の1位と差がついているのは、収集したページの一部分しか索引化していないのが原因です。それに語尾変化のあるものを一緒にあつかうため、情報が大量になって絞り込まなければならない時には困りますし、AND/ORが正しくあつかえません。更新はこの2ヶ月位されておらず、現在開発中の新しい検索システムに、乞ご期待を!
・追加9.17> 画面新装。Pictures &Soundsの検索追加。検索結果の総数不表示になり今後の検索調査は不可能に。
(8) WebCrawler ここも老舗で、昔ながらの方法でがんばっています。非常に単純な出力結果ですが、シンプルでよいという人もいます。AltaVistaクラスとは完全に差がついてしまいましたが、更新は2週間と早く、着実に収集しています。
(8) Yahoo! 情報をカテゴリーに分類し提供するYahoo!をロボット系の検索サービスと一緒にあつかうのはミステークかも知れません。この検索力からみても、Exciteとは1,000倍、Lycosとは100倍の差がついてしまいました。Yahoo!は情報をピンポイントで探す場合には不利ですが、ホームページ主体の情報ですから、あまりロスはなく、100人力の威力を発揮します。米国と1年以上も差がある日本ではロボット系と登録系とはまだ100倍の差もありませんし、登録系の多いのには驚きます。