97年3月にgooによる本格的な検索サービスが開始されました。それまでのロボット系の検索は大学や企業のボランティアのものが多く、複雑な検索式は利用できませんでした。gooが登場して5ヶ月経過し、ロボット系の検索サービスも充実してきました。1日あたりのページビューは、Infoseek Japanが7月31日に、gooが8月5日に、それぞれ100万ページビューを突破しました。そこで、今回はロボット系で問題になる重複について考察してみたいと思います。
gooが登場した97年3月から、日本のロボット系検索サービスの検索力を毎週調査しています。この数ヶ月でボリュームもアップしてきました。8月10日時点での上位のデータ収集件数は、gooが770万件、Infoseek Japanが588万件、InfoNavigatorが267万件、Excite Japanが186万件です。それまでのロボット系の収集量は20~50万件で、検索数が登録系とあまり差のないものもありました。
一方、検索機能面でみても、従来のサーチエンジンはAND検索やOR検索しかできませんでしたが、最近のはブール検索、フレーズの""、かっこ( )などが利用できるようになっています。そして、収集したデータからデータベースをつくる際のことですが、ページ内容の一部を索引化する段階からページ内容の全部を索引化する段階へと進展しています。
検索式が使えて、全文を索引するものを第2世代のサーチエンジンとみなしていますが、このタイプのものは検索オプションも豊富で、調査などもでき、非常に重宝しています。検索力をみていただければ分かりますが、第1世代と第2世代のサーチエンジンはますます差が開いていきます。これは1年前の米国の状況と似ています。
検索力という概念は「検索デスク」で提案したもので、徐々に受入れられてきています。海外の検索力は96年9月から、日本の検索力は97年3月から調査しています。検索力は検索の可能性を示す尺度で、検索キーを入力してどれだけの検索数が得られるかを各検索サービスごとに求め、それを相対的な数値で示したものです。
検索サービスが何回使われたかという使用カウントを用いる場合がありますが、知名度や人気に左右されますのであまりお勧めできません。また、データ収集数がよく使われますが、サーチエンジンに関しては、収集したページの内容を索引化する方法も影響します。従って、各検索サービスごとの索引率がわかれば、(収集数×索引率)はサーチエンジンの性能をあらわすものと言えます。この索引率を客観的な方法で求めることができないため、検索力を用いています。
ロボット系のデータ収集では重複したデータを集めるのはやむを得ないことです。それを排除しないでデータベース化すると、検索結果に同じ内容のページが重複して表れます。重複データがあれば、収集数も多くなり、検索力も高くなります。従って、正しい検索力を求めようとすれば、重複データを除いて計算することが必要になります。検索力の定義を(収集数×索引率×ユニーク率)としていますが、実際には重複データはゼロ、すなわちユニーク率は1として求めていました。なお、ユニーク率は重複率の逆で1-重複率で求めます。
さて、重複調査は収集数の得られる上記の4種類の検索サービスを対象にしました。数百万のデータを全数調べることは不可能なため、ランダムに選んだキーを用いて検索し、その検索結果の中に重複があるかないかを調べ、重複数→ユニーク数→ユニーク率を求めました。
検索キーは任意に選びました。使用したキーは、「意思決定」、「翻訳」、「マック」、「うなぎ」、そして「communicator」の5種類です。いずれの検索も検索数が多いため、上位の500を収集し、重複を調べました。すなわち、4×5×500=10,000のデータを使いました。その詳細は、後半部分の付録に載せておきます。
各検索サービスごとに5種類の結果が得られますが、その合計を以下に示します。
ユニーク率はgooが0.7100、Infoseek Japanが0.9944、InfoNavigatorが0.8160、そしてExcite Japanが0.9652と得られました。これは、200件の検索結果が得られた場合、gooは58件、Infoseek Japanは1件、InfoNavigatorは37件、Excite Japanは7件、の重複データ含むことを意味します。
重複データをゼロにすることは不可能であり、新規データの追加、既存データの更新、重複データやNot Foundデータの排除などがバランスよく発展して行くのが望ましいように思えます。従って、重複データを3%位まで是認するとすれば、Infoseek JapanとExcite Japanは合格とみなせます。gooは約8%がalternateとして示されますが、29%の重複は利用する場合に不便です。同様なことは、18%の重複を示すInfoNavigatorにも当てはまります。
現在のロボット系は拡張期です。データ収集数の推移ですが、gooはこの2週間で約75%増加、Infoseek Japanは2週間で約40%増加、InfoNavigatorは4週間で約50%増加しています。従って、重複データを除いてないのを調査したもので、一時的な現象なのかも知れません。
サービス名 | データ数 | 重複数 | alternate | ユニーク数 | ユニーク率 |
goo | 2,500 | 725 | (207) | 1,775 | 0.7100 |
Infoseek Japan | 2,500 | 14 | -- | 2,486 | 0.9944 |
InfoNavigator | 2,500 | 460 | -- | 2,040 | 0.8160 |
Excite Japan | 2,500 | 87 | -- | 2,413 | 0.9652 |
検索結果はランキング・アルゴリズムにより、その上位より表示されます。各検索サービスのランキング結果にあまり差がなければ、検索結果間の重複データは多くなります。これを調べるために、検索キーごとに各検索サービスの結果を集め、その重複を調べました。以下の表に、その結果を示します。
合計のユニーク率が0.8725ということは、非常に重要なことを示しています。それは各検索サービスのランク出力は互いに異なっていることを表しています。従って、一つの検索サービスから200の結果を得るのと、4種類の検索サービスから50件づつ200の結果を得るのとどちらがベターかと言えば、ランク出力の優劣が分からない現状では後者の方がよいと言えます。このことは巡回検索が必要なことを示しています。
サービス名 | データ数 | 重複数 | ユニーク数 | ユニーク率 |
意思決定 | 1,760 | 236 | 1,524 | 0.8659 |
翻訳 | 1,731 | 188 | 1,543 | 0.8914 |
マック | 1,720 | 144 | 1,576 | 0.9162 |
うなぎ | 1,720 | 322 | 1,398 | 0.8128 |
communicator | 1,783 | 221 | 1,562 | 0.8761 |
合計 | 8,714 | 1,111 | 7,603 | 0.8725 |
実際に得られたデータにユニーク率を掛けたものを有効数と定義し、検索力と収集数の有効数を以下の表に示します。
重複を含まない有効収集数は、Infoseek Japanが585万件、gooが547万件、InfoNavigatorが218万件、Excite Japanが180万件であることがわかりました。驚くことにInfoseek Japanの方がgooよりも有効収集数が多いこと、500万件収集の検索サービスが2社あることが判明しました。
さらに、有効収集数×索引率が有効検索数に比例することから、有効検索数/有効収集数を計算し、gooを100に調整した値を求めました。その結果、上記の表のようになります。索引率は、(1)200行までと上限を定めて索引したり、(2)タグの中身を属性としてあつかったり、(3)Exciteのコンセプト検索のように関連キーを自動的に付加したり、などサーチエンジンの索引ルールが合成されたものです。なぜこのような数値になるのか解明できたらおもしろいと思います。とにかく、検索数が収集数に比例しないことが分かっただけでも収穫です。
サービス名 | goo | iseekJ | inaviP | excitJ |
ユニーク率 | 0.7100 | 0.9944 | 0.8160 | 0.9652 |
検索数 | 723,027 | 389,595 | 232,591 | 128,480 |
有効検索数 | 513,349 | 387,413 | 189,794 | 124,009 |
検索力 | 1,000 | 755 | 370 | 242 |
収集数 | 7,703,713 | 5,879,641 | 2,672,369 | 1,858,956 |
有効収集数 | 5,469,636 | 5,846,715 | 2,180,653 | 1,794,264 |
索引率 | 100.0 | 70.6 | 92.7 | 73.6 |
前から確かめようと思っていた、検索力=収集数×索引率×ユニーク率、を検証することができました。この一連の調査は高度な検索機能を有する検索サービスが登場したから可能になったものであり、8月になって初めて実施できました。ここでとり上げた検索サービスに、Many Thanks。
ユニーク率は有効検索数や有効収集数の算定に重要な要因であるため、毎週調査する必要があります。この初回の調査は慣れないせいもあり、ずいぶん時間がかかってしまいました。土曜日から日曜日はメインテナンスと重なるせいか正確な数値がでない恐れがあります。特にgooの場合、9日(土)朝の収集数は960万、10日(日)朝は770万、11日(月)夜は690万、そして12日(火)朝は770万と2転3転しました。そのたびに、データを収集しなおし、重複数を求めました。
先日書いた原稿の中で、インターネットの落とし穴として、Webの世界を判断するのに、(1)現在の価値基準から判断すること、(2)陳腐化したWeb情報から判断すること、の2点をあげ、Webの現状を正しく判断するためには知識をいかにリフレッシュさせるかが課題であると記しました。その意味で、急展開中のサーチエンジンの実体のリフレッシュは必要であり、今後も調査を続行したいと思っています。
最後までお付き合いいただき、ありがとうございました。
追記1:8月23日 infoNavigatorのユニーク率は0.8160から0.9868へと一挙に改善し利用しやくなりました。Thanks。
追記2:9月7日 gooのユニーク率は0.7100から0.9824へと劇的に改善し、利用しやくなりました。ソフト担当の方、Thanks。
サービス名 | 検索数 | データ数 | 重複数 | alternate | ユニーク数 | ユニーク率 |
意思決定 | 8,205 | 500 | 133 | (57) | 367 | 0.734 |
翻訳 | 56,666 | 500 | 155 | (43) | 345 | 0.690 |
マック | 40,903 | 500 | 167 | (35) | 333 | 0.666 |
うなぎ | 5,816 | 500 | 165 | (47) | 335 | 0.670 |
communicator | 4,891 | 500 | 105 | (25) | 395 | 0.790 |
合計 | --- | 2,500 | 725 | (207) | 1,775 | 0.7100 |
サービス名 | 検索数 | データ数 | 重複数 | ユニーク数 | ユニーク率 |
意思決定 | 3,945 | 500 | 0 | 500 | 1.000 |
翻訳 | 32,539 | 500 | 2 | 498 | 0.996 |
マック | 28,827 | 500 | 2 | 498 | 0.996 |
うなぎ | 5,214 | 500 | 7 | 493 | 0.986 |
communicator | 3,270 | 500 | 3 | 497 | 0.994 |
合計 | --- | 2,500 | 14 | 2,486 | 0.9944 |
サービス名 | 検索数 | データ数 | 重複数 | ユニーク数 | ユニーク率 |
意思決定 | 1,684 | 500 | 92 | 408 | 0.816 |
翻訳 | 15,909 | 500 | 98 | 402 | 0.804 |
マック | 14,488 | 500 | 90 | 410 | 0.820 |
うなぎ | 3,491 | 500 | 92 | 408 | 0.816 |
communicator | 1,910 | 500 | 88 | 412 | 0.824 |
合計 | --- | 2,500 | 460 | 2,040 | 0.8160 |
サービス名 | 検索数 | データ数 | 重複数 | ユニーク数 | ユニーク率 |
意思決定 | 18,361 | 500 | 15 | 485 | 0.970 |
翻訳 | 14,193 | 500 | 14 | 486 | 0.972 |
マック | 6,864 | 500 | 21 | 479 | 0.958 |
うなぎ | 90,436 | 500 | 16 | 484 | 0.968 |
communicator | 1,379 | 500 | 21 | 479 | 0.958 |
合計 | --- | 2,500 | 87 | 2,413 | 0.9652 |