検索デスク＞アーカイブ＞視点＞視点(14)

ロボット系サーチエンジンの重複調査
　　　視点(14) 1997年8月14日

１．はじめに

　 97年3月にｇｏｏによる本格的な検索サービスが開始されました。それまでのロボット系の検索は大学や企業のボランティアのものが多く、複雑な検索式は利用できませんでした。ｇｏｏが登場して5ヶ月経過し、ロボット系の検索サービスも充実してきました。1日あたりのページビューは、Infoseek Japanが7月31日に、ｇｏｏが8月5日に、それぞれ100万ページビューを突破しました。そこで、今回はロボット系で問題になる重複について考察してみたいと思います。

２．ロボット系の現状

　ｇｏｏが登場した97年3月から、日本のロボット系検索サービスの検索力を毎週調査しています。この数ヶ月でボリュームもアップしてきました。8月10日時点での上位のデータ収集件数は、gooが770万件、Infoseek Japanが588万件、InfoNavigatorが267万件、Excite Japanが186万件です。それまでのロボット系の収集量は20～50万件で、検索数が登録系とあまり差のないものもありました。

　一方、検索機能面でみても、従来のサーチエンジンはAND検索やOR検索しかできませんでしたが、最近のはブール検索、フレーズの""、かっこ( )などが利用できるようになっています。そして、収集したデータからデータベースをつくる際のことですが、ページ内容の一部を索引化する段階からページ内容の全部を索引化する段階へと進展しています。

　 検索式が使えて、全文を索引するものを第２世代のサーチエンジンとみなしていますが、このタイプのものは検索オプションも豊富で、調査などもでき、非常に重宝しています。検索力をみていただければ分かりますが、第１世代と第２世代のサーチエンジンはますます差が開いていきます。これは1年前の米国の状況と似ています。

３．真の検索力を求めて

　検索力という概念は「検索デスク」で提案したもので、徐々に受入れられてきています。海外の検索力は96年9月から、日本の検索力は97年3月から調査しています。検索力は検索の可能性を示す尺度で、検索キーを入力してどれだけの検索数が得られるかを各検索サービスごとに求め、それを相対的な数値で示したものです。

　検索サービスが何回使われたかという使用カウントを用いる場合がありますが、知名度や人気に左右されますのであまりお勧めできません。また、データ収集数がよく使われますが、サーチエンジンに関しては、収集したページの内容を索引化する方法も影響します。従って、各検索サービスごとの索引率がわかれば、（収集数×索引率）はサーチエンジンの性能をあらわすものと言えます。この索引率を客観的な方法で求めることができないため、検索力を用いています。

　ロボット系のデータ収集では重複したデータを集めるのはやむを得ないことです。それを排除しないでデータベース化すると、検索結果に同じ内容のページが重複して表れます。重複データがあれば、収集数も多くなり、検索力も高くなります。従って、正しい検索力を求めようとすれば、重複データを除いて計算することが必要になります。検索力の定義を（収集数×索引率×ユニーク率）としていますが、実際には重複データはゼロ、すなわちユニーク率は１として求めていました。なお、ユニーク率は重複率の逆で１－重複率で求めます。

４．重複調査のためのデータ収集

　さて、重複調査は収集数の得られる上記の4種類の検索サービスを対象にしました。数百万のデータを全数調べることは不可能なため、ランダムに選んだキーを用いて検索し、その検索結果の中に重複があるかないかを調べ、重複数→ユニーク数→ユニーク率を求めました。

　検索キーは任意に選びました。使用したキーは、「意思決定」、「翻訳」、「マック」、「うなぎ」、そして「communicator」の5種類です。いずれの検索も検索数が多いため、上位の500を収集し、重複を調べました。すなわち、4×5×500＝10,000のデータを使いました。その詳細は、後半部分の付録に載せておきます。

５．各検索サービスのユニーク率

　各検索サービスごとに5種類の結果が得られますが、その合計を以下に示します。

　ユニーク率はｇｏｏが0.7100、Infoseek Japanが0.9944、InfoNavigatorが0.8160、そしてExcite Japanが0.9652と得られました。これは、200件の検索結果が得られた場合、ｇｏｏは58件、Infoseek Japanは1件、InfoNavigatorは37件、Excite Japanは7件、の重複データ含むことを意味します。

　重複データをゼロにすることは不可能であり、新規データの追加、既存データの更新、重複データやNot Foundデータの排除などがバランスよく発展して行くのが望ましいように思えます。従って、重複データを３％位まで是認するとすれば、Infoseek JapanとExcite Japanは合格とみなせます。ｇｏｏは約8%がalternateとして示されますが、29%の重複は利用する場合に不便です。同様なことは、18%の重複を示すInfoNavigatorにも当てはまります。

　現在のロボット系は拡張期です。データ収集数の推移ですが、ｇｏｏはこの２週間で約75%増加、Infoseek Japanは2週間で約40%増加、InfoNavigatorは４週間で約50%増加しています。従って、重複データを除いてないのを調査したもので、一時的な現象なのかも知れません。

サービス名	データ数	重複数	alternate	ユニーク数	ユニーク率
ｇｏｏ	2,500	725	(207)	1,775	0.7100
Infoseek Japan	2,500	14	--	2,486	0.9944
InfoNavigator	2,500	460	--	2,040	0.8160
Excite Japan	2,500	87	--	2,413	0.9652

６．各検索サービス間の重複調査

　検索結果はランキング・アルゴリズムにより、その上位より表示されます。各検索サービスのランキング結果にあまり差がなければ、検索結果間の重複データは多くなります。これを調べるために、検索キーごとに各検索サービスの結果を集め、その重複を調べました。以下の表に、その結果を示します。

　合計のユニーク率が0.8725ということは、非常に重要なことを示しています。それは各検索サービスのランク出力は互いに異なっていることを表しています。従って、一つの検索サービスから200の結果を得るのと、4種類の検索サービスから50件づつ200の結果を得るのとどちらがベターかと言えば、ランク出力の優劣が分からない現状では後者の方がよいと言えます。このことは巡回検索が必要なことを示しています。

サービス名	データ数	重複数	ユニーク数	ユニーク率
意思決定	1,760	236	1,524	0.8659
翻訳	1,731	188	1,543	0.8914
マック	1,720	144	1,576	0.9162
うなぎ	1,720	322	1,398	0.8128
communicator	1,783	221	1,562	0.8761
合計	8,714	1,111	7,603	0.8725

７．有効数と索引率の推定

　 実際に得られたデータにユニーク率を掛けたものを有効数と定義し、検索力と収集数の有効数を以下の表に示します。

　重複を含まない有効収集数は、Infoseek Japanが585万件、ｇｏｏが547万件、InfoNavigatorが218万件、Excite Japanが180万件であることがわかりました。驚くことにInfoseek Japanの方がｇｏｏよりも有効収集数が多いこと、500万件収集の検索サービスが2社あることが判明しました。

　さらに、有効収集数×索引率が有効検索数に比例することから、有効検索数／有効収集数を計算し、ｇｏｏを100に調整した値を求めました。その結果、上記の表のようになります。索引率は、(1)200行までと上限を定めて索引したり、(2)タグの中身を属性としてあつかったり、(3)Exciteのコンセプト検索のように関連キーを自動的に付加したり、などサーチエンジンの索引ルールが合成されたものです。なぜこのような数値になるのか解明できたらおもしろいと思います。とにかく、検索数が収集数に比例しないことが分かっただけでも収穫です。

サービス名	goo	iseekJ	inaviP	excitJ
ユニーク率	0.7100	0.9944	0.8160	0.9652
検索数	723,027	389,595	232,591	128,480
有効検索数	513,349	387,413	189,794	124,009
検索力	1,000	755	370	242
収集数	7,703,713	5,879,641	2,672,369	1,858,956
有効収集数	5,469,636	5,846,715	2,180,653	1,794,264
索引率	100.0	70.6	92.7	73.6

８．むすび

　前から確かめようと思っていた、検索力＝収集数×索引率×ユニーク率、を検証することができました。この一連の調査は高度な検索機能を有する検索サービスが登場したから可能になったものであり、8月になって初めて実施できました。ここでとり上げた検索サービスに、Many Thanks。

　ユニーク率は有効検索数や有効収集数の算定に重要な要因であるため、毎週調査する必要があります。この初回の調査は慣れないせいもあり、ずいぶん時間がかかってしまいました。土曜日から日曜日はメインテナンスと重なるせいか正確な数値がでない恐れがあります。特にｇｏｏの場合、9日(土)朝の収集数は960万、10日(日)朝は770万、11日(月)夜は690万、そして12日(火)朝は770万と2転3転しました。そのたびに、データを収集しなおし、重複数を求めました。

　先日書いた原稿の中で、インターネットの落とし穴として、Webの世界を判断するのに、(1)現在の価値基準から判断すること、(2)陳腐化したWeb情報から判断すること、の2点をあげ、Webの現状を正しく判断するためには知識をいかにリフレッシュさせるかが課題であると記しました。その意味で、急展開中のサーチエンジンの実体のリフレッシュは必要であり、今後も調査を続行したいと思っています。

　最後までお付き合いいただき、ありがとうございました。

　 追記１：8月23日　infoNavigatorのユニーク率は0.8160から0.9868へと一挙に改善し利用しやくなりました。Thanks。

　 追記２：9月7日　gooのユニーク率は0.7100から0.9824へと劇的に改善し、利用しやくなりました。ソフト担当の方、Thanks。

付録１．ｇｏｏのデータ

サービス名	検索数	データ数	重複数	alternate	ユニーク数	ユニーク率
意思決定	8,205	500	133	(57)	367	0.734
翻訳	56,666	500	155	(43)	345	0.690
マック	40,903	500	167	(35)	333	0.666
うなぎ	5,816	500	165	(47)	335	0.670
communicator	4,891	500	105	(25)	395	0.790
合計	---	2,500	725	(207)	1,775	0.7100

付録２．Infoseek Japanのデータ

サービス名	検索数	データ数	重複数	ユニーク数	ユニーク率
意思決定	3,945	500	0	500	1.000
翻訳	32,539	500	2	498	0.996
マック	28,827	500	2	498	0.996
うなぎ	5,214	500	7	493	0.986
communicator	3,270	500	3	497	0.994
合計	---	2,500	14	2,486	0.9944

付録３．InfoNavigatorのデータ

サービス名	検索数	データ数	重複数	ユニーク数	ユニーク率
意思決定	1,684	500	92	408	0.816
翻訳	15,909	500	98	402	0.804
マック	14,488	500	90	410	0.820
うなぎ	3,491	500	92	408	0.816
communicator	1,910	500	88	412	0.824
合計	---	2,500	460	2,040	0.8160

付録４．Excite Japanのデータ

サービス名	検索数	データ数	重複数	ユニーク数	ユニーク率
意思決定	18,361	500	15	485	0.970
翻訳	14,193	500	14	486	0.972
マック	6,864	500	21	479	0.958
うなぎ	90,436	500	16	484	0.968
communicator	1,379	500	21	479	0.958
合計	---	2,500	87	2,413	0.9652

ロボット系サーチエンジンの重複調査 視点(14) 1997年8月14日