経済統計は探せるかな 日曜日も結構込み合ってきました。それにシステムの方が保守をしてるらしく検索できない場合があります。今回は統計に関することを調べようと思ったのですが、どうも上手く行かなくて途中で関連したキーに変更しました。
Windows95でJISコードは送れますか 検索サービスをしているサーバーはほとんどがUNIXマシンで、日本語コードはEUC、あるいはJISが使われています。一方、ユーザー側のマシンはWindowsが多く、コードはShift-JISです。従って、Windowsマシンを使っている人が検索するとShift-JISの検索キーが送られ、それを検索サービス側でEUCやJISに変換します。理由が分かりませんが、Hole-in-Oneの日本のWWW、TITAN、WAVE Searchなどは土日に変換が行われず、検索ができない時があります。Windows95では、「オプション/文書の文字コードセット」の中にある日本語のところには「自動判別/シフトJIS/EUC」の3種類しかなくなくJISはありません。?
No | ロボット系 | 調査 | 資料 | 報告 | 経済 | 経済統計 | 合計 |
1 | InfoNavi Page | 8520 | 13750 | 6463 | 1689 | 55 | 30477 |
2 | 日本語OpenText | 4770 | 6465 | 5347 | 2182 | 30 | 18794 |
3 | NETPLAZA Page | 2720 | 4019 | 2769 | 956 | 0 | 10464 |
4 | Mondou | 2534 | 3288 | 2755 | 1434 | 52 | 10063 |
5 | 千里眼 | 1853 | 2594 | 1554 | 668 | 13 | 6682 |
6 | Hole-in-One | 1486 | 2157 | 1563 | 916 | 23 | 6145 |
7 | Nippon SE 全文 | 1103 | 2605 | 1611 | 727 | 0 | 6046 |
8 | Infoseek JAPAN | 655 | 758 | 708 | 584 | 12 | 2717 |
9 | ODIN | 594 | 726 | 761 | 595 | 9 | 2685 |
10 | TITAN | 99 | 95 | 98 | 97 | 69 | 458 |
No | 平 均 | 2433 | 3646 | 2363 | 985 | 26 | 9453 |
-- | CRN | 7697 | 7421 | 6754 | 2219 | 40 | 24131 |
No | 登録系 | 調査 | 資料 | 報告 | 統計 | 経済統計 | 合計 |
1 | NTT Directory | 464 | 256 | 224 | 68 | 9 | 1021 |
2 | Yahoo! JAPAN | 313 | 252 | 353 | 57 | 0 | 975 |
3 | WAVE Search | 338 | 249 | 268 | 60 | 1 | 916 |
4 | WWWナビゲータ | 247 | 201 | 196 | 47 | 1 | 692 |
5 | Nippon SE | 227 | 187 | 135 | 52 | 0 | 601 |
6 | InfoNavigator | 233 | 187 | 132 | 39 | 3 | 594 |
7 | WebdeW | 170 | 236 | 146 | 28 | 0 | 580 |
8 | NETPLAZA | 178 | 147 | 109 | 37 | 1 | 472 |
9 | Hole-in-One | 108 | 113 | 124 | 25 | 1 | 371 |
10 | DRAGON | 127 | 80 | 107 | 29 | 2 | 345 |
11 | Yahho | 71 | 75 | 34 | 28 | 0 | 208 |
12 | URL広場 | 46 | 66 | 34 | 13 | 0 | 159 |
13 | 日本ネット | 45 | 33 | 20 | 13 | 0 | 111 |
No | 平 均 | 233 | 189 | 171 | 45 | 2 | 640 |
-- | SS | 52 | 65 | 33 | 7 | 0 | 157 |
No | ロボット系 | 子供 | 子育て | 受験 | 育児 | いじめ | 合計 |
1 | InfoNavi Page | 6233 | 487 | 1463 | 486 | 608 | 2557 |
2 | Infoseek JAPAN | 651 | 79 | 559 | 543 | 480 | 1582 |
3 | 日本語OpenText | 2913 | 315 | 844 | 276 | 298 | 1418 |
4 | ODIN | 654 | 43 | 535 | 325 | 293 | 1153 |
5 | Hole-in-One | 4568 | 176 | 632 | 167 | 256 | 1055 |
6 | Nippon SE 全文 | 749 | 0 | 340 | 81 | 76 | 491 |
7 | Mondou | 871 | 206 | 375 | 96 | 0 | 471 |
8 | 千里眼 | 321 | 40 | 175 | 32 | 49 | 256 |
9 | NETPLAZA Page | 1076 | 577 | 206 | 49 | 0 | 255 |
10 | TITAN | 99 | 78 | 100 | 68 | 0 | 168 |
No | 平 均 | +1,814 | +200 | +523 | +212 | +206 | +314 |
-- | CRNナビゲータ | 4815 | 665 | 1547 | 798 | 888 | 3233 |
No | 登録系 | 子供 | 子育て | 受験 | 育児 | いじめ | 合計 |
1 | InfoNavigator | 286 | 70 | 106 | 67 | 29 | 202 |
2 | NTT Directory | 359 | 288 | 82 | 69 | 28 | 179 |
3 | NETPLAZA | 439 | 48 | 66 | 50 | 22 | 138 |
4 | WWWナビゲータ | 239 | 45 | 82 | 33 | 22 | 137 |
5 | Yahoo! JAPAN | 168 | 40 | 59 | 44 | 30 | 133 |
6 | DRAGON | 216 | 54 | 58 | 52 | 17 | 127 |
7 | WAVE Search | 282 | 94 | 63 | 26 | 22 | 111 |
8 | Nippon SE | 172 | 0 | 46 | 26 | 15 | 87 |
9 | Hole-in-One | 139 | 22 | 37 | 23 | 11 | 71 |
10 | WebdeW | 85 | 17 | 30 | 20 | 7 | 57 |
11 | Yahho | 68 | 9 | 13 | 14 | 9 | 36 |
12 | URL広場 | 54 | 8 | 16 | 12 | 8 | 27 |
No | 平 均 | 209 | 58 | 55 | 36 | 18 | 36 |
今回のねらい Infoseekの日本版が仮オープンしました。20万件のスタートです。早速調査しましたが、ODINと同様に600前後のところに検索数の上限が設定されています。従って、大きな概念のキーでは相互比較できないため、今回は変則的ですが、過去の検索調査で用いたキーで検索数の少ないものを調べました。
ロボット系 仮オープンしたInfoseekの日本版が検索調査に仲間入りしてロボット系の総数は10になりました。現段階では各サービス間にあまり差がないため、検索数をベースにしたランクは使用するキーにより変動します。今回はテーブルのような結果になりました。トップはInfoseek Japanで、ラストはTITANです。
索引系 索引系も順位がよく入れ替わります。特に中位の移動は激しいようです。さて今回のトップはNTT DIRECTORYです。画面の改装は頻繁に行われていますし、たいへん意欲的です。どうゆう理由なのかわかりませんが、ゼロがいくつも続いた長~いファイル名です。URL入力はお手上げです。米国の検索エンジンの検索結果の中にあらわれても即座にわかります。さて、検索結果で注目すべきところはActiveXの結果です。半分近くがゼロです。
ユニーク係数 新着情報でInfoseekがトップとのニュースで、「重複データが含まれているのでは?」とのメールを越桐さんからいただきました。早速、日曜日に調査したキーを使ってロボット系全部の再調査を行いました。その結果はテーブルのユニーク係数という欄に示しました。この係数は重複データが全然含まれていなければ1.000でたくさん含めば含むほど1より小さくなっていきます。例えば、ユニーク係数が0.7の場合は、ユニークが70%、重複が30%をあらわします。Infoseekは0.607、InfoNavigatorは0.928、Open Text Japanは0.988で、残りは1.000、すなわち重複がなかった検索サービスです。なお、合計は各検索数の合計にユニーク係数を掛けた数値です。
Infoseek Japan Infoseek Japanの場合、新たなことがわかりました。それは出力制限がユニークな検索数200までということです。例えば、「相場」を検索すると検索総数は381と表示されますが、その中のユニークなページ数は200で残りの181(=381-200)は重複ページを表しています。五輪では238(=438-200)、薬害では52(=252-200)、フィットネスでは108(=308-200)など重複数は簡単に計算できます。この多さにびっくりしました。重複データがあると使いにくく、イメージ的にはマイナスですが、なぜ、このような仕組みにしたのかわかりません。ユニークなページを正確に200までカウントしているわけですから、重複を除くことはソフトで即座にできます。まだテスト期間中であり、今後もシステムの変更があるかも知れません。12月には最新の検索エンジンUltraが登場します。恐らく現在の検索エンジンへのデータ追加はないかも知れません。それにしても、各キーが200まで達しておりトップですが、20万件の割には検索数が多く、何か秘密?が解消していません。
InfoNavigator InfoNavigatorの出力制限は200です。検索数の総数が519とでても、結果の出力は200までです。「相場」の重複を調べましたが、200のうち、ユニークが190、重複が10ありました。Infoseek Japanと同じ200ですが、処理が異なります。それにしても他のサービスのほとんどが重複ゼロですから、14に1の重複があるのは重複が多いとみなせます。
TITAN 15日にビッグなニュースが飛び込んできました。日本のトップレベルの検索技術をもつTITANをサービスしているNTTがHotBotの母体であるInktomiと提携したことです。日本のトップレベルの検索技術と米国のトップレベルの検索エンジンとの提携で、来年3月には新しい検索サービスが開始されます。相当強力なサービスになり、ユーザーにとっては歓迎すべきことです。ボランティアから企業への離陸にしてもドラスティックな変化です。今回の検索調査からみてTITANは上位の索引系より悪く、数ヶ月間データの更新がなく? これからも期待できない? となればTITANの運命は如何? 1~2週間前からNTT DIRECTORY検索画面からもTITANの紹介が消えており不思議に思っていたのですが、これで納得!。日本独自の検索エンジンの開発を期待していただけにガッカリというのがasaisanの心境です。
No | ロボット系 | 相場 | 五輪 | 薬害 | フィットネス | ActiveX | ユニーク係数 | 合計 |
1 | Infoseek JAPAN | 381 | 438 | 252 | 308 | 269 | 0.607 | 1000 |
2 | InfoNavi Page | 519 | 350 | 140 | 105 | 68 | 0.928 | 1097 |
3 | ODIN | 281 | 295 | 139 | 146 | 102 | 1.000 | 963 |
4 | 日本語OpenText | 323 | 197 | 120 | 66 | 51 | 0.988 | 748 |
5 | Hole-in-One | 182 | 184 | 55 | 81 | 34 | 1.000 | 536 |
6 | Mondou | 86 | 112 | 64 | 30 | 30 | 1.000 | 322 |
7 | Nippon SE 全文 | 91 | 101 | 55 | 31 | 35 | 1.000 | 313 |
8 | NETPLAZA Page | 115 | 0 | 132 | 32 | 26 | 1.000 | 305 |
9 | 千里眼 | 44 | 27 | 18 | 27 | 20 | 1.000 | 136 |
10 | TITAN | 27 | 20 | 12 | 16 | 6 | 1.000 | 81 |
No | 平 均 | 206.0 | 172.2 | 98.8 | 84.5 | 61.2 | -- | 622.7 |
No | 登録系 | 相場 | 五輪 | 薬害 | フィットネス | ActiveX | 合計 |
1 | NTT Directory | 31 | 12 | 11 | 26 | 12 | 92 |
2 | InfoNavigator | 42 | 7 | 11 | 19 | 9 | 88 |
3 | WAVE Search | 34 | 21 | 12 | 6 | 0 | 82 |
4 | NETPLAZA | 30 | 7 | 6 | 18 | 4 | 65 |
5 | Yahoo! JAPAN | 26 | 11 | 7 | 16 | 4 | 64 |
6 | Nippon SE | 35 | 6 | 7 | 11 | 3 | 62 |
7 | DRAGON | 22 | 4 | 6 | 17 | 0 | 49 |
8 | WWWナビゲータ | 25 | 6 | 4 | 7 | 5 | 47 |
9 | Hole-in-One | 13 | 11 | 5 | 8 | 0 | 37 |
10 | Yahho | 6 | 18 | 4 | 4 | 0 | 32 |
11 | WebdeW | 17 | 1 | 5 | 5 | 1 | 29 |
12 | 日本ネット | 13 | 0 | 0 | 3 | 0 | 16 |
13 | URL広場 | 5 | 1 | 2 | 3 | 0 | 11 |
No | 平 均 | 23.0 | 8.1 | 6.2 | 11.0 | 2.9 | 51.2 |
今回のねらい 今回は地名の検索をおこないました。ポピュラーすぎてあまり役立つとは思えませんが、検索キーとして、東京、大阪、名古屋、横浜、福岡を調査しました。東京や大阪は登録系の分類カテゴリーにある場合もあります。それにNTTの新着情報で扱っている所在地なども検索に影響します。そのあたりを明らかにします。
データベースの特徴を調べる指標 データベースの内容がバランスのとれたものかどうかを判断することは必要です。今回の調査ではおもに分類カテゴリーや所在地情報を検索するかどうか調べれるようなものを選びました。そこで、次のような指標を求め、指標=(東京と大阪の検索数計)/(名古屋と横浜と福岡の検索数計)検索数の結果を示すテーブルの最後に示しました。
ロボット系 指標が2.0~2.5に収まってるのが5つ(タイプA)、それを超えるのが2つ(タイプB)、1以下が2つ(タイプC)となりまりました。以下、タイプ別のコメントを示しますと、==u ==v タイプA 日本語Opentext、Hole-in-One、Mondou、NipponSE全文、千里眼合計欄を見ますと、日本語OpenTextが4万4千で他より3倍ほど多いのが目立ちます。実際にどれ位のデータを収集しているかは不明ですが、現時点ではトップです。Hole-in-One、Mondou、NipponSEは1万2千から1万6千で、同列とみなせます。最後の千里眼は半分位になりますが、最近システムを変更したのが響いているのかも知れません。 ==v タイプB InfoNavigatorPage、NetplazaPage指標が6.45と3.28と異常に高いことから、他の地域に比べて東京や大阪のデータが多いのだと判断することもできます。しかし、索引化の際に、所在地情報やカテゴリー情報などが付加されてるとみられますが、ブラックボックスです。Web情報の検索は使いにくいという人がいますが、それはデータの収集範囲や索引化の方法が明かされてないため、検索結果を鵜呑みにできないからだと思います。検索数が多くなるように索引化すると、逆に冗長なデータが入ることになります。ますます拡大するWeb情報の検索の世界では通用しない仕組みといえます。
登録系 指標をエクセルを使ってグラフに表すとほとんどが1.5~3.0位に入ります。Wave SearchとInfoNavigatorWebとが高く、この2つをタイプB、それ以外をタイプAとみなしてコメントします。
京都は検索できるか 日本語の漢字処理は難しいですね。語と語の区別ができないからです。地名の京都はほとんどの検索システムで使えません。というのは、京都にあるホテルを検索すると、東京都にあるホテルを検索するからです。しかも所在地まで検索するシステムでは一層増幅します。漢字処理が正しくできるかどうかは、旅と旅行を使って調べていますが、これにパスする検索システムは約3分の1です。Mondou、InfoNavigatorPage、NetplazaPage、ODIN、TITAN、NTT DIRECTORY、InfoNavigatorWeb京都と東京都の場合は、前方一致ができればクリアできます。Yahoo! Japanではオプション検索で選択できますが、そこまで使い分ける人はいますか?
海外の検索サービスの動向 9月23日~29日までの1週間で気がついたことですが、検索力が減少したところがあります。HotBotは8.3%、Exciteは42.0%、OpenTextは1.1%などです。その詳しい事情は分かりませんが、第1に考えられるのは重複ページの削除です。従来、検索結果を返すときに、重複をチェックして出力していますが、応答時間を速くするためには、重複のないデータベースにしていた方が効率的です。それに最初100といっていたのが、出てくるときに80であれば最初の100は不当表示になります。少しずつよいシステムに変わっていくのが感じられますし、検索力も妥当なところに落ち着いてきました。また、この1週間の増加ですが、AltaVistaは1.4%、Ultraは0.1%、Yahoo!は0.4%です。Web情報は1週間あたり推定3~4%増加しているとみなせば、毎日更新していてもデータ収集が追いついていないことを示しており、安心しておれない気がします。
No | ロボット系 | 東京 | 大阪 | 名古屋 | 横浜 | 福岡 | 合計 | 指標 |
1 | 日本語OpenText | 22246 | 9172 | 4897 | 4329 | 3599 | 44243 | 2.45 |
2 | Hole-in-One | 7290 | 3404 | 1945 | 1436 | 1273 | 15348 | 2.30 |
3 | Mondou | 6642 | 3305 | 2006 | 1590 | 1248 | 14791 | 2.05 |
4 | Nippon SE 全文 | 5833 | 2800 | 1724 | 1088 | 1041 | 12486 | 2.24 |
5 | 千里眼 | 3156 | 1527 | 951 | 607 | 582 | 6823 | 2.19 |
No | 平 均 | 6588 | 3170 | 1892 | 1371 | 1187 | 14208 | 2.19 |
* | InfoNavi Page | 72109 | 18298 | 4354 | 4205 | 5452 | 104418 | 6.45 |
* | NETPLAZA Page | 8765 | 3626 | 1255 | 1270 | 1256 | 16082 | 3.25 |
* | ODIN | 660 | 618 | 574 | 587 | 622 | 3061 | 0.72 |
* | TITAN | 100 | 89 | 96 | 90 | 97 | 472 | 0.67 |
No | 登録系 | 東京 | 大阪 | 名古屋 | 横浜 | 福岡 | 合計 | 指標 |
1 | Yahoo! JAPAN | 6261 | 1781 | 720 | 919 | 589 | 10270 | 3.61 |
2 | NTT Directory | 1508 | 650 | 260 | 252 | 311 | 2981 | 2.62 |
3 | Nippon SE | 1554 | 417 | 197 | 202 | 165 | 2535 | 3.49 |
4 | WWWナビゲータ | 866 | 384 | 265 | 222 | 178 | 1915 | 1.88 |
5 | Yahho | 1047 | 340 | 147 | 164 | 158 | 1856 | 2.96 |
6 | NETPLAZA | 806 | 348 | 167 | 158 | 154 | 1633 | 2.41 |
7 | WebdeW | *785 | 314 | 137 | 138 | 124 | *1498 | 2.75 |
8 | Japan SE | 434 | 243 | 163 | 158 | 144 | 1142 | 1.46 |
9 | Hole-in-One | 455 | 210 | 118 | 105 | 100 | 988 | 2.06 |
10 | URL広場 | 394 | 189 | 81 | 59 | 50 | 773 | 3.07 |
11 | 日本ネット | 66 | 21 | 6 | 20 | 5 | 118 | 2.81 |
No | 平 均 | 872 | 344 | 171 | 161 | 154 | 1702 | 2.12 |
* | WAVE Search | 10333 | 2213 | 681 | 1101 | 581 | 14909 | 5.31 |
* | InfoNavigator | 5001 | 1297 | 199 | 190 | 342 | 7029 | 8.62 |
今回のねらい 第9回の検索調査(3月17日)で最新のマルチメディア関連のキーとして、Java, VRML, Shockwave, RealAudioを調べましたが、6ヶ月後にどう変化しているかを調べてみました。それに今回は英単語ばかりということで、海外の検索サービスも調査し日米間の相異も調べました。なお、調査キーにはActiveXを追加し、JavaをJavaScriptに変更しています。
マルチメディア情報の半年間の増加
●ロボット系は半年前はODIN、Mondou、千里眼、TITANの4つでしたが、Open Text Japan、InfoNavigator(Page)、Netplaza(Page)、Nippon Search Engine、Hole-in-One(Page)が加わり9サービスになりました。データのあるODINとMondouの検索数合計を示しますと、 前回 + 増加分 → 今回RealAudio 274 + 530 → 804Shockwave 306 + 1,187 → 1,493VRML 637 + 447 → 1,084合計 1,217 + 2,164 → 3,381
●登録系に新たに加わったのはYahoo!とWebdeWの2つで、トータルは14です。現在、お休み中のCSJを除く11サービスの検索数合計を示しますと、RealAudio 105 + 352 → 457Shockwave 110 + 1,149 → 1,259VRML 122 + 315 → 437合計 337 + 1,816 → 2,153 重複データを含んでいますので、正確な数値はわかりませんが、大体の傾向は判断できます。前回のと今回の増加分とを比較しますと、Shockwaveは27%から59%になり人気が高く、RealAudioは24%から22%で横ばい、そしてVRMLは49%から19%へと逆に人気が少ないことがわかります。
マルチメディア情報の日米間の相異 使用したキーが英単語ということで、海外の検索サービスにも適用してみました。Excite、HotBot、AltaVistaの検索数を下の2つめのテーブルに示します。まったくボリュームが違います。日本の約200倍です。前にも書いたのですが、日本の情報は5%で20倍の差が妥当と思っていたのに、ショックです。その理由として、日本の検索サービスはまだすべてのWeb情報を集めてないのと、速報的な情報収集というか更新の間隔が長いことなどが考えられます。
マルチメディア間の日米相異 RealAudio、Shockwave、VRMLについて、日米間の差異がはっきり浮かび上がってきました。データとして、日本は7つのロボット系のトータル、米国はHotBotとAltaVistaの合計を用いました。そして、各メディア間の割合を求め、それぞれのグラフを以下に示します。日本 realaudio(20%),shockwave(53%),VRML(27%)米国 realaudio(34%),shockwave(26%),VRML(40%)
説明するまでもありませんね。もちろん、世の中にでるのが早ければ多くのデータが集まっていることも考えられます。
海外検索サービスから日本サイトの検索 海外の検索サービスには日本語の情報が入っています。今回のような英単語に利用できます。簡単に調べれたのはHotBotとAltaVistaです。さすが、検索力も大きいだけでなく、木目細かな検索ができます。日本のドメインは最後にjpがつきます。それを手がかりに任意のキーワードと日本のドメインとをAND検索します。検索方法を以下に示しますので、大いにご活用下さい。
英単語とカタカナのどちらで検索しますか 外来語はカタカナであらわす場合があります。たとえば、realaudioですがリアルオーディオとデータベースに入っていることが考えられます。実際にOpenTextJapanで調べますと、realaudioの1011件に対してリアルオーディオは169件あります。したがって、realaudioとリアルオーディオとのOR検索をするのが正しい検索です。今回は英単語の結果の方が多かったので問題にならなかったのですが、場合によってはカタカナの方が多い場合があり、さらには漢字の方が多い場合があります。TITANは日本語と翻訳した英語の両者の検索を行い、そのOR検索結果を出力します。少なくとも、英単語の検索はそのカタカナを含む検索を行い、カタカナの検索はその英単語を含む検索ができればと願うのはasaisanだけですか。ボツ!
No | ロボット系 | ActiveX | Java Script | Real Audio | Shock wave | VRML | 合計 |
1 | 日本語OpenText | 51 | 4265 | 1011 | 2052 | 1211 | 8590 |
2 | InfoNavigatorページ | 51 | 330 | 394 | 1612 | 298 | 2685 |
3 | ODIN | 102 | 444 | 609 | 800 | 459 | 2414 |
4 | NETPLAZA Robo | 26 | 102 | 188 | 868 | 599 | 1783 |
5 | Mondou | 23 | 164 | 195 | 693 | 625 | 1700 |
6 | Nippon SE 全文 | 35 | 229 | 238 | 804 | 343 | 1649 |
7 | Hole-in-One | 21 | 125 | 180 | 478 | 215 | 1019 |
8 | 千里眼 | - | - | - | - | - | -- |
9 | TITAN | - | - | - | - | - | -- |
No | 平 均 | 44 | 808 | 402 | 1044 | 536 | 2834 |
No | 海外ロボット系 | ActiveX | Java Script | Real Audio | Shock wave | VRML | 合計 |
- | Excite | 28024 | 201545 | 125216 | 98709 | 137539 | 591033 |
- | HotBot | 16157 | 231278 | 94272 | 72997 | 118180 | 532884 |
- | AltaVista | 6018 | 29856 | 56877 | 34584 | 66708 | 194043 |
- | HotBot-jp | 2271 | 13526 | 3814 | 9033 | 6668 | 35312 |
- | AltaV-jp | 386 | 1429 | 1586 | 3635 | 4912 | 11948 |
No | 25 | 26 | 27 | 28 | 登録系 | ActiveX | Java Script | Real Audio | Shock wave | VRML | 合計 |
1 | 3 | 3 | 1 | 1 | NTT Directory | 9 | 52 | 92 | 261 | 86 | 500 |
2 | 1 | 4 | 7 | 2 | WAVE Search | 0 | 74 | 94 | 244 | 69 | 481 |
3 | 5 | 5 | 3 | 3 | InfoNavigator | 6 | 38 | 65 | 192 | 70 | 371 |
4 | 2 | 1 | 4 | 4 | Yahoo! JAPAN | 2 | 31 | 56 | 136 | 48 | 273 |
5 | 8 | 6 | 8 | 5 | WWWナビゲータ | 3 | 37 | 52 | 135 | 39 | 266 |
6 | 13 | 13 | 6 | 6 | Nippon SE | 3 | 34 | 47 | 99 | 39 | 222 |
7 | 7 | 8 | 2 | 7 | NETPLAZA | 3 | 28 | 31 | 111 | 45 | 218 |
8 | 4 | 2 | 13 | 8 | Yahho | 0 | 18 | 31 | 75 | 25 | 149 |
9 | 12 | 11 | 10 | 9 | WebdeW | 1 | 15 | 14 | 75 | 20 | 125 |
10 | 11 | 7 | 11 | 10 | Hole-in-One | 0 | 8 | 19 | 59 | 18 | 104 |
11 | 13 | 9 | 13 | 11 | URL広場 | 0 | 9 | 19 | 32 | 25 | 85 |
12 | 9 | 12 | 5 | 12 | Japan SE | 0 | 12 | 8 | 28 | 14 | 62 |
13 | 14 | 14 | 14 | 13 | 日本ネット | 0 | 1 | 2 | 23 | 7 | 33 |
No | 25 | 26 | 27 | 28 | 平 均 | 2.1 | 27.5 | 40.8 | 113.1 | 38.8 | 222.2 |
今回のねらい 9月1日は防災の日ということで1週遅れですが防災に関連したキーを使って検索しました。インターネットに入っている情報は本当になんでもあります。その混沌としているのが好きな人がいれば、秩序がないということで好きになれない人もいます。Web情報の増加はまだ続いています。
No | ロボット系 | 地震 | 災害 | 防災 | 救急 | レスキュー | 合計 |
1 | 日本語OpenText | 1587 | 1210 | 855 | 499 | 58 | 4209 |
2 | Hole-in-One | 925 | 900 | 773 | 645 | 151 | 3394 |
3 | Mondou | 1091 | 479 | 413 | 195 | 16 | 2194 |
4 | ODIN | 413 | 447 | 477 | 267 | 130 | 1734 |
5 | NETPLAZA Robo | 736 | 299 | 258 | 114 | 35 | 1442 |
6 | Nippon SE 全文 | 442 | 289 | 309 | 148 | 21 | 1209 |
7 | 千里眼 | 489 | 203 | 190 | 84 | 32 | 998 |
8 | InfoNavigatorページ | 233 | 255 | 175 | 149 | 50 | 862 |
9 | TITAN | 97 | 98 | 95 | 86 | 9 | 385 |
No | 平 均 | 668 | 464 | 394 | 243 | 56 | 1825 |
No | 25 | 26 | 27 | 28 | 登録系 | 地震 | 災害 | 防災 | 救急 | レスキュー | 合計 |
1 | 3 | 3 | 1 | 1 | NTT Directory | 86 | 52 | 42 | 25 | 10 | 215 |
2 | 2 | 1 | 4 | 3 | Yahoo! JAPAN | 35 | 42 | 29 | 16 | 11 | 133 |
3 | 1 | 4 | 7 | 2 | WAVE Search | 43 | 55 | 74 | 27 | 7 | 206 |
4 | 5 | 5 | 3 | 7 | InfoNavigator | 34 | 22 | 28 | 13 | 11 | 108 |
5 | 4 | 2 | 13 | 10 | Yahho | 22 | 21 | 13 | 8 | 6 | 70 |
6 | 7 | 8 | 2 | 8 | NETPLAZA | 36 | 28 | 25 | 11 | 9 | 109 |
7 | 8 | 6 | 8 | 4 | WWWナビゲーター | 20 | 34 | 26 | 15 | 15 | 110 |
8 | 6 | 10 | 9 | 6 | CSJインデックス | 39 | *29 | 29 | *14 | *8 | 119 |
9 | 11 | 7 | 11 | 9 | Hole-in-One | 42 | 15 | 17 | 7 | 5 | 86 |
10 | 13 | 13 | 6 | 5 | Nippon SE | 61 | 23 | 19 | 12 | 10 | 125 |
11 | 9 | 12 | 5 | 12 | Japan SE | 22 | 18 | 20 | 6 | 3 | 69 |
12 | 12 | 11 | 10 | 11 | WebdeW | 22 | 20 | 15 | 7 | 6 | 70 |
13 | 13 | 9 | 13 | 13 | URL広場 | 14 | 8 | 12 | 10 | 2 | 46 |
14 | 14 | 14 | 14 | 14 | 日本ネット | - | - | - | - | - | - |
No | 25 | 26 | 27 | 28 | 平 均 | 36.6 | 28.2 | 26.8 | 13.2 | 7.9 | 112.8 |
今回のねらい 朝夕涼しくなり、秋の気配が感じられるようになりました。芸術の秋というわけでもないのですが、芸術関係のキーを用いました。前から出力結果の重複調査をと思っていたのが実現しました。
漢字、カタカナ、英語 外来語が多いですね。同じ事なのですが、漢字、カタカナ、そして英単語を使います。例えば、今回使ったアートは美術ともartとも言います。検索する場合には、それらをOR検索するのがベターです。ロボット系のOR検索結果を示しますと、Hole-in-One(11,726)、Open Text Japan(11,481)、InfoNavigatorPage(7,411)、NetplazaRobo(3,592)、NipponSE(3,048)、ODIN(1,657)。 上記のOR検索(美術 OR アート OR art)数は美術、アート、artの検索数合計の約90%です。従って、OR検索できないMONDOUと千里眼を推定しますと、MONDOU(3,335)、千里眼(2,990)となります。ちなみに、AltaVistaで、(art AND url:".jp")を検索すると、19,087の検索数を得ました。ExciteやHotBotはそれぞれ倍の4万位の日本語情報を持っています。まだ、日本語では検索できませんが、検索によっては海外の検索サービスも十分使えます。
重複のチェック ロボット系は重複のチェックが行われています。それをしないと、ゴミがたまり、効率が悪くなるばかりか、ユーザーにもよい印象を与えないからです。今回は芸術家についてチェックしましたがほぼ合格です。重複ページはなかなか退治できないので、出力時に改めてチェックする検索システムがあります。そのようなシステムでは出力した検索数が最初に表示される総数より少なくなります。 次に、登録系ですが、キーの陶芸について、NTT Directoriyを除く13のサービスについて調べました。延べ数は307ありましたが、7つのサービスで合計41の重複が見つかりました。その数値をテーブルに載せておきます。ただし、Yahoo! Japanや類似のシステムのように、一つのホームページが複数のカテゴリーに振られている場合も、この重複の数字に含まれています。
登録系の網羅性 以前に検索の視点で新着情報の網羅性を調べましたが、今回は検索キーの陶芸で調べました。総数は307で、各サービスの中にある重複分は41です。偶然ですが、307から41を引いた266の丁度半分の133(43%)が陶芸に関するユニークなデータです。 1個所だけの登録は75で、多いところは、NipponSE(19)、Yahoo! Japan(18)、WebdeW(13)などです。次に、2個所への登録は22、3個所へは12などとなっています。 もうお分かりですね。陶芸に関するデータは全部で133あり、多くの検索サービスは30前後しか検索しません。したがって、情報を探す場合は1個所でなく複数のサービスにあたってみるのが原則です。
Hole-in-Oneの検索数はトップレベル 8月15日の検索ニュースでお知らせしましたが、Hole-in-Oneはロボットによる検索サービスを開始しました。検索調査の結果は非常に良くデータ量はトップレベルです。アートという基本的でポピュラーなキーでの検索結果を示しますと、Hole-in-One 美術(2,419)、アート( 834)、art(9,982)、OR検索(11,726)OpenTextJ 美術(3,447)、アート(1,239)、art(8,206)、OR検索(11,481)です。OR検索で3,000台の他の検索サービスより多く、AltaVistaの60%位です。データの最終更新時期は7月末位のようです。これでデータベースは従来のと含めて2本あり、検索画面のメニューで選択できます。検索画面もカラフルですっきりしたものになり、回線もT1と速くなりました。新URL http://207.82.104.200(いずれ、従来のが使えます)。
No | ロボット系 | アート | 芸術家* | 画廊 | 陶芸 | 重複 | 合計 |
1 | 日本語OpenText | 1239 | 211 | 398 | 309 | - | 2157 |
2 | Hole-in-One | 834 | 103 | 130 | 1121 | 1 | 2190 |
3 | ODIN | 601 | 104 | 191 | 226 | - | 1122 |
4 | NETPLAZA Robo | 833 | 43 | 167 | 107 | 0 | 1150 |
5 | Mondou | 746 | 46 | 151 | 104 | 0 | 1047 |
6 | Nippon SE 全文 | 375 | 161 | 61 | 77 | - | 674 |
7 | InfoNavigatorページ | 304 | 60 | 105 | 105 | 3 | 574 |
8 | 千里眼 | 597 | 17 | 89 | 71 | 0 | 774 |
9 | TITAN | -- | -- | -- | -- | -- | |
No | 平 均 | 691 | 93 | 162 | 265 | 0 | 1211 |
No | 24 | 25 | 26 | 27 | 登録系 | アート | 芸術家* | 画廊 | 陶芸 | 重複 | 合計 |
1 | 4 | 3 | 3 | 1 | NTT Directory | 400 | 19 | 35 | 149 | 603 | |
2 | 1 | 1 | 4 | 7 | WAVE Search | 524 | 9 | 36 | 41 | 10 | 610 |
3 | 10 | 2 | 1 | 4 | Yahoo! JAPAN | 284 | 12 | 42 | 35 | 4 | 373 |
4 | 2 | 5 | 5 | 3 | InfoNavigator | 287 | 19 | 34 | 33 | 0 | 373 |
5 | 3 | 7 | 8 | 2 | NETPLAZA | 573 | 11 | 36 | 28 | 0 | 648 |
6 | 12 | 4 | 2 | 13 | Yahho | 106 | 46 | 16 | 21 | 11 | 189 |
7 | 5 | 6 | 10 | 9 | CSJ Index | 420 | 7 | 48 | 32 | 9 | 507 |
8 | 7 | 8 | 6 | 8 | WWWナビゲータ | 289 | 10 | 31 | 28 | 4 | 358 |
9 | 6 | 11 | 7 | 11 | Hole-in-One | 120 | 5 | 18 | 9 | 0 | 152 |
10 | 9 | 9 | 12 | 5 | Japan SE | 266 | 14 | 24 | 19 | 0 | 323 |
11 | 8 | 13 | 13 | 6 | Nippon SE | 155 | 15 | 37 | 28 | 2 | 225 |
12 | 13 | 13 | 9 | 13 | URL広場 | 138 | 5 | 14 | 10 | 1 | 167 |
13 | 11 | 12 | 11 | 10 | WebdeW | 137 | 5 | 19 | 16 | 0 | 177 |
14 | 14 | 14 | 14 | 14 | 日本ネット | 21 | 0 | 2 | 7 | 0 | 30 |
No | 24 | 25 | 26 | 27 | 平 均 | 265.7 | 12.6 | 28.0 | 32.6 | 3.2 | 339 |
今回のねらい パソコンのハードデスク、熱くなっていませんか。タワー型のパソコンですが、ケースの両横をはずして風通しをよくしました。さて、今回のテーマですが、先週に続いて、特集ものです。社会問題になっているO157です。治療、食中毒、大腸菌、O157、O-157を調べました。さて、どんな結果が得られるのでしょうか。
O157に関する情報の登録 今回のO157は、NTT新着情報の登録情報を検索するWave Searchによれば、7/26,28,29,30,30,8/2の6件で、ほんとうにホットな情報であることがわかります。堺市のO157感染は9日の給食が原因で、11日に患者が発見され、14日頃から新聞で大々的に報道され始めました。この14日からみても約2週間たって登録されたことになります。
特集コーナーの新設 登録系14のうち、O157の特集コーナーを新設しているのは、Yahoo! Japan、Yahho、Japan SEの3サービスです。それらを詳しく記しますと、
ニュース情報は新聞(朝日新聞社、産経新聞社)や雑誌(日経NetN@vi、医師向け専門情報)にまかせておけばよいかも知れませんが、必要な情報を提供する立場からは垣根にこだわらなくてもよいのではと思います。心配なのは受動的な登録情報だけを提供するところと必要な情報を能動的に収集し提供するところとに差がでてこないかということです。
登録系は速報性で有利 前回でもとりあげましたが、更新の頻度が検索に影響することは明らかです。ロボット系がこの時期に収集したデータを即データベース化しておれば問題ないのですが、現状では望めません。検査面で不利な登録系も速報性では勝負ができます。しかし、これも風向きがかわりつつあります。米国のロボット系検索サービスの更新はスピードアップしています。Opentextは2日に1回の更新をしますし、InfoseekやExciteは2週間です。それに日本のMondouは毎日のように更新しています。
新しい用語について O157とかO-157とか表記されますが、さてどちらが使われているのでしょうか。
海外の検索サービスの結果(8/5追加) O157とO-157について、海外の検索サービスで調べました。カッコ内は(0157数:O-157数)です。HotBot(1331:791),Excite(954:0),Altavista(560:95),Lycos(149:0),Opentext(83:21),Infoseek(29:54),Webcrawler(12:0),Magellan(0:0)両方とも検索できるのはHotBot、Altavista、Opentext、Infoseekです。ハイフンのあるのは米国以外の日本などで使われているようです。
No | ロボット系 | 治療 | 食中毒 | 大腸菌 | O157 | O-157 | 合計 |
1 | Mondou | #518 | #46 | #113 | #0 | #0 | 677 |
2 | ODIN | #398 | #9 | #34 | #0 | #0 | 441 |
3 | InfoNavigatorページ | #372 | #26 | #23 | #17 | #1710 | 438 |
4 | 日本語OpenText | #404 | #9 | #8 | #1 | #1 | 422 |
5 | 千里眼 | 286 | 4 | 15 | 0 | 0 | 305 |
6 | NETPLAZA Robo | 287 | 10 | 0 | 0 | 0 | 297 |
7 | TITAN | #94 | #3 | #11 | #6 | #39 | 114 |
8 | Nippon SE 全文 | 37 | 1 | 0 | 0 | 0 | 38 |
No | 平 均 | 301.4 | 14.9 | 27.0 | 3.4 | 8.1 | 346.7 |
No | 22 | 24 | 25 | 26 | 登録系 | 治療 | 食中毒 | 大腸菌 | O157 | O-157 | 合計 |
1 | 1 | 1 | 1 | 4 | WAVE Search | 59 | 6 | 6 | 6 | 3 | 77 |
2 | 2 | 4 | 3 | 3 | NTT Directory | #74 | #4 | #9 | #162 | #162 | 96 |
3 | 3 | 2 | 5 | 5 | InfoNavigator | #54 | #6 | #3 | #4 | #65 | 67 |
4 | 9 | 10 | 2 | 1 | Yahoo! JAPAN | 62 | 4 | 10 | 59 | 61 | 135 |
5 | 8 | 12 | 4 | 2 | Yahho | 31 | 4 | 21 | 21 | 13 | 77 |
6 | 4 | 5 | 6 | 10 | CSJ Index | 37 | 1 | 0 | 0 | 0 | 38 |
7 | 5 | 3 | 7 | 8 | NETPLAZA | 50 | 0 | 2 | 2 | 0 | 54 |
8 | 6 | 7 | 8 | 6 | WWWナビゲータ | 46 | 2 | 2 | 1 | 0 | 51 |
9 | 10 | 6 | 11 | 7 | Hole-in-One | 27 | 1 | 2 | 1 | 0 | 31 |
10 | 7 | 9 | 9 | 12 | Japan SE | 31 | 0 | 0 | 0 | 0 | 31 |
11 | 11 | 8 | 13 | 13 | Nippon SE | 22 | 0 | 0 | 0 | 0 | 22 |
12 | 12 | 11 | 12 | 11 | WebdeW | #28 | #0 | #0 | #1 | #0 | 29 |
13 | 13 | 13 | 13 | 9 | URL広場 | 16 | 0 | 3 | 2 | 2 | 21 |
14 | 14 | 14 | 14 | 14 | 日本ネット | 4 | 0 | 0 | 0 | 0 | 4 |
No | 22 | 24 | 25 | 26 | 平 均 | 37.9 | 2.0 | 4.1 | 7.5 | 10.9 | 51.6 |
今回のねらい オリンピックが始まりました。TVですか、新聞ですか、それともインターネットですか。今回はオリンピックに関連したキーとして、オリンピック、Olympic、五輪、アトランタを調べました。調査は1週間前の21日に行いました。夏休みでもないのですが、結局1回休んでしまいました。オリンピックも始まり、オリンピックに関連した新着情報が次々と登録されています。データベースの更新状況を調べる絶好の機会です。そこで、28日に調べたオリンピックの検索数を7/28の欄に示しました。7/28と隣の7/21のオリンピックの数字が異なっていればこの1週間に更新があったことを示します。
ロボット系の更新について 一般に、ロボット系は大量に情報をあつかうため更新の間隔は長いといわれています。そのあたりはどうなっているのでしょうか。このカテゴリーに入るロボット系もロボットから出発したものと索引系から出発したものと2種類に分かれます。
索引系の更新について 索引系は全部で14あります。多いか少ないかと言えば、多いといえます。市場が少ないのに提供側が多く、少々の模倣したものでも許されるという日本的な風土がインターネットの世界で通用するのが不思議といえば不思議です。そういうことはともかくとして、索引系を上位グループと下位グループに分けました。
スコアの表示について ロボット系に関しては、スコア順の出力を重視し、スコア順の出力があるかないかで分けて表示していましたが、InfoNavigatorは以前からスコア順の出力をしているとの指摘を受けました。確かにHELPのところに記述されています。結果の出力にスコア表示がないため見落としてしまい長い間大変ご迷惑をかけてしまいました。しかし、検索サービスを利用する人がHELPをみているかと言えば疑問ですし、紹介文を表示するのと同様にスコア表示も重要な機能の一つです。この機会にぜひスコア表示をお願いします。
検索サービスの保守 オンラインで動いているデータベースの更新を何時行うかはシステムごとに異なっています。最近、土日に利用しにくいサービスとして、NTT系のTITANやNTT DIRECTORY、それにWAVE Searchがあります。WAVE Searchの場合は、時間帯によりサービスファイルを変えているのか、異なった検索数になります。オリンピックで調べた時も、4、44、71などの結果になりました。調査のランキングしている時に、どうもおかしいと気が付き調べ直すと、前と異なった結果になっています。その他、大掛かりな改装は大体土日に行われます。これから夏休みに入りますが、新着情報の提供が不規則になります。新年、ゴールデンウィーク、夏休みと登録数の統計も不規則になります。そう、ハードデスクは熱くなっていますよ。
No | ロボット系 | 7/28 | オリンピック | Olym pic | 五輪 | アトランタ | 合計 |
1 | 日本語OpenText | #257 | #257 | #298 | #72 | #105 | 732 |
2 | ODIN | #238 | #238 | #103 | #48 | #85 | 474 |
3 | Mondou | #209 | #202 | #121 | #67 | #104 | 494 |
4 | InfoNavigatorページ | #137 | #100 | #22 | #31 | #55 | 208 |
5 | TITAN | #94 | #94 | #32 | #23 | #44 | 193 |
6 | NETPLAZA Robo | 203 | 194 | 48 | 0 | 92 | 334 |
7 | Nippon SE 全文 | 105 | 27 | 18 | 3 | 2 | 50 |
7 | 千里眼 | ** | 309 | * | 22 | * | * |
No | 平 均 | 177.6 | 158.9 | 91.7 | 34.9 | 69.6 | 355.0 |
No | 21 | 22 | 24 | 25 | 登録系 | 7/28 | オリンピック | Olym pic | 五輪 | アトランタ | 合計 |
1 | 2 | 1 | 1 | 1 | WAVE Search | 71 | 43 | 19 | 12 | 24 | 98 |
2 | 6 | 2 | 4 | 3 | NTT Directory | #88 | #61 | #22 | #3 | #37 | 123 |
3 | 7 | 3 | 2 | 5 | InfoNavigator | #40 | #34 | #7 | #5 | #19 | 65 |
4 | 1 | 8 | 12 | 4 | Yahho | 45 | 19 | 23 | 12 | 18 | 72 |
5 | 4 | 4 | 5 | 6 | CSJ Index | 38 | 34 | 9 | 3 | 15 | 61 |
6 | 8 | 9 | 10 | 2 | Yahoo! JAPAN | 52 | 46 | 4 | 8 | 40 | 98 |
7 | 9 | 5 | 3 | 7 | NETPLAZA | 26 | 22 | 2 | 4 | 11 | 39 |
8 | 3 | 7 | 9 | 9 | Japan SE | 19 | 19 | 1 | 2 | 6 | 28 |
9 | 11 | 6 | 7 | 8 | WWWナビゲータ | 28 | 28 | 0 | 0 | 17 | 48 |
10 | 10 | 10 | 6 | 11 | Hole-in-One | 19 | 19 | 2 | 0 | 9 | 30 |
11 | 5 | 11 | 8 | 13 | Nippon SE | 12 | 12 | 1 | 0 | 2 | 15 |
12 | 12 | 12 | 11 | 12 | WebdeW | #15 | #14 | #0 | #1 | #4 | 19 |
13 | 13 | 13 | 13 | 10 | URL広場 | 6 | 4 | 7 | 2 | 2 | 15 |
14 | 14 | 14 | 14 | 14 | 日本ネット | 0 | 0 | 0 | 2 | 0 | 2 |
No | 21 | 22 | 24 | 25 | 平 均 | 32.8 | 25.4 | 6.9 | 4.0 | 14.6 | 50.9 |
今回のねらい 今回は経済に関するもので、金融関係を選びました。円が安くなってきましたが、これは夏休みの期間、日本向けの現象ですか? 夏休みに海外に出かける人には痛手になりそうです。為替や株価の値動きを示すグラフもインターネットで見れるようになってきました。
数字の検索 土日は日本の検索システムの作成で忙しかったのですが、調査してみるとあいまいな所や理解できていない所がはっきりしてきます。数字なんてなぜ検索するのだと叱られそうですが、日常生活ではいろいろな場面で数字がでてきます。もう数年で21世紀ということで、2桁の数字の21を使いました。半角の21と全角の21です。次のような結果を得ました。
英字の検索 検索調査でも何回か取り上げたことのある話題ですが、改めて調べてみました。英字の場合は半角と全角以外に大文字と小文字の問題があります。キーとしてjavaを使い、4つのケースを調べてみました。
ランクを乱すもの 検索調査では、キーワードを入力して各サービスの検索数を調査しています。それから、検索数をもとに、ある程度の調整をして、各サービスのランクづけをしています。勿論、表計算のExcelにデータを打ち込んでの作業です。今回の例でも突出した結果を示すところがあります。その原因は分類項目まで検索する仕組みになっているからです。しかし、分類項目を含めるメリット以上にデメリットがあるように思われます。キーに関連のない情報が入ってきますし、Web情報が多くなればむしろ絞り込む方が必要になってくるからです。 多くのシステムでは重複した結果を表示しないよう努力しています。しかし、残念なことに、検索結果の中に重複した情報が含まれるケースがあります。とくに2~3のサービスで目立ちます。重複した結果が含まれると情報の信頼性までも疑わしくなります。いずれ重複に関する調査をする予定です。Webデータベースは情報系の蓄積型ではなく、むしろ勘定系のフロー型です。いずれにしてもユーザーに使いやすい結果を返すところが評価されるのでは思っています。
今週のポイント 今週はExciteが5,000万件のサービスを開始するというビッグなニュースが入っています。アクセスでき次第、検索調査をし公表したいと思います。それから6月に発表予定だったUltraseekですが、several weeks遅れるとのことです。日本のJapan SEが7月11日に分類の大編成をするとのことでしたが、少しおくれており、ここに載せることができませんでした。すでに検索結果の表示は変更しており、使い易く、すっきりしています。
No | 20 | 21 | 22 | 24 | ロボット系 | 総数 | 金融 | 証券 | 相場 | 為替 | 合計 |
1 | 2 | 1 | 1 | 1 | 日本語OpenText | (?) | #594 | #425 | #164 | #216 | 1,399 |
3 | 3 | 3 | 2 | 2 | ODIN | 145,365 | #405 | #265 | #52 | #121 | 843 |
2 | 1 | 2 | 3 | 3 | Mondou | (200,000) | #272 | #243 | #55 | #76 | 646 |
4 | 4 | 4 | 4 | 4 | TITAN | (300,000) | #96 | #97 | #60 | #81 | 334 |
5 | 5 | 5 | 5 | 5 | NETPLAZA Robo | 305,000 | 217 | 176 | 82 | 28 | 503 |
6 | 6 | 6 | 6 | 6 | 千里眼 | (97,000) | 272 | 428 | 52 | 123 | 875 |
7 | 6 | 7 | 7 | 8 | InfoNavigatorページ | ? | 1,021 | 517 | 60 | 43 | 1,634 |
8 | 8 | 8 | 8 | 8 | Nippon SE 全文 | - | 61 | 34 | 13 | 14 | 122 |
No | 20 | 21 | 22 | 24 | 登録系 | 総数 | 金融 | 証券 | 相場 | 為替 | 合計 |
1 | 2 | 2 | 1 | 1 | WAVE Search | ? | 100 | 58 | 21 | 20 | 199 |
2 | 1 | 7 | 3 | 2 | InfoNavigator | ? | 583 | 221 | 21 | 7 | 832 |
3 | 3 | 6 | 2 | 4 | NTT Directory | (5200) | #161 | #50 | #21 | #7 | 239 |
4 | 11 | 4 | 4 | 5 | CSJ Index | (9765) | 81 | 53 | 15 | 8 | 157 |
5 | 7 | 9 | 5 | 3 | NETPLAZA | 10108 | 118 | 58 | 19 | 6 | 201 |
6 | 9 | 1 | 8 | 12 | Yahho | 15231 | 37 | 19 | 6 | 2 | 64 |
7 | 8 | 3 | 7 | 9 | Japan SE | (5000) | 44 | 24 | 15 | 4 | 87 |
8 | 4 | 11 | 6 | 7 | WWWナビゲータ | 21390 | 38 | 35 | 14 | 6 | 93 |
9 | 6 | 5 | 11 | 8 | Nippon SE | - | 29 | 27 | 23 | 4 | 83 |
10 | 5 | 8 | 9 | 10 | Yahoo! JAPAN | 36414 | 23 | 45 | 11 | 2 | 81 |
11 | 10 | 10 | 10 | 6 | Hole-in-One | 18304 | 107 | 35 | 11 | 4 | 155 |
12 | 12 | 12 | 12 | 12 | WebdeW | 5200 | #33 | #36 | #8 | #2 | 79 |
13 | 13 | 13 | 13 | 13 | URL広場 | 3968 | 24 | 31 | 6 | 1 | 62 |
14 | 14 | 14 | 14 | 14 | 日本ネット | ? | 2 | 4 | 8 | 3 | 17 |
今回のねらい 世界中のWeb情報をあつかう検索サービスはまだ全体像が分からないのが現状です。ボランティアの頃には、いろいろと内部情報が伝えられましたが、最近は宣伝用の(自社に有利な)情報しか流されなくなり、こちらが推測しなければならなくなりました。今回は検索サービスの重要な要因である速報性と網羅性を調べました。
検索キーについて 最近はインターネット上でラジオが聞けるようになりました。空中の電波によるのではなく、電話線でデジタルでやってきます。Webの情報量は少ないかと思っていましたが、調べてみたら結構入っています。それから3Dですが、これも2Dから3Dへと移行しつつあります。ただ、LycosとMazellanはデータベース化の際に2文字以下の単語を無視する仕組みになっているため検索できませんでした。そこで推定値としてRadioの40%を使いました。IntranetとActiveXは比較的新しい言葉ですので採用しました。
速報性によるランク データベースの中に新しいキーワードがどれ位含まれているかその比率を求めてみました。各データベースの総数が分からないので、新しいキーのIntranetとActiveXの検索数を調査した総数で割った比率を結果の最後の欄に示しました。その結果から、各サービスの速報性を5段階のAからEでランクしました。A:LinkStar、Yahoo! B:Lycos、AltaVista C:infoSeek、HotBot D:WebCrawler、Magellan、Pathfinder E:OpenText、NlightN
各サービスの速報性について 索引系はデータベースも小さく小回りが効くため登録データは1週間以内にデータベースに組み込まれます。それがよい評価につながっています。検索系ではLycosとAltaVistaが健闘しています。先日、Lycosは5,100万件のWebページを収集したと発表しましたが、現在データベース化している最中で、まだサービスされていません。やはりきめこまかにガンバッテいるのがわかります。 それからAltaVistaですが、タイミングよく7月5日頃新しいデータベースに更新されました。前回は4月26日頃でしたから10週間目の更新ということになります。ちなみに、数日前のActiveXの検索数は1,707で、今回はHotBotより多く、4,929です。新語の検索数は更新時期に依存することが分かります。なお、一番新しいデータは7月2日の収集ページです。まいった、まいった。 OpenTextの更新が遅れているようです。PathfinderやNlightNなどはWeb以外の情報も含んでおり、より一般的な情報を扱っています。Web情報はまだ特定の分野の情報しか扱っていないためかも知れません。
網羅性によるランク 単純に総数を使えばよいのですが、IntranetとActiveXの検索数の合計をベースに大きい順にランクしてみました。A:AltaVista、HotBot B:Lycos、infoSeek C:Magellan、OpenText D:NlightN、WebCrawler E:Pathfinder、Yahoo!、LinkStar
各サービスの網羅性について この1ヶ月間にデータの更新がなかったのは、HotBot、Opentext、WebCrawlerです。HotBotは1週間で更新するとアナウンスしていましたが、オープンの5月20日から1回少々増えましたが、大掛かりな更新はされてないようです。網羅性はデータの収集数と索引化技術によりますので、いつも述べているような結果になりました。これから時間が経てば差が開いていくことが考えられます。 MagellanがExciteに併合されますが、Magellanが所有す4万件の評価データがExciteの評価データにマージされ10万になるのであり、Magellanがロボットで収集した膨大なデータはマージできず破棄されるようです。それにしても4万件のデータを約10億円で購入したことになるわけで、評価データ1件あたり1万円、四つ星評価の買い取りが5億円、その他1億円と予想したのですがみなさんは如何ですか。
No | Search Services | Total | Radio | 3D | Intranet | ActiveX | Rate |
1 | AltaVista | 879,175 | 594,150 | 238,985 | 41,111 | 4,929 | 5.24% |
2 | HotBot | 1,156,822 | 773,138 | 347,525 | 32,788 | 3,371 | 3.13% |
3 | NlightN | 371,760 | 314,252 | 56,426 | 1,017 | 65 | 0.29% |
No | Search Services | Total | Radio | 3D | Intranet | ActiveX | Rate |
1 | Lycos | amp;0,951 | 60,255 | amp;24,102 | 5,813 | 781 | amp;7.25% |
2 | infoSeek | 81,729 | 57,787 | 20,324 | 3,147 | 471 | 4.43% |
3 | Magellan | amp;118,567 | 82,873 | amp;33,149 | 2,414 | 131 | amp;2.15% |
4 | Opentext | 219,178 | 136,212 | 81,159 | 1,662 | 145 | 0.82% |
5 | WebCrawler | 43,549 | 30,962 | 11,518 | 960 | 109 | 2.45% |
6 | Pathfinder | 21,578 | 16,727 | 4,474 | 326 | 51 | 1.75% |
- | Excite | == | == | == | == | == | --% |
No | Index | Total | Radio | 3D | Intranet | ActiveX | Rate |
1 | Yahoo! | 1,851 | 1,000 | 512 | 326 | 13 | 18.31% |
2 | LinkStar | 1,286 | 492 | 488 | 294 | 12 | 23.79% |
3 | CMP TechSearch | *969 | *300 | *300 | *300 | 69 | --% |
4 | NR Yellow Pages | *729 | *240 | *240 | 214 | 35 | --% |
5 | ZdNet Search | *400 | *100 | *100 | *100 | *100 | --% |
6 | Galaxy | 1,737 | 1,198 | 419 | 101 | 19 | 6.91% |
7 | Harvest Broker | 253 | 82 | 80 | 85 | 6 | 36.00% |
8 | Net-happenings | 462 | 301 | 117 | 42 | 2 | 9.52% |
No | NetNews | Total | Radio | 3D | Intranet | ActiveX | Rate |
1 | DejaNews | 292,699 | 158,894 | 124,591 | 7,014 | 2,200 | 0.75% |
2 | AltaVistaNews | 144,973 | 91,524 | 46,122 | 4,950 | 2,377 | 1.64% |
3 | InfoseekNews | 13,136 | 7,985 | 4,401 | 604 | 146 | 1.11% |
-- | Total | ----- | 2,328,472 | 995,032 | 103,268 | 15,032 | 4.01% |
今回のねらい 今回は、料理関係のキーワードを選んでみました。日本語処理で「食べ物」を識別するのは難しく、「食」と「物」をAND検索しなければと思ったのですが、NSEを除くすべての検索サービスでサポートしているのには驚きました。
ロボット系の分離 この3ヶ月間で、Nippon SE、NETPLAZA Robo、InfoNavigator(ページ)がロボットによる検索サービスを始めました。ロボット系と索引系とは検索力に差があるため分離してあつかうことにしました。それから、スコア順出力の有り無しでも分けました。やはり、ロボット系は検索数が多いため、スコア順出力は必須であると考えたからです。1)スコア順出力あり 日本語OpenText、ODIN、Mondou、TITAN2)スコア順出力なし 千里眼、InfoNavigator、NETPLAZA Robo、Nippon SE全文
分類項目名を検索対象にしない 索引系は各々の文書に分類項目が付加されています。検索のときにその分類項目名まで検索の対象にするものがあります。このような場合には、検索数は大きくなり、当ランクもよくなります。しかし、情報量は増加しており、過剰気味になってきました。すると、非常に冗長な結果に思えてきます。できれば、分類項目名の検索は中止し、オプションで選択できるようにして欲しいと思います。この点、Yahoo! Japanは上手く処理しています。分類項目名から何件、テキストから何件と分けて出力しています。また、Hole-in-Oneは検索に分類項目名を含む含まないかは検索オプションで指定できます。
Excelを使って検索結果を分析 検索対象に分類項目名を含めていると思われる所をExcelを使って探して見ました。1)4種類のキーによる検索数の合計を求め、各検索キーの割合を求めます。2)索引系14種類の平均をキーごとに求めます。3)各サービスごとに平均との差を求めます。4)15%以上差のある所をピックアップすれば求まります。みなさんも、ぜひ挑戦して下さい。
NETPLAZAの分類大編成
●新しいジャンル(14) コンピュータ・インターネット 企業情報・ビジネス 通販・ショッピング メディア スポーツ ホビー・レジャー アート エンターテイメント 生活情報・健康 文化・社会 環境・自然科学 政府官公庁・地方自治体 教育・学校 個人・団体ページ 番外(まる得ページ まる楽ページ)
●従来のジャンル(20) イベント 政府・官公庁・地方自治体 インターネット 生活関連情報 芸術・アート・文化・芸能 通信販売・ショッピング 子供 本・雑誌・出版 娯楽・エンターテイメント スポーツ関連情報 コンピュータ関連 旅行・観光情報 人材募集・採用・求人・代理店募集 学術・研究・学会 新聞・TV・マスコミ 医療関連 学校・教育 企業情報 地域の情報 その他
今週のポイント Infoseek社のUltarseekのサービス開始が遅れています。全世界のWeb情報を短時間にロボットで収集することは難しいと思います。あるいは目標としていたAltaVistaの他にHotBotが出現したためかも知れません。米国では従来よりも優れたものをださなければ評価されないようで非常に厳しい世界です。それが、技術革新の原動力になっているのかも知れません。
No | 18 | 20 | 21 | 22 | 検索サービス名 | 総数 | 料理 | グルメ | レシビ | 食べ物 | 合計 |
1 | 1 | 2 | 1 | 1 | 日本語OpenText | (?) | #1161 | #242 | #191 | #328 | 1,922 |
2 | 2 | 3 | 3 | 2 | ODIN | 145,365 | #617 | #229 | #122 | #251 | 1,219 |
3 | 3 | 1 | 2 | 3 | Mondou | (200,000) | #758 | #167 | #73 | #275 | 1,273 |
4 | 4 | 4 | 4 | 4 | TITAN | (300,000) | #*100 | #*100 | #90 | #*100 | 390 |
5 | 6 | 5 | 5 | 5 | 千里眼 | (97,000) | 1062 | 152 | 129 | 162 | 1,505 |
6 | 5 | 6 | 6 | 7 | InfoNavigatorページ | ? | 408 | 73 | 22 | 152 | 655 |
7 | 7 | 7 | 7 | 6 | NETPLAZA Robo | 305,000 | 662 | 45 | 70 | 107 | 884 |
8 | 8 | 8 | 8 | 8 | Nippon SE 全文 | - | 143 | 20 | 22 | 106 | 291 |
No | 18 | 20 | 21 | 22 | 検索サービス名 | 総数 | 料理 | グルメ | レシビ | 食べ物 | 合計 |
1 | 3 | 2 | 2 | 1 | WAVE Search | ? | 260 | 87 | 39 | 27 | 413 |
2 | 1 | 1 | 7 | 3 | InfoNavigator | ? | 136 | 76 | 21 | 34 | 267 |
3 | 5 | 3 | 6 | 2 | NTT Directory | (5200) | #290 | #58 | #21 | #25 | 394 |
4 | 2 | 7 | 9 | 5 | NETPLAZA | 8936 | 113 | 65 | 17 | 22 | 217 |
5 | 4 | 8 | 3 | 7 | Japan SE | (5000) | 87 | 47 | 12 | 34 | 180 |
6 | 11 | 9 | 1 | 8 | Yahho | 14410 | 110 | 28 | 13 | 37 | 188 |
7 | 8 | 11 | 4 | 4 | CSJ Index | (9765) | 129 | 58 | 21 | 29 | 237 |
8 | 6 | 4 | 11 | 6 | WWWナビゲータ | 19153 | 143 | 49 | 24 | 15 | 231 |
9 | 9 | 5 | 8 | 9 | Yahoo! JAPAN | 36414 | 125 | 32 | 30 | 13 | 200 |
10 | 7 | 6 | 5 | 11 | Nippon SE | - | 105 | 22 | 15 | 13 | 155 |
11 | 10 | 10 | 10 | 10 | Hole-in-One | 16304 | 104 | 41 | 28 | 11 | 184 |
12 | 12 | 12 | 12 | 12 | WebdeW | 5200 | #72 | #27 | #18 | #12 | 129 |
13 | 13 | 13 | 13 | 13 | URL広場 | 3670 | 34 | 12 | 9 | 7 | 62 |
14 | 14 | 14 | 14 | 14 | 日本ネット | ? | 16 | 2 | 8 | 1 | 27 |
今回のねらい 今回、エンターテイメントから身近なものを選択しました。小説、アニメ、(漫画 OR マンガ)、(ミステリー OR ミステリ)ですが、その他に(雑誌 OR マガジン)も調べました。
OR検索機能は必要です 複合語の場合はAND検索をしますが、今回は3種類の検索でOR検索をしました。検索時にOR検索ができないサービスは以下の6つがあります。 Mondou、WWWナビゲーター、Yahho、CSJインデックス、URL広場、日本ネットAND/OR検索ができない場合は、2つの検索キーを別々に検索し、結果の大きい方を採用しました。従って、ランクは少々不利になっています。AND検索とOR検索は検索技術の基本ですから、ぜひ備えて欲しいと思います。なお、ロボット収集ではスコア順出力を行いますが、AND/OR検索でスコアに乱れが生じるため、どちらかを犠牲にしなければならないようです。
ロボット系(ODIN、Mondou、OpenTJ、TITAN、千里眼) 更新作業は大変です。ODINはこの1週間で約5万頁増加させました。日本語のWeb頁がどれくらいあるかは誰にもわかりません。世界には5,000万頁あると言われていますが、日本語が2%で100万頁、3%で150万頁です。集めているのがせいぜい40万頁ですから、ロボット系の網羅性はないものとみなせます。それにしても困った事態になってきました。
ロボットと登録系(NSE、InfoNavigator、Netplaza) 登録だけをベースにしたデータ収集からロボットへ移行したNSE、InfoNavi、NetPlazaが実力を発揮してきました。登録系の上位グループと比べて検索数で2倍の開きがでてきました。これからますます差は開き、1年くらいで30倍以上の差になることが予想されます。なお、InfoNavigatorの検索結果出力制限の200が撤廃されました。Thanks。
登録系(WaveSearch、NTTdir、Yahho、JSE、Yahoo!J、WWWナビゲータ、Hole-in-One、CSJ、WebdeW、URL広場、日本ネット) 検索よりは分類に重きを置いていますので、検索数だけで比較するのはナンセンスかも知れませんが、グループ内の相互比較には役立ちます。Yahhoはエンターテイメントに強く、第17回の時も上位でした。ランクの入れ替わりが激しいのですが、だんだん収まってきています。紹介文は1~2行よりも3~4行の方がユーザーにはわかり易いと思います。ほとんどがボランティアですので、人を投入することもできず、今後1年位で10倍以上のデータをあつかうとなると、網羅性から遠ざかって行くことが危惧されます。
今週のポイント 月曜日にNetplazaが分類のジャンルを再編成するとのことですが、どのような編成になるのか楽しみです。昨年の8月末に総数260で開始したのが現在8,400まで増加しています。10ヶ月で30倍以上です。1年後には10万位になりますが、新しい分類は何時まで絶えられるのでしょうか。それから、Infoseek社のUltarseekが6月にサービスされるとのことですが、6月の最終週ですので、今週中に発表されるかも。AltaVistaを追い越すのか、これも楽しみの一つです。
No | 17 | 18 | 20 | 21 | 検索サービス名 | 総数 | 小説 | アニメ | 漫画 | ミステリ | 合計 |
1 | 3 | 1 | 2 | 1 | 日本語OpenText | (?) | #823 | #680 | #808 | #103 | 2,414 |
2 | 1 | 2 | 3 | 2 | ODIN | 145,365 | #416 | #553 | #593 | #102 | 1,664 |
3 | 2 | 3 | 1 | 3 | Mondou | (200,000) | #335 | #687 | #461 | #66 | 1,549 |
4 | 4 | 4 | 4 | 4 | TITAN | (300,000) | #*100 | #*100 | #*100 | #*37 | 337 |
- | - | - | - | - | 千里眼 | (97,000) | 414 | 1290 | 519 | 72 | 2,295 |
No | 17 | 18 | 20 | 21 | 検索サービス名 | 総数 | 小説 | アニメ | 漫画 | ミステリ | 合計 |
1 | 1 | 2 | 5 | 1 | Nippon SE | - | 210 | 187 | 170 | 47 | 614 |
2 | 5 | 1 | 1 | 3 | NETPLAZA | 8399 | 144 | 238 | 160 | 41 | 583 |
3 | 3 | 3 | 3 | 5 | WAVE Search | ? | 97 | 136 | 134 | 11 | 378 |
4 | 2 | 5 | 4 | 9 | NTT Directory | (5200) | #74 | #68 | #138 | #10 | 290 |
5 | 11 | 7 | 2 | 2 | InfoNavigator | ? | 162 | 208 | 226 | 34 | 630 |
6 | 4 | 11 | 9 | 4 | Yahho | 14105 | 151 | 201 | 174 | 25 | 551 |
7 | 6 | 4 | 8 | 6 | Japan SE | (5000) | 81 | 117 | 98 | 20 | 316 |
8 | 7 | 8 | 7 | 8 | Yahoo! JAPAN | 36414 | 71 | 123 | 96 | 7 | 297 |
9 | 9 | 6 | 6 | 11 | WWWナビゲータ | 18444 | 50 | 99 | 52 | 6 | 207 |
10 | 8 | 10 | 10 | 10 | Hole-in-One | 16304 | 61 | 89 | 83 | 7 | 240 |
11 | 12 | 9 | 11 | 7 | CSJ Index | (9765) | 106 | 113 | 74 | 15 | 308 |
12 | 10 | 12 | 12 | 12 | WebdeW | 5200 | 16 | 56 | 36 | 1 | 109 |
13 | 13 | 13 | 13 | 13 | URL広場 | 3556 | 18 | 27 | 20 | 2 | 67 |
14 | 14 | 14 | 14 | 14 | 日本ネット | ? | 3 | 16 | 3 | 0 | 22 |
今回のねらい ビジネス関連の話題ということで調べてみました。その他に「リストラ」や「メーカー」なども調べました。検索しても必要な情報が得られないという人も多いようですが、情報量はまだ驚異的に増加しています。ロボット系のデータ入力が少し遅れ気味です。前々回に指摘しましたように、各索引サービスがもつ情報の網羅性は1~2割です。当分の間は巡回検索を使って複数のサービスを検索することをお薦めします。
カタカナによる検索例 検索キーがカタカナの場合、サービスにより結果が少々異なります。その辺を調べるために、2種類の検索を行いました。(A)「ベンチャー」と入力すると、「アドベンチャー」も一緒に検索(B)「ベンチャー」と入力しても、「ベンチャ」と入力しても結果は同じ(1)両方に該当しないもの ODIN、Mondou、日本語Opentext、TITAN、NTT DIRECTORY InfoNavigator、Netplaza(2)Aに該当しないが、Bに該当するもの NipponSE、Wave Search(3)A,B共に該当するもの 千里眼、WWWナビゲータ、Japan SE、Yahoo! Japan、Hole-in-One Yahho、CSJインデックス、WebdeW、URL広場、日本ネット
カタカナによる検索の注意点 両方に該当しない7サービスは、カタカナの日本語処理が正しく行われおり、よいシステムとみなせます。(A)の場合、NOT演算があれば「アドベンチャー」を除くことができます。下の表はアドベンチャーを除いた結果です。(B)の場合、「ー」がいらないからといって使用しないのは間違いです。現在のシステムが現実と異なってるからです。「-(マイナス)」を使った「ベンチャ-」も調べました。ほとんどの検索結果はゼロでしたが、一部のサービスで見つかりました。登録者が「ー」を「-」と入力ミスしたためです。カタカナは日本語の文章の中によく表れます。カタカナが続き、複数の単語がある場合にその区切りをソフトで見つけることは難しい問題です。その点、英語の場合は、単語と単語の区切りが空白やハイフンなどではっきりしています。
今週のポイント InfoNavigatorがロボット収集によるサービスを開始するとのこと、検索画面が改装されそうです。従来のデータベースは厳密に言えば索引系でなかったため、ロボット収集とのマッチングは比較的容易にできそうです。まだ収集データ数が少ないと思われますが、楽しみです。
InfoNavigator ぺージ検索開始(6月17日追加) 従来のサーバ検索に加え、ページ検索が追加されました。早速、検索結果を追加し、再計算し直し、ランクの移動を行いました。ページ検索結果は、企業(877)、ビジネス(866)、経営(26)、ベンチャー(3)でまだデータ量は少ないようです。
No | 16 | 17 | 18 | 20 | 検索サービス名 | 総数 | 企業 | ビジネス | 経営 | ベンチャー | 合計 |
1 | 1 | 1 | 2 | 3 | ODIN | 189,160 | #687 | #682 | #638 | #317 | 2,324 |
2 | 2 | 2 | 3 | 1 | Mondou | (200,000) | #2896 | #1407 | #1255 | #131 | 5,689 |
3 | 3 | 3 | 1 | 2 | 日本語OpenText | (?) | #2409 | #814 | #997 | #88 | 4,308 |
4 | 4 | 4 | 4 | 4 | TITAN | (300,000) | #*100 | #*100 | #*100 | #*93 | 393 |
- | - | - | - | - | 千里眼 | (97,000) | 2568 | 1609 | 1299 | 205 | 5,681 |
No | 16 | 17 | 18 | 20 | 検索サービス名 | 総数 | 企業 | ビジネス | 経営 | ベンチャー | 合計 |
1 | 2 | 1 | 2 | 5 | Nippon SE | - | 779 | 392 | 372 | 41 | 1,584 |
2 | 3 | 3 | 3 | 3 | WAVE Search | ? | 1041 | 630 | 213 | 83 | 1,967 |
3 | 1 | 11 | 7 | 2 | InfoNavigator | ? | *200 | *200 | 75 | 38 | 513 |
4 | 4 | 2 | 5 | 4 | NTT Directory | (5200) | #2437 | #446 | #117 | #44 | 3,044 |
5 | 13 | 5 | 1 | 1 | NETPLAZA | 8283 | 2000 | 1128 | 516 | 96 | 3,740 |
6 | 5 | 9 | 6 | 6 | WWWナビゲータ | 17433 | 589 | 322 | 99 | 48 | 1,058 |
7 | 10 | 6 | 4 | 8 | Japan SE | (5000) | 297 | 229 | 73 | 34 | 633 |
8 | 9 | 7 | 8 | 7 | Yahoo! JAPAN | 36414 | 760 | 215 | 98 | 35 | 1,108 |
9 | 5 | 8 | 10 | 10 | Hole-in-One | 15904 | *200 | *200 | 100 | 21 | 521 |
10 | 11 | 4 | 11 | 9 | Yahho | 13631 | 195 | 146 | 86 | 30 | 457 |
11 | 7 | 12 | 9 | 11 | CSJ Index | (9765) | 170 | 168 | 49 | 29 | 416 |
12 | 12 | 10 | 12 | 12 | WebdeW | 5200 | *200 | 168 | 93 | 10 | 471 |
13 | 8 | 13 | 13 | 13 | URL広場 | 3431 | 180 | 144 | 32 | 22 | 378 |
14 | 14 | 14 | 14 | 14 | 日本ネット | ? | 79 | 15 | 8 | 1 | 103 |
今回のねらい インターネットでスポーツ中継し、全世界の人が即時にその結果を知ることができるようになりました。今回は、アメリカで盛んに行われているフットボール、バスケットボール、野球、そしてサッカーについて調べて見ました。
Web上の人気スポーツ 検索数の多い順に、1位:フットボール、2位:バスケットボール、3位:野球、4位:サッカー、になります。サッカーがアメリカではあまり盛んでないことがわかります。各サービスごとの順位を見てみますと、大体同じ傾向が見れますので、収集しているデータが偏ったものでないと考えられます。前回の最新の情報技術の時に比べて、AltaVistaとLycosの差が10倍から3倍になりましたが、恐らくLycosの方が古いデータを蓄積しているからとみなせます。
検索サービス(フルテキスト系) Web上にあるすべての頁を対象にし、頁の中にあるすべての情報を取り込んだデータベースを作っているものです。HotBot、AltaVista、Ultraseek(6月にオープン)があり、少し系統が異なりますが、NlightNも含めました。HotBotは多彩なオプションがあり、いろいろと試してみることをおすすめします。5月20日から3週間たっていますが、まだデータベースの更新がなされていません。スコア順の出力に大きなミスがあるように思われます。やはり、軌道にのるまでの2ヶ月間位の微調整期間が必要のようです。AltaVistaはイントラネット用ソフト販売で収入を得ることを目的としていましたが、今度Yahoo!と提携関係ができ、両社にとっても、ユーザーにとっても良いニュースでした。オープンして半年たち、検索の機能面も充実しており、3,000万頁のボリュームからすれば現時点での総合評価は世界一です。機能がたくさんありますので、使い込んで欲しいものです。Ultraseekはまもなくオープンする予定です。会社のPR文も流されています。11日にInfoseek社は店頭公開し、14ドルの345万株で約50億円の資金を得ました。それに最近、日本で合弁予定の兼松の株が急上昇しています。NlightNはあまり使っていないのでわかりませんが、結果だけから判断しますと相当実力を持っています。Web以外のデータベースを含めれば、図書館系のも考慮しなければならなくなり、大変なことになります。
検索サービス(ロボット系) ロボットを使って情報を収集しないと、とても検索に応じられません。最初からロボットに頼るもの、索引系とロボット収集の2本立てのところなどがあります。Lycos、Opentext、Magellan、Infoseek、Webcrawler、Exciteなどです。ただ、AltaVista系とは明らかに差が開いてしまいました。Lycosは3,923万頁も収集しています。AltaVistaの出現で、いろいろ改善が図られているようです。例えば、検索結果の出力などは、従来のブツブツと途切れる紹介文に比べて、洗練された文章が出力されます。テキストの一部をデータベース化している関係でAltaVistaに比べて検索力は5分の1位になります。現在、AltaVista以上の新しいシステムを開発中とのことです。OpenTextは最近メインの画面をシンプルなものにしました。今までは複数のキー入力を3行にわけ、AND/ORを選択していたのですが、他のサービスと同様に1行の入力になりました。やはり初心者が多いインターネットの世界ではシンプルなものが好まれるようです。Yahoo!との提携は続いているようですが、時間の問題です。テキストを正しく処理しているのですがスピードとボリュームでAltaVistaと差ができてしまいました。Magellanは本来、従来のデータベース作りと同様に、Web情報の抄録を作成していました。それが4つ星評価です。しかし、ロボット収集に移行し、検索すればわかりますが評価した情報はわずかになってしまいました。Web情報の陳腐化が激しいのと、情報の増加量が多いので、最初のねらいはうまく機能していません。Infoseekは現在の10倍以上の頁数をもつUltraseekの準備中で、更新作業は止まってるようです。
索引サービス 初心者や、あるいは新しい分野の情報を探す場合の手がかりを与えるものとして、今でも重宝なのが索引サービスです。1年くらい前は、検索系と索引系の利用の比率が1対1でしたが、現在では6:1くらいにまで低下しており、ウエィトは下がる一方です。まだ、日本では索引系の利用が多く、1年半位の差があるように思われます。Yahoo!は索引系でトップです。検索結果をみればあきらかなように、ロボット収集をベースの検索とは大きな差ができてしまいました。今度AltaVistaと提携し、検索面での遅れをカバーすることになりました。従来の索引とAltaVistaの検索とをどう調和させるかが最大のポイントです。
No | Search Services | Total | FootB | BasketB | BaseB | Soccer |
1 | HotBot | 735,254 | 228,734 | 196,404 | 191,272 | 118,844 |
2 | AltaVista | 626,409 | 195,055 | 166,508 | 162,941 | 101,905 |
3 | NlightN | 519,862 | 160,004 | 152,598 | 158,716 | 48,544 |
No | Search Services | Total | FootB | BasketB | BaseB | Soccer |
1 | Lycos | 218,136 | 73,799 | 64,644 | 52,020 | 27,673 |
2 | Opentext | 81,444 | 27,525 | 21,450 | 21,243 | 11,226 |
3 | Magellan | 65,866 | 19,525 | 17,670 | 18,197 | 10,474 |
4 | infoSeek | 53,311 | 15,979 | 13,753 | 15,709 | 7,870 |
5 | WebCrawler | 30,273 | 9,428 | 7,748 | 7,887 | 5,210 |
6 | Excite | -- | -- | -- | -- | -- |
No | Index | Total | FootB | BasketB | BaseB | Soccer |
1 | Yahoo! | 2,222 | 607 | 539 | 541 | 535 |
2 | LinkStar | 1,273 | 358 | 277 | 368 | 270 |
3 | NR Yellow Pages | *960 | *240 | *240 | *240 | *240 |
4 | Galaxy | 683 | 251 | 175 | 183 | 74 |
5 | CMP TechSearch | *480 | *120 | *120 | *120 | *120 |
6 | ZdNet Search | *400 | *100 | *100 | *100 | *100 |
7 | Net-happenings | 250 | 75 | 58 | 71 | 46 |
8 | Pathfinder | *240 | *60 | *60 | *60 | *60 |
9 | Harvest Broker | 233 | 66 | 56 | 58 | 53 |
No | NetNews | Total | FootB | BasketB | BaseB | Soccer |
1 | AltaVistaNews | 175,766 | 48,504 | 46,580 | 58,296 | 22,386 |
2 | DejaNews | 89,487 | 27,956 | 20,082 | 30,218 | 11,231 |
3 | InfoseekNews | 14,391 | 4,278 | 3,491 | 4,781 | 1,841 |
今回のねらい 健康でなくてはインターネットはできません。若い女性は美容とダイエットにお金を使います。うらやましい限りです。ダイエットは食べる量を減らせば良いわけで、ここ3日ほど風邪で痩せることを経験しました。というわけでもないのですが、今回は健康に関するキーを選びました。
変化してるのを感じませんか 検索数だけを見ていても変化が感じられます。ロボット系に日本語OpenTextが加わりました。InfoNavigatorは索引系でいつもトップをマークしていたのですが、システムのテスト中なのか検索数が急減しています。それに比べて索引系からロボット系へ変身をはたしつつあるNippon Search Engineは1ヶ月位でトップになりました。それから、いつもブービーメーカーだったNETPLAZAは1ヶ月程前にロボット宣言をし、索引系とロボット系の2本立でサービスを開始し、今回の結果は良好です。
フィットネス情報の分析 フィットネスで得られた検索結果を分析しました。Nippon SEよりあとの、リンクがはっきりしないNTT DIRECTORYと英語分を除く11種のサービスから総計59の検索結果を得ました。重複分の20(重複2が5種、3が2、4が1、5が2)を除くとフィットネス情報は39になります。9つのサービスは検索数が8以下ですから、全体の2割も満たしません。1~2割の情報を示されて情報があったとかなかったとか? 自衛手段としては複数のサービスを利用したり(当巡回検索はグー)、ロボット系の検索をすることです。ああ、まだ一杯することがありますね。
日本語OpenText もう利用しましたか。まだ、検索結果の表示が100%でないですが、1ヶ月前よりはるかによくなっています。カタカナの処理も大部よくなっています。ときどき検索結果数が大きく示されるのがあるため、まだテスト中かなとも思います。最近、本家のホームページが改装し、シンプルになりました。ただ、残念なことは、当検索デスクから入力して検索する巡回検索が使えません。いろいろテストしているのですがうまくいきません。もう、しばらくお待ち下さい。
NETPLAZA Robo ホヤホヤのロボットによるサービスです。まだ、データ数は少ないようです。新聞社・出版社の検索サービスやHotBotなどにある期限オプションがあります。Roboでは手頃な2週間に設定されています。速報性を重視するというか、最新の情報を収集することを意味しますから、データが集まり本格化すれば有用な検索サービスになります。これからの成長が楽しみになってきました。
地域発見の追加 6月1日から地方自治体のWeb情報を1個所に集め検索サービスする「地域発見」がオープンしました。ホームページ217件から、約11万頁をキーワード検索できます。検索キーは限定されてるようです。従来の抄録型データベースがWebで利用でき、それに自治体のリンクが張られており、これからこのタイプのものがでてきそうです。巡回検索ができるよう試みていますが、まだOpenTextと同様、上手く動きません。
WebdeWの追加(6/11) リクルートのディレクトリサービスがオープンしました。フレームとカラーを使ったデザインになっています。米国のExciteのような感じです。早速、検索数の調査を行い、その結果を追加しました。「マラソン」の検索は「マラン」1件となりました。たくさんの頁がありますが、連絡先がどこにも見あたりません?
No | 14 | 16 | 17 | 18 | 検索サービス名 | 総数 | 健康 | ダイエット | 療法 | フィットネス | 合計 |
1 | 1 | 1 | 1 | 2 | ODIN | 189,160 | #697 | #220 | #240 | #70 | 1227 |
2 | 2 | 2 | 2 | 3 | Mondou | (200,000) | #833 | #99 | #109 | #99 | 1140 |
3 | 4 | 3 | 3 | 1 | 日本語OpenText | (?) | #1329 | #158 | #1627 | #35 | 3149 |
4 | 3 | 4 | 4 | 4 | TITAN | (300,000) | #*99 | #*70 | #*89 | #*19 | 257 |
- | - | - | - | - | 千里眼 | (97,000) | 728 | 90 | 432 | 18 | 2079 |
No | 14 | 16 | 17 | 18 | 検索サービス名 | 総数 | 健康 | ダイエット | 療法 | フィットネス | 合計 |
1 | 2 | 2 | 1 | 2 | Nippon SE | - | 249 | 58 | 33 | 10 | 350 |
2 | 3 | 3 | 3 | 3 | WAVE Search | ? | 404 | 58 | 35 | 3 | 500 |
3 | 7 | 4 | 2 | 5 | NTT Directory | (5200) | #266 | #30 | #11 | #13 | 320 |
4 | 1 | 1 | 11 | 7 | InfoNavigator | ? | *200 | 40 | 14 | 5 | 259 |
5 | 4 | 5 | 9 | 6 | WWWナビゲータ | 15372 | 187 | 42 | 17 | 5 | 251 |
6 | 12 | 13 | 5 | 1 | NETPLAZA | 7241 | 350 | 91 | 20 | 13 | 474 |
7 | 6 | 5 | 8 | 10 | Hole-in-One | 15169 | 97 | 37 | 12 | 3 | 252 |
8 | 5 | 9 | 7 | 8 | Yahoo! JAPAN | 36414 | 146 | 20 | 14 | 7 | 187 |
9 | 11 | 10 | 6 | 4 | Japan SE | (5000) | 231 | 47 | 18 | 8 | 304 |
10 | 8 | 11 | 4 | 11 | Yahho | 12865 | 83 | 18 | 5 | 3 | 109 |
11 | 9 | 7 | 12 | 9 | CSJ Index | (9765) | 227 | 43 | 8 | 4 | 282 |
12 | 10 | 12 | 10 | 12 | WebdeW | 5200 | 59 | 12 | 5 | 1 | 77 |
13 | 13 | 8 | 13 | 13 | URL広場 | 3209 | 70 | 5 | 7 | 2 | 83 |
14 | 14 | 14 | 14 | 14 | 日本ネット | ? | 15 | 2 | 2 | 3 | 20 |
今回のねらい Web情報という新しいメディアが登場しても,従来のメディアである新聞,雑誌,TV,ラジオの役割は変わらない。インターネットという新しい流通システムが既存のメディアにどのように影響していくか誰にも分からない。
試行錯誤の世界 新聞を例にとっても,試行錯誤の連続であり,絶えず変化している。よいニュースを流しているサイトで毎日見に行っているところも突如閉鎖されたり,つまらない所でもいつしか新しいものよいニュースに変わっている。このようなことはネット上では日常茶飯事なことである。
更新の必要性 最高のブックマークをつくっても,3ヶ月もたてば役に立たないことは誰でも経験していることである。そのような点を考えると,3ケ月以上維持管理されていない「リンク情報」は流すべきでなく,ネット上からはずすべきである。特に,アクセスの多いサイトの場合はその責任は重い。何も知らないビギナーが古い情報をベースに検索・索引・リンクの世界をみるとしたらマイナスにしかならない。
日本語 OpenText の登場 27日朝に突然発表になり,検索調査のためアクセスを試みたが,全然検索できない状態が続いている。アクセスの予想がはずれたのか,回線が細いのか分からない。昨年6月頃からサービスを始めた OpenText は検索ソフトの優れていることを宣伝するために無料の検索サービスをするカナダのソフト会社である。昨年9月に米国Yahoo!は検索面の遅れを OpenText でカバーすべく提携し,数週間でサービスを始めるとしていたのが,まだはっきりとした形に現れていない。4月に日本ヤフーがサービスを開始し,日本語OpenTextの総販売代理店である日商岩井がサービスを開始した。この4社の関係が今後どう展開するのか興味のある話題である。
日本語 OpenText ビギナーには少し取っつきにくい検索画面であるが,その機能は多彩なものを持っている。対象はWeb,URLなどあり,AND/OR/NOTなどの検索オプションも備わっている。3週間ほど前にテスト中の日本語OpenTextの検索調査を試みた。9~14回までの検索キーについての調査では,比較的収集数も多く,良好な結果を得ている。ロボットによる全文系ということで,ODIN,Mondou,TITAN,千里眼の範疇に入り,検索数だけのランクも試みた。カタカナの検索が極端に悪かったがどの程度改善されているだろうか?
その他 InfoNavigatorの検索結果が悪く,毎回ランク1位が10位である。何かシステムの変更をしているからかも知れない。それから,NTT DIRECTORY の検索数の上限がなくなり,検索総数が表示され良くなりました。Thanks。
No | 13 | 14 | 16 | 17 | 検索サービス名 | 総数 | 新聞 | 雑誌 | TV | ラジオ | 合計 |
1 | 2 | 1 | 1 | 2 | ODIN | 189,160 | #531 | #655 | #657 | #602 | 2445 |
2 | 3 | 2 | 2 | 1 | Mondou | (200,000) | #1230 | #988 | #*** | #400 | 2618 |
3 | 1 | 3 | 3 | 3 | TITAN | (300,000) | #*100 | #*100 | #*100 | #*100 | 400 |
- | - | - | - | - | 千里眼 | (97,000) | 4380 | 1051 | 2128 | 443 | 8002 |
No | 13 | 14 | 16 | 17 | 検索サービス名 | 総数 | 新聞 | 雑誌 | TV | ラジオ | 合計 |
1 | 1 | 1 | 1 | 10 | InfoNavigator | ? | 68 | 114 | 65 | 29 | 276 |
2 | 6 | 2 | 2 | 1 | Nippon SE | - | 408 | 383 | 435 | 145 | 1371 |
3 | 2 | 3 | 3 | 3 | WAVE Search | ? | 320 | 345 | 139 | 79 | 883 |
4 | 3 | 7 | 4 | 2 | NTT Directory | (5200) | #425 | #406 | #227 | #191 | 1249 |
5 | 4 | 4 | 5 | 9 | WWWナビゲータ | 14357 | 149 | 158 | 62 | 52 | 421 |
6 | 7 | 6 | 5 | 8 | Hole-in-One | 14762 | 114 | 161 | 85 | 70 | 430 |
7 | 5 | 10 | 10 | 6 | Japan SE | (5000) | 88 | 228 | 91 | 60 | 467 |
8 | 10 | 5 | 9 | 7 | Yahoo! JAPAN | 34957 | 161 | 136 | 88 | 60 | 445 |
9 | 13 | 8 | 11 | 4 | Yahho | 12300 | 113 | 357 | 357 | 79 | 906 |
10 | 8 | 9 | 7 | 11 | CSJ Index | (9765) | 67 | 89 | 52 | 27 | 235 |
11 | 11 | 11 | 12 | 5 | NETPLAZA | 6747 | 104 | 266 | 146 | 25 | 541 |
12 | 9 | 12 | 8 | 12 | URL広場 | 3119 | 71 | 54 | 42 | 13 | 180 |
13 | 12 | 13 | 13 | 13 | 日本ネット | ? | 18 | 44 | 10 | 6 | 78 |
今回のねらい 自治体のインターネット利用がアツクなってきました。今回は自治体、振興、地域振興、商工会議所をとりあげました。自治体関連の情報が400、500と言われています。組織が流す公式の情報と個人が流す非公式な情報がありますので、情報の把握はますます難しくなってきました。
複合語の処理 Webページの中に地域振興を見出した時の処理法は主に2種類あります。(1)地域振興と1単語として処理、(2)地域と振興に分けて2単語として処理。これらの区別は検索してみればわかります。地域振興の検索数と地域と振興をANDで結んだ検索数が異なっていれば前者、同じであれば後者とみなせます。
地域振興を調べるには 実際の調査では、地域、振興、地域AND振興、地域OR振興などの検索数を求めました。AND検索の方が単独の地域振興よりも検索数が多いため、AND検索ができる場合にはAND検索の検索数を地域振興の検索数に採用しました。17の検索システムのうち、AND検索ができるのは11、OR検索ができるのは10です。今回はANDができないシステムは幾分不利になっています。
情報の中身 商工会議所の検索結果を見ていると、結構重複データが入っています。古くなった広報的な紹介をどう扱うか、ゴミの山を築いているのか宝の山を築いているのか難しい問題を含んでいます。
今週は2つの楽しみが Nippon Search Engine と米国の Inktomi が20日(月)に新装開店します。Nippon SE のシステムは3月頃からテスト中で、この5月7日から引越しのため停止していたのものです。Inktomi はサービスしていましたが、データの入力が昨年11月頃から止まっており、新しい情報が入っていなかったので紹介からはずしていました。Alta Vista に匹敵する検索エンジンであることと、大学からベンチャー企業へと転身します。
Nippon Search Engine 5月23日追加引っ越しのためサービスを中止していたのですが,再開しました。しかし,現在のサーバーは仮のもので,正式に移行するのは今月末です。当検索デスクのNSEへのリンクは即対応しました。検索数の調査ですが,ロボット収集が全体の4分の3を占めるほどになり,InfoNavigatorに次ぐ実力を持つものに成長しています。検索で気がついた点は複合語は分けてAND検索する事です。「地域振興」は「地域」「振興」とスペースで分けて入力しAND検索を,「商工会議所」は「商工」「会議」「所」と分けてAND検索です。
No | 11 | 12 | 13 | 14 | 16 | 検索サービス名 | 総数 | 自治体 | 振興 | 地域振興 | 商工会議所 | 合計 |
1 | 2 | 2 | 2 | 2 | 1 | ODIN | 189,160 | #349 | #577 | #7 | #267 | 1200 |
2 | 1 | 1 | 4 | 1 | 2 | 千里眼 | (97,000) | 179 | 470 | 22 | 155 | 826 |
3 | 4 | 3 | 3 | 3 | 3 | Mondou | (200,000) | #122 | #380 | #87 | #126 | 715 |
4 | 3 | 4 | 1 | 4 | 4 | TITAN | (300,000) | #100 | #95 | #96 | #95 | 386 |
No | 11 | 12 | 13 | 14 | 16 | 検索サービス名 | 総数 | 自治体 | 振興 | 地域振興 | 商工会議所 | 合計 |
1 | 3 | 2 | 1 | 1 | 1 | InfoNavigator | ? | *198 | 167 | 101 | 45 | 511 |
2 | 1 | 3 | 2 | 3 | 3 | WAVE Search | ? | 75 | 73 | 19 | 28 | 195 |
3 | 2 | 5 | 4 | 4 | 5 | WWWナビゲータ | 13654 | 38 | 38 | 6 | 21 | 103 |
4 | 4 | 6 | 3 | 7 | 4 | NTT Directory | (5200) | #45 | #44 | #9 | #14 | 112 |
5 | 5 | 10 | 6 | 2 | 2 | Nippon SE | - | 59 | 98 | 30 | 29 | 216 |
6 | 7 | 9 | 7 | 6 | 5 | Hole-in-One | 14534 | 87 | 15 | 4 | 12 | 118 |
7 | 9 | 1 | 5 | 10 | 10 | Japan SE | (5000) | 45 | 18 | 9 | 5 | 77 |
8 | 6 | 8 | 10 | 5 | 9 | Yahoo! JAPAN | 33587 | 19 | 25 | 5 | 13 | 62 |
9 | 10 | 7 | 8 | 9 | 7 | CSJ Index | 9026 | 37 | 20 | 9 | 8 | 74 |
10 | 8 | 4 | 13 | 8 | 11 | Yahho | 11735 | 60 | 19 | 1 | 6 | 86 |
11 | 11 | 11 | 9 | 12 | 8 | URL広場 | 3058 | 11 | 48 | 5 | 11 | 75 |
12 | 12 | 12 | 11 | 11 | 12 | NETPLAZA | 6150 | 10 | 10 | 1 | 12 | 33 |
13 | 13 | 13 | 12 | 13 | 13 | 日本ネット | ? | 3 | 1 | 0 | 0 | 4 |
今回のねらい 今まで日本語のサービスを対象の調査をしてきましたが、今回は米国を中心とした英語のWebサービスを始めて調査しました。検索キーは第9回の調査と同じで、最新の技術情報に関するものです。従って、この調査が各データベースの全体像を表すものでないことをお断りしておきます。今後、1ヶ月に1回位Web調査をする予定です。
Web検索サービス(1) いろいろな検索エンジンが紹介されていますが、その実力はあまり知られていません。ナンバー・ワンの Alta Vista は2位 Lycos の約10倍の検索数があります。改めて Alta Vista の実力が浮かび上がりました。2位の Lycos は検索結果が充実し、利用しやすいデータベース作りがなされています。3位のMagellanは一部のサイトを従来のデータベース作りと同じようにレーティングするなどして結構面倒なことをしていますが、最近のように量の競争から質の競争へ移ってきたときに威力を発揮します。それに着実にデータ数を伸ばしています。
Web検索サービス(2) 4位のinfoseekは索引系から出発していますが、ロボット収集にも力を入れており、この6月から Alta Vista と互角に争える Ultaraseek が稼動しますので面白くなってきました。5位の NlightN はほとんど取り上げられていないのですが、やはり相当な実力を持っています。単にWeb情報だけでなくニュースや雑誌の情報も検索できますので重宝です。ただ、ShockwaveとJavaScriptの検索数が少ないのは、データの最終更新が昨年末で、今年のデータが入っていないからと思われます。Exciteだけ検索総数の表示がなく、ランクできませんでしたが、実力があるわけですから公開しないと不利になります
Webと日本を比較 ついでに日本のロボット系の検索数も調べテーブルに載せました。日本語のデータがWebの総量に対してどれくらいかわかりませんが、Webの3.3%で30分の1、5%で20分の1になります。Lycosを基準にすれば、総数で3,100~4,600となります。ODINやMondouはまだ誕生して間がないので、日本語のデータの半分位しか集めてないように思われます。千里眼の最終更新日は1月5日ですが、ShckwaveやJavaScriptの検索数が極端に少ないことからもわかります。
Web索引サービス 索引系はロボットによる検索系に比べると、検索数は約50分の1となり、完全に差がついてしまいました。日本では、検索系も索引系も一緒に扱っていますが、やはり区別して扱うことが必要です。索引系は逆に50倍の価値のある情報を伝えなければ生き残っていけないかも知れません。その中でもYahoo!は頑張っています。新顔として、New Rider's Yellow Pages や LinkStar が上位に入ってきました。各サービスは互いに抜きつ抜かれつのデットヒートを繰りひろげています。現時点の新鮮な情報を伝えることが必要であることを痛感しました。
No | Search Services | Java | VRML | RealAudio | Shockwave | JavaScript | Total |
1 | Alta Vista | 481,316 | 193,019 | 165,371 | 45,330 | 39,262 | 924,298 |
2 | Lycos | 48,298 | 21,435 | 12,392 | 6,095 | 4,350 | 92,570 |
3 | Magellan | 28,760 | 7,981 | 6,734 | 3,237 | 2,381 | 49,093 |
4 | infoSeek | 16,140 | 4,414 | 4,665 | 2,364 | 2,337 | 29,920 |
5 | NlightN | 11,089 | 37,482 | 7,496 | 822 | 159 | 57,048 |
6 | Opentext | 7,558 | 5,016 | 2,899 | 977 | 2,878 | 19,328 |
7 | WebCrawler | 11,493 | 3,310 | 3,557 | 2,139 | 1,578 | 22,077 |
- | Excite | -- | -- | -- | -- | -- | -- |
J1 | ODIN | 466 | 448 | 384 | 454 | 137 | 1,889 |
J2 | Mondou | 1,524 | 427 | 125 | 239 | 64 | 2,379 |
J3 | 千里眼 | 3,100 | 853 | 369 | 80 | 26 | 4,428 |
No | Search Services | Java | VRML | RealAudio | Shockwave | JavaScript | Total |
1 | Yahoo! | 508 | 349 | 151 | 141 | 125 | 1,274 |
2 | Galaxy | 399 | 85 | 183 | 49 | 462 | 1,178 |
3 | NR Yellow Pages | *240 | 233 | 214 | *240 | 230 | *1,157 |
4 | LinkStar | 291 | 223 | 133 | 156 | 105 | 908 |
5 | ZdNet Search | *100 | *100 | *100 | *100 | *100 | *500 |
6 | Harvest Broker | 83 | 76 | 76 | 89 | 94 | 418 |
7 | CMP TechSearch | *101 | *101 | 79 | 40 | 51 | *372 |
8 | Pathfinder | *60 | *60 | *60 | *60 | *60 | *300 |
9 | Net-happenings | 122 | 59 | 67 | 21 | 16 | 285 |
今回のねらい あなたはスポーツして楽しむ方ですか、それともスポーツを観る方ですか。今回は集団競技の野球とサッカー、個人競技の相撲とマラソンをとりあげました。個人主義が横行する欧米で少しは集団で行動をと考え出されたのが野球やサッカーなどの集団で行うスポーツ。一方、集団主義が横行する日本で少しは個人で行動をと日本古来の相撲や武道などがあります。昔は剣道が好きで2段の腕前です。今は週に2~3Km泳いでいます。
2種類の検索画面 検索サービスの利用状況を調査する必要があります。ビギナーが続々参入してますから検索サービスの利用法を啓蒙することは必要です。カメラでも素人用とプロ用があるように、検索画面もビギナー用とプロ用が必要です。ビギナー用はキーワードを入力するだけで検索でき、プロ用はいろいろな検索オプションを使った検索ができます。サービス側がいくら良いシステムを提供しても、その使い方を教える場がなく、優れていますが複雑な方法の利用は少ないのが現状です。また、キーワード1つだけの検索とオプション付きの検索の2系統で処理した方がシステムの負荷は少ないため、索引サービスでは2種類の検索画面があります。
データ総数について 今年の1月から各サービスの毎週末のデータ総数を調べ、「日本の検索」画面や各サービスのデータ総数を新しいのに更新しています。データ総数を公表している所はその数値を、索引などで概数が求まる所は電卓でカウントしたりと、最新のデータを維持するのに結構時間がかかっています。そこで昨日、電卓でカウントする所のソフトを作りました。来週から少しは楽になりそうです。以下に、データ総数に関する各サービスの現況をまとめました。
ロボットと登録の併用型 Nippon Search Engineは併用型の新システムに移行しており、データベースも整理されつつあります。今回の検索数調査でそれがはっきりしてきました。今までの情報収集はロボットか登録かということで2つに分かれていましたが、今後は第3の併用型へ移行するものが多くなってきそうです。InfoNavigatorはデータベースの構築が他の所と異なっていると思っていましたが、やはりロボットとの併用型のようです。Yohoo! JAPANも併用型を打ち出してきましたので、もうこの流れは止めれません。
Yohoo! JAPAN、今度は少々減少 見切り発車したせいか先週データが倍増しました。この1週間はデータを見直したのか、珍しいことですが、少々減少しました。情報を提供する以上、古い情報やリンクのない所を紹介しないよう気を付けるのは当然といえば当然ですが、情報の信頼性を保つ努力をしていることがうかがえます。今回の検索数調査からランクが上がってきました。
No | 10 | 11 | 12 | 13 | 14 | 検索サービス名 | 総数 | 野球 | サッカー | 相撲 | マラソン | 合計 |
1 | 1 | 1 | 1 | 4 | 1 | 千里眼 | (97000) | 1632 | 870 | 415 | 159 | 2286 |
2 | 2 | 2 | 2 | 2 | 2 | ODIN | 189160 | #577 | #635 | #250 | #233 | 1695 |
3 | 3 | 4 | 3 | 3 | 3 | Mondou | ? | #413 | #392 | #132 | #94 | 1031 |
4 | 4 | 3 | 4 | 1 | 4 | TITAN | (300000) | #98 | #98 | #67 | #89 | 352 |
No | 10 | 11 | 12 | 13 | 14 | 検索サービス名 | 総数 | 野球 | サッカー | 相撲 | マラソン | 合計 |
1 | 2 | 3 | 2 | 1 | 1 | InfoNavigator | ? | 76 | 115 | 31 | 25 | 247 |
2 | 1 | 1 | 3 | 2 | 3 | WAVE Search | ? | 49 | 98 | 21 | 7 | 175 |
3 | 4 | 2 | 5 | 4 | 4 | WWWナビゲータ | 11534 | 25 | 51 | 17 | 2 | 95 |
4 | 3 | 4 | 6 | 3 | 7 | NTT Directory | (5200) | #21 | #34 | #4 | #6 | 65 |
5 | 11 | 5 | 10 | 6 | 2 | Nippon SE | (17000) | 86 | 121 | 31 | 12 | 260 |
6 | 9 | 9 | 1 | 5 | 10 | Japan SE | (5000) | 8 | 33 | 2 | 2 | 45 |
7 | 6 | 7 | 9 | 7 | 6 | Hole-in-One | 12792 | 24 | 47 | 10 | 5 | 86 |
8 | 10 | 6 | 8 | 10 | 5 | Yahoo! JAPAN | 28865 | 25 | 32 | 7 | 11 | 75 |
9 | 7 | 10 | 7 | 8 | 9 | CSJ Index | 9026 | 11 | 29 | 7 | 1 | 48 |
10 | 8 | 8 | 4 | 13 | 8 | Yahho | 10351 | 18 | 24 | 12 | 0 | 54 |
11 | 5 | 12 | 12 | 11 | 11 | NETPLAZA | 4871 | 9 | 24 | 3 | 2 | 38 |
12 | 12 | 11 | 11 | 9 | 12 | URL広場 | 2794 | 5 | 10 | 1 | 2 | 18 |
13 | 13 | 13 | 13 | 12 | 13 | 日本ネット | ? | 2 | 1 | 0 | 0 | 3 |
今回のねらい 今話題の電子マネーに関するキーを調べてみました。紙媒体の新聞や雑誌などでは情報の伝達は速いのですが、Webの世界はどうなっているのでしょうか。また、今回は電子決済、電子キャッシュ(電子マネー、電子商取引も調査)など先頭に電子がくる複合語を使いました。あまり良い結果が得られませんでしたが、定点観測ということで採用しました。
日本語Webの処理 日本語Webは漢字、カタカナ、ひらがな、英文字、数字やカンマなどの特殊文字、全角と半角文字、HTMLのタグ、リンク情報、画像情報などから構成されています。この中から重要なキーを探し出し、データベースを作成しています。英語処理とは異なる日本語処理技術と、Web処理技術の両方が必要になります。これから急速に発展する分野で、楽しみです。
「電子決済」を調べるには 電子決済を検索する場合、システムにより次のような異なった方法が存在します。
カタカナの処理 英語は漢字で表せる場合は漢字で、そうでない場合はカタカナで表します。今回の電子キャッシュはエレクトロニック・キャッシュとかデジタル・キャッシュとも言いますので前回にも少し触れましたが、電子の入力でエレクトロニックやデジタルも検索できればユーザーには便利になります。すべての単語を翻訳できなくても、よく使用するものだけでも十分ですから、これもお願いします。
Yohoo! JAPAN のデータが1週間で倍増 検索サービスを利用する場合、データの構成を知ることはユーザーにとって必要なことです。他の所もそうですが、Yahoo! JAPANもデータを良心的に公開しています。驚くべきことに、この1週間でデータは倍増(13,500→29,000=2.15倍)しました。主なものを列挙しますと、ビジネスの人名録(0→3,645)、企業(3,106→4,719)、製品およびサービス(466→1,689)、インターネット(546→577)、大学(0→842)、個人(1,849→1,914)、リファレンス一覧(2→3,647)、世界の国々(2,124→2,281)などです。まだ流動的ですが、従来とは異なった新しいタイプのデータベースを構築しているようです。
No | 9 | 10 | 11 | 12 | 13 | 検索サービス名 | 総数 | セキュリティ | 認証 | 電子決済 | 電子キャッシュ | 合計 |
1 | 1 | 1 | 1 | 1 | 4 | 千里眼 | 97000 | 284 | 71 | 12 | 1 | 368 |
2 | 2 | 2 | 2 | 2 | 2 | ODIN | 134665 | #555 | #153 | #6 | #2 | 716 |
3 | 4 | 4 | 3 | 4 | 1 | TITAN | 300000 | #*100 | #70 | #42 | #24 | 236 |
4 | 3 | 3 | 4 | 3 | 3 | Mondou | ? | #180 | #57 | #12 | #20 | 269 |
No | 9 | 10 | 11 | 12 | 13 | 検索サービス名 | 総数 | セキュリティ | 認証 | 電子決済 | 電子キャッシュ | 合計 |
1 | 1 | 2 | 3 | 2 | 1 | InfoNavigator | 6477 | 65 | 17 | 13 | 4 | 99 |
2 | 10 | 1 | 1 | 3 | 2 | WAVE Search | 6965 | 34 | 4 | 3 | 1 | 42 |
3 | 2 | 4 | 2 | 5 | 4 | WWWナビゲータ | 10814 | 19 | 3 | 2 | 0 | 24 |
4 | 4 | 3 | 4 | 6 | 3 | NTT Directory | 5200 | #20 | #3 | #0 | #1 | 24 |
5 | 3 | 6 | 7 | 9 | 7 | Hole-in-One | 11296 | 4 | 1 | 0 | 1 | 6 |
6 | 11 | 9 | 9 | 1 | 5 | Japan SE | 5000 | 6 | 0 | 3 | 1 | 10 |
7 | 5 | 10 | 6 | 8 | 10 | Yahoo! JAPAN | 29052 | 12 | 0 | 0 | 0 | 12 |
8 | 6 | 8 | 8 | 4 | 13 | Yahho | 9897 | 0 | 0 | 0 | 0 | 0 |
9 | 8 | 11 | 5 | 10 | 6 | Nippon SE | 17000 | 12 | 1 | 2 | 0 | 15 |
10 | 9 | 7 | 10 | 7 | 8 | CSJ Index | 8006 | 9 | 0 | 2 | 0 | 11 |
11 | 7 | 12 | 11 | 11 | 9 | URL広場 | 2694 | 7 | 1 | 0 | 0 | 8 |
12 | 13 | 5 | 12 | 12 | 11 | NETPLAZA | 4548 | 4 | 0 | 0 | 0 | 4 |
13 | 12 | 13 | 13 | 13 | 12 | 日本ネット | ? | 0 | 0 | 0 | 0 | 0 |
今回のねらい 音楽情報の集まっている所を調べるために、音楽に関連したキーワードを用いて検索を試みました。まだ、いろいろと分からないこと不明瞭なところがでてきます。検索サービスごとに検索の仕組みが微妙に異なっていることを知るだけでも一歩前進です。
分類項目に音楽を含む場合の処理 分類項目の中に「音楽」が含まれる場合があります。そのような時に音楽をキーに検索すると、分類項目にあるものを検索する/しないにより検索数が異なってきます。検索に分類項目を含めるべきか/べきでないかは一概に言えませんが、含める方が広範囲の結果が得られます。オプションで含む/含まないが選択できればよいのですが、一般ユーザーには複雑なものと感じられるかも知れません。その判断は難しい所です。
アーチストとCD 検索数を表すデータから、サウンドの検索数に比べてmusicの検索数が多いものとしてJapan SE、Yahho、CSJインデックスがあります。これらの検索結果を見ますとアーチストごとの紹介や音楽CDのレーベルごとの紹介が含まれています。これらの検索サービスは音楽情報に強いところとみなせます。
海外のWeb情報の処理 Japan SEの検索数が非常に多いのは海外のWeb情報を含んでいるからです。こちら側でカウントし直すことができないためそのまま載せました。検索は日本語だけに限定するのか日本語と英語のハイブリッド型にするのかも大きな問題です。少なくとも海外のWeb情報を含む場合、TITANやNippon SEのようにオプションで選択できるのが望ましい形です。
日本語翻訳処理について 前回の英字の処理で大文字・小文字だけでなく全角の英字も同時に検索できたら使いやすいということを記しましたが、ここでは翻訳検索についての提案をまとめてみました。今回は「音楽」、「ミュージック」、「music」を調べましたが、この中のどれか1つを指定すればその他の2つが同時に検索されORした結果が返ってくるのが理想的です。すなわち、「music」を検索すると「音楽」も「ミュージック」も検索され、そのORしたものが表示されるということです。もちろん、「ミュージック」とすれば、「音楽」と「music」が検索されます。現在、TITANとNippon SE(準備中)は翻訳検索では一歩先んじており、「music」で検索すると「音楽」を、「音楽」で検索すると「music」を自動的に検索します。これをさらに推し進め「ミュージック」までできないかと無理な難題ですがお願いします。
新設Yohoo! JAPAN の索引について 分類の構成は米国と同じです。ここでは、ヤフー的なところを紹介します。日本ヤフーは13,400ページの情報量でスタートしました。しかし、カテゴリーの中のビジネスと経済/企業(3106)、エンターテインメント/個人(1849)、地域情報/世界の国々(2125)の合計7080が未分類?の状態で入っています。従って、分類済みの情報は13400-7080=6320となり、中規模からのスタートとみなせます。登録用のフォームからも分かりますが、企業のホームページはビジネスと経済へ、個人のホームページはエンターテインメント/個人へ、政府や地方公共団体などの特定地域に関するホームページは地域情報へと、新着情報は主体により、3種類のカテゴリーに分けて登録します。それを専門家が分類整理して提供するようです。分類は6320ですが、検索は13400のデータを対象にしますので、やはり大きなデータベースからの出発です。
No | 検索サービス名 | 対象/内容 | 総数 | 音楽 | ミュージック | music | サウンド | 合計 |
1 | ODIN | 主要文書/主要文章 | 134665 | #703 | #619 | #727 | #550 | 2599 |
2 | Mondou | 主要文書/主要文章 | ? | #1279 | #147 | #1649 | #134 | 3209 |
3 | TITAN | 全文書/全文章 | 300000 | #*100 | #*99 | #*98 | #*99 | *322 |
4 | 千里眼 | 全文書/ タイトル・アンカー | 97000 | 2589 | 457 | 4917 | 544 | 8507 |
No | 検索サービス名 | 対象/内容 | 総数 | 音楽 | ミュージック | music | サウンド | 合計 |
1 | Japan SE | 投稿/紹介文 | 5000 | 461 | 108 | 521 | 50 | 1140 |
2 | InfoNavigator | 投稿+α/ 紹介文+α | 5906 | *199 | 86 | *199 | 107 | *591 |
3 | WAVE Search | 投稿/紹介文 | 6965 | 466 | 87 | 96 | 50 | 699 |
4 | Yahho | 投稿/紹介文 | 9351 | 187 | 30 | 520 | 12 | 749 |
5 | WWWナビゲータ | 投稿/紹介文 | 10363 | 225 | 55 | 52 | 49 | 381 |
6 | NTT Directory | 投稿/紹介文 | 5200 | #317 | #33 | #116 | #30 | #496 |
7 | CSJ Index | 投稿/紹介文 | 8006 | 255 | 38 | 192 | 12 | 497 |
8 | Yahoo! JAPAN | 投稿/紹介文 | 13494 | 166 | 34 | 61 | 38 | 299 |
9 | Hole-in-One | 投稿/紹介文 | 11162 | *200 | 43 | 83 | 14 | *340 |
10 | Nippon SE | 投稿/紹介文 | 17000 | 259 | 13 | 77 | 37 | 386 |
11 | URL広場 | 投稿/紹介文 | 2685 | 100 | 27 | 126 | 16 | 269 |
12 | NETPLAZA | 投稿/紹介文 | 4252 | 254 | 8 | 36 | 4 | 302 |
13 | 日本ネット | 投稿/紹介文 | ? | 10 | 6 | 1 | 2 | 19 |
今回のねらい 春です。桜の季節です。桜の名所の近くに住んでいます。昨日の雨で桜のつぼみも膨らんできました。これからの1~2週間はとても陽気な時期です。というわけで、花、フラワー、桜、ガーデンというポピュラーなキーを選びました。その他に、庭園や花見なども調べました。
行事のインターネット化 初日の出、桜の名所、花火大会、お祭り、クリスマスなどの行事がスポーツ中継と共にインターネットで流されるようになってきました。そのような何かを探したい場合には検索サービスを使いなさいと自信を持って人に進めれたらと思います。そのためには、新しい情報をできるだけ速くデータベース化することが大事なように思います。
英文字のあつかい 日本語のWeb情報は英語の単語も含んでいます。英単語を検索するときに問題になるのが大文字と小文字の区別です。検索サービスごとに微妙に異なっています。第9回の検索調査では英単語だけをあつかいましたが、その時に気付いたことも含めてまとめてみました。
NTT DIRECTORY の海外サイト検索 日本語版と同じスタイルのメニューです。まだ、情報量は少ないようです。今後重要になるアジアの情報が一覧できるのは有用です。メニューの下部は、アジアの国別にサイトが選択できるようになっています。表示は日本語で、内容は英語です。
新設Yohoo! JAPAN の追加 3日の午後から検索サービスを開始しました。早速、従来通りの方法で検索数を調べてランキングしました。今回は「花」関連のテーマで全体の評価を示すものではありません。データはロボットでも収集しますので、今後データ数の急増が見込まれます。(4月3日)
No | 検索サービス名 | 対象/内容 | 総数 | 花 | フラワー | 桜 | ガーデン | 合計 |
1 | ODIN | 主要文書/主要文章 | 121823 | #628 | #212 | #440 | #284 | 1564 |
2 | Mondou | 主要文書/主要文章 | ? | #559 | #61 | #187 | #55 | 862 |
3 | TITAN | 全文書/全文章 | 300000 | #100 | #86 | #*97 | #*99 | *322 |
4 | 千里眼 | 全文書/ タイトル・アンカー | 97000 | 2557 | 162 | 670 | 248 | 3637 |
No | 検索サービス名 | 対象/内容 | 総数 | 花 | フラワー | 桜 | ガーデン | 合計 |
1 | WAVE Search | 投稿/紹介文 | 6965 | 165 | 30 | 29 | 41 | 265 |
2 | WWWナビゲータ | 投稿/紹介文 | 10058 | 98 | 21 | 14 | 25 | 158 |
3 | Nippon SE | 投稿/紹介文 | 17000 | 101 | 15 | 8 | 11 | 135 |
4 | NTT Directory | 投稿/紹介文 | 5200 | #47 | #23 | #11 | #17 | #98 |
5 | InfoNavigator | 投稿+α/ 紹介文+α | 4879 | 195 | 5 | 49 | 6 | 255 |
6 | Yahoo! JAPAN | 投稿/紹介文 | 13397 | 88 | 10 | 8 | 10 | 116 |
7 | Yahho | 投稿/紹介文 | 8981 | 53 | 4 | 11 | 10 | 78 |
8 | Hole-in-One | 投稿/紹介文 | 10862 | 65 | 11 | 5 | 7 | 88 |
9 | CSJ Index | 投稿/紹介文 | 8006 | 48 | 5 | 4 | 17 | 74 |
10 | Japan SE | 投稿/紹介文 | 5000 | 51 | 9 | 3 | 11 | 74 |
11 | URL広場 | 投稿/紹介文 | 2648 | 19 | 1 | 8 | 4 | 32 |
12 | NETPLAZA | 投稿/紹介文 | 3919 | 19 | 1 | 2 | 2 | 24 |
13 | 日本ネット | 投稿/紹介文 | ? | 5 | 2 | 1 | 0 | 8 |
今回のねらい インターネットを使って商売を始めようとしている人が多いようです。そのような場合に、まずショッピングに関する情報が必要ということで、ショッピング、通信販売、商店街、モールなどをキーにした検索を試みました。
全体からみた得意・不得意分野の調査の必要性 みなさんも気付いておられると思いますが、収集しているWeb情報は各検索サービスごとに異なっています。すなわち、データベース化しているものに得意・不得手があるということです。先週のブラウザ周辺の技術と今回のショッピングではランキングが大きく変化しています。その意味でこのような検索調査を積み重ね、全体から見た各検索サービスごとの得意・不得意分野を明らかにしていくことは必要なことです。
ランキングのルール 毎週、検索結果をベースにリストの順番を変えることにしました。そこで次のようなルールをつくりました。
各キーごとに、検索数の大きい順に順位を求める。4種類のキーによる順位の和を基にした順位を求める。上記5種類の和を基に順位を求める。同順位の場合は検索数合計が多い順とする。
このような操作はExcelなどが得意とするものです。データを入れたらすぐに順番がわかります。あなたもマクロで作ってみませんか。
Nippon Search Engine 2.0β版 検索本体のみで、登録やその他については順次リリースしていくとのことです。カラフルな画面です。検索画面もすっきりし、検索語入力と検索オプション指定(OR,AND,NOT)だけで、従来行っていた和英翻訳機能は準備中です。内部処理の問題かと思いますが、データベースが3系統あります。国内(マジックマウス社による紹介文)、国外DB、登録紹介文です。それぞれ#M、#W、#Uと検索結果は別々に表示されます。例えば、db#M/11: [1] / db#U/1: [1] / などと表示しますので、[1]の所をクリックすると該当するDBの結果が得られます。検索数の全部を一度に出力しますが、最近の出力傾向の10から20単位での出力表示(本来はスコア順の出力に使用するのですがスコア順でなくても有効)の方が負荷が少ないのでは思います。
ショッピング情報 ショッピングは製品の宣伝や広告の場です。NTTの新着情報などにも、XX製品を特売中というようなチラシのようなものまで入っています。そのようなデータは扱わないという所もありますが、広告データは期限つきで、期限が過ぎたらはずさなければゴミが蓄積されます。今後、この種のWeb情報は急増しますので、それを扱うガイドラインを作成することが必要です。
No | 検索サービス名 | 対象/内容 | 総数 | ショッピング | 通信販売 | 商店街 | モール | 合計 |
1 | ODIN | 主要文書/主要文章 | 92899 | #617 | #96 | #273 | #352 | 1338 |
2 | Mondou | 主要文書/主要文章 | ? | #431 | #223 | #124 | #125 | 903 |
3 | TITAN | 全文書/全文章 | 300000 | #*100 | #*100 | #*96 | #*92 | *388 |
4 | 千里眼 | 全文書/ タイトル・アンカー | 97000 | 853 | 296 | 238 | 319 | 1706 |
No | 検索サービス名 | 対象/ 内容 | 総数 | ショッ ピング | 通信販売 | 商店街 | モール | 合計 |
1 | WAVE Search | 投稿/紹介文 | 6965 | 398 | 260 | 57 | 104 | 819 |
2 | InfoNavigator | 投稿+α/ 紹介文+α | 4269 | *199 | *199 | 63 | 81 | *542 |
3 | WWWナビゲータ | 投稿/紹介文 | 9610 | 254 | 170 | 35 | 73 | 532 |
4 | NTT Directory | 投稿/紹介文 | 5200 | #754 | #159 | #17 | #50 | #980 |
9 | Hole-in-One | 投稿/紹介文 | 9986 | *200 | 164 | 20 | 96 | 580 |
5 | CSJ Index | 投稿/紹介文 | 7031 | 363 | 193 | 18 | 39 | 613 |
6 | NETPLAZA | 投稿/紹介文 | 3681 | 618 | 606 | 9 | 10 | 1243 |
7 | Yahho | 投稿/紹介文 | 8649 | 250 | 61 | 32 | 41 | 384 |
8 | Japan Search Engine | 投稿/紹介文 | 5000 | 199 | 83 | 13 | 42 | 337 |
10 | Nippon Search Engine | 投稿/紹介文 | 17000 | 121 | 116 | 25 | 5 | 267 |
11 | URL広場 | 投稿/紹介文 | 2483 | 58 | 42 | 10 | 13 | 123 |
12 | 日本ネット | 投稿/紹介文 | ? | 36 | 15 | 0 | 8 | 59 |
今回のねらい 日本語のWeb情報を集めた検索や索引には日本語しか使えないと思っている人が多いようです。日本語の文章、特にWeb情報は漢字、カタカナ、英単語から構成されています。そこで今回は英単語だけを使いました。インターネットの最先端技術を表すキーワードばかりです。しかし、このような調査からでも新しいことが発見できます。
最新の情報は入っているのか 15日発売の日経マルチメディアの特集「進化するWeb」で、Java、VRML、Shockwaveが話題になっています。最新の技術を表すこれらのキーワードにRealAudioを追加して調査しました。最近、JavaScriptに興味をもっていますが、注目をあびているのはJavaのFAQをあつかうサイトです。このFAQの紹介がなされていたのは15のうち4つでした。
Java用FAQ情報を持っているか これから考えられることはデータベースには新しいデータがまだ入っていないのではないかという疑問です。もし新しいデータが入っていれば、たとえスコア順の表示でも検索されます。Java用FAQの情報をもっていたのは、全文検索系ではデータベースの新しいODINとMondouに、また紹介文索引系ではHole-in-OneとYahhoでした。
1~2ケ月の遅れは致命傷 この2ケ月でWeb情報は4割増加しています。従って、2ケ月前までのデータしか持っていないとすると、71%(1/1.4)からの検索になります。陳腐化のことを考えると、新しいものを含まない50%位からの検索ということになります。これはWeb情報が急拡大しているためであり、1~2ヶ月の空白は検索結果に重大な影響を与えます。Webデータベースは情報を蓄積するのではなく、如何に新しい情報に更新するかが価値を決めるポイントになります。
Alta Vistaの検索 今日、Alta Vistaで "asaisan"を検索したところ72件検索できました。今度のODINと同じ出力表示で、入力した年月日が一緒に出力されます。大体1月後半から3月始め迄の日付のものが多く、私のホームページには2月25日に訪れています。Thanksが多数見つかりました。また、Alta Vistaの訪問アルゴリズムを推測しましたが、ホームページ作りには欠かせない情報です。正確な情報が分かればお知らせします。
技術情報からみたランキング 今回調査した技術情報だけからのランキングを試みました。第1の基準はJavaのFAQ情報を含むかどうかです。第2の基準は新しいShockwaveのウエイトを2倍にした検索数の合計です。全文検索系、紹介文系の上位グループ、同じく下位グループと3グループに分けて見ました。
No | 検索サービス名 | 対象/内容 | 総数 | Java | VRML | Shock wave | Real Audio | 合計 |
1 | ODIN | 主要文書/主要文章 | 92899 | #377 | #341 | #225 | #201 | $1375 |
2 | Mondou | 主要文書/主要文章 | ? | 754 | 296 | 81 | 73 | $1285 |
3 | TITAN | 全文書/全文章 | 300000 | #88 | #*100 | #80 | #39 | #387 |
4 | 千里眼 | 全文書/タイトル・アンカー | 97000 | 3100 | 853 | 80 | 369 | 4482 |
No | 検索サービス名 | 対象/内容 | 総数 | Java | VRML | Shock wave | Real Audio | 合計 |
1 | Hole-in-One | 投稿/紹介文 | 9925 | 25 | 6 | 19 | 7 | $76 |
2 | Yahho | 投稿/紹介文 | 8320 | 17 | 6 | 14 | 4 | $55 |
3 | InfoNavigator | 投稿+α/紹介文+α | 3740 | 86 | 47 | 26 | 40 | 225 |
4 | WWWナビゲータ | 投稿/紹介文 | 9087 | 32 | 14 | 20 | 18 | 104 |
5 | NTT Directory | 投稿/紹介文 | 5200 | #16 | #15 | #11 | #6 | #59 |
6 | Nippon Search Engine | 投稿/紹介文 | 17000 | 12 | 15 | 0 | 17 | 44 |
7 | URL広場 | 投稿/紹介文 | 2402 | 12 | 8 | 8 | 6 | 42 |
8 | CSJインデックス | 投稿/紹介文 | 2900 | 9 | 3 | 10 | 4 | 36 |
9 | WAVE Search | 投稿/紹介文 | 6965 | 12 | 1 | 5 | 5 | 28 |
10 | Japan Search Engine | 投稿/紹介文 | 5000 | 4 | 7 | 2 | 1 | 16 |
11 | 日本ネット | 投稿/紹介文 | ? | 7 | 2 | 2 | 1 | 14 |
12 | NETPLAZA | 投稿/紹介文 | 3470 | 3 | 1 | 3 | 0 | 10 |
今回のねらい 「館」が付く漢字ということで、美術館、博物館、水族館、そして旅館を調べました。美術館や博物館の案内だけでなく、インターネットとマルチメディア技術を通して、遠くに離れた人に情報を伝えることができるようになりました。今日のTV番組に「いま博物館が面白い!」がありました。
検索サービス別の得意分野と不得意分野 美術館と旅館というちょっと異分野のキーワードからデータベースの特徴が浮かんでくるかも知れません。そこで、美術館の検索数を旅館の検索数で割り、その値の小さい順に並べて見ました。
Yahho(1.2) NETPLAZA(1.6) CSJインデックス(1.9) InfoNavigator(1.9) ODIN(3.1) WAVE Search(3.4) NTT DIRECTORY(4.0) WWWナビゲーター(4.7) Mondou(6.8) JapanSE(8.7) URL広場(10.5) 千里眼(10.5) NipponSE(11.2) Hole-in-One(13.0)
この結果から次の3つのグループに分けることができます。
本来は、美術館/総数を求めるのですが、みなさんも、机の引き出しから電卓を取り出して(そうそう、Windowsの電卓が使えますよ)計算してみませんか。きっと、何か発見できますよ。
新装開店のODIN 順調な滑り出しです。検索結果の出力は前のも気に入っていましたが、スコア順表示には勝てません。出力は洗練されていてとても見やすいです。
検索サービス名 | 対象/内容 | 総数 | 上限 | 美術館 | 博物館 | 水族館 | 旅館 |
TITAN | 全文書/全文章 | 300000 | 100 | #*97 | #*97 | #*96 | #74 |
ODIN | 主要文書/主要文章 | 90000 | 全部 | #529 | #582 | #119 | #168 |
千里眼 | 全文書/タイトル・アンカー | 97000 | 全部 | 1495 | 1369 | 225 | 143 |
Mondou | 主要文書/主要文章 | ? | 200 | 473 | 509 | 90 | 70 |
InfoNavigator | 投稿+α/紹介文+α | 3245 | 200 | 190 | 171 | 48 | 100 |
NTT Directory | 投稿/紹介文 | 5200 | 100 | #48 | #50 | #6 | #12 |
WWWナビゲータ | 投稿/紹介文 | 8901 | 全部 | 52 | 49 | 7 | 11 |
WAVE Search | 投稿/紹介文 | ? | 全部 | 55 | 51 | 6 | 16 |
Nippon Search Engine | 投稿/紹介文 | 17000 | 100 | 67 | 52 | 11 | 6 |
Hole-in-One | 投稿/紹介文 | 9185 | 200 | 39 | 28 | 3 | 3 |
Yahho | 投稿/紹介文 | 8010 | 全部 | 58 | 64 | 13 | 48 |
Japan Search Engine | 投稿/紹介文 | 5000 | 全部 | 78 | 24 | 5 | 9 |
NETPLAZA | 投稿/紹介文 | 3283 | 全部 | 11 | 13 | 2 | 7 |
CSJインデックス | 投稿/紹介文 | 2900 | 全部 | 27 | 23 | 7 | 14 |
URL広場 | 投稿/紹介文 | 2356 | 全部 | 21 | 21 | 5 | 2 |
JOY | 投稿/紹介文 | 2625 | 30 | -- | -- | -- | -- |
今回のねらい 「東洋医学」で AND の調査をと思ったのですが、検索数が少なくあきらめました。失敗することを考慮して6種類のキーを調査しています。今回はバラバラになってしまいました。毎週の調査も大部慣れてきましたが、それでも15カ所を調査するのに2時間半以上かかります。それを整理して、HTMLのファイルを作成しなければなりません。それにしても大変な調査を始めたものです。
あなたは"AND"派、それとも"OR"派 検索の80%位は一つのキーワード入力で行われています。しかし、検索によっては複数キーの検索がほしいときがあります。このため、ラジオボタンで「AND」や「OR」のどちらかが選択できるようになっており、どちらかがデフォルト(黒丸)になっています。以下に示しますが、いろいろなパターンがあって困りませんか。「AND」の方が多いようです。
TITAN 複雑な日本語処理のため「占い」では検索できず「占」で検索しました。
JOY 個人のWeb情報を収集する JOY の Searcher の方が休憩中で検索調査はお休みです。なお、活動開始予定は未定とのことです。
Wave Searchの追加 これまで検索デスクから Wave Search をはずしていた理由は3つあります。第1はNTTの新着情報をデータベース化している所がNTT DIRECTORY, WWWナビゲーター, そしてWave Searchと3ケ所あり、前2者が新着情報以外の情報も扱っており、同じものはいらないと思ったこと、第2は現在は行っていませんが新着情報をgrepで検索していたため必要なかったこと、第3はデータの陳腐化を考えると93年12月からの蓄積はマイナスにしか写らなかったこと、などがあります。しかし、Wave Searchの検索調査結果はすばらしく、データベースの最も重要な要因である更新が毎日行われ最新の情報が得られます。
検索サービス名 | 対象 | 総数 | 上限 | 医学 | 薬害 | 競馬 | 占い |
TITAN | 全文 | 300000 | 100 | #*98 | #75 | #*95 | #68 |
ODIN | 全文 | 300000 | 1000 | *2779 | 118 | *1278 | 876 |
千里眼 | 全文 | 97000 | 全部 | 2411 | 28 | 793 | 1086 |
Mondou | 全文 | ? | 200 | 573 | 12 | 393 | 283 |
InfoNavigator | 全文 | 2168 | 200 | 108 | 4 | 35 | 54 |
NTT Directory | 紹介文 | 5200 | 100 | #34 | #2 | #11 | #15 |
WWWナビゲータ | 紹介文 | 8477 | 全部 | 58 | 2 | 25 | 20 |
Wave Search | 紹介文 | ? | 全部 | 76 | 2 | 17 | 37 |
Nippon Search Engine | 紹介文 | 17000 | 100 | 63 | 3 | 51 | 26 |
Hole-in-One | 紹介文 | 8770 | 200 | 26 | 1 | 19 | 24 |
Yahho | 紹介文 | 7625 | 全部 | 55 | 1 | 28 | 32 |
Japan Search Engine | 紹介文 | 5000 | 全部 | 31 | 0 | 2 | 16 |
NETPLAZA | 紹介文 | 3130 | 全部 | 27 | 1 | 6 | 6 |
CSJインデックス | 紹介文 | 2900 | 全部 | 48 | 3 | 19 | 16 |
URL広場 | 紹介文 | 2271 | 全部 | 38 | 1 | 3 | 3 |
JOY | 紹介文 | 2494 | 30 | == | == | == | == |
今回のねらい もうすぐ春です。旅行を計画している人にホットな情報がどれだけ探せるかということで、旅を中心に調査しました。観光や温泉などをキーにしたほうがよい結果が得られます。実はここでは、「旅」と「旅行」を中心に検索システムのクセを調べることがねらいです。
「旅」と「旅行」の区別 「旅行」の中に「旅」という文字が含まれています。テーブルから15の中の10のサービスが「旅」の方が「旅行」よりもヒット数が多いことがわかります。しかし、それとは反対に「旅行」の方が「旅」よりも多いのがあります。ODIN、Mondou、InfoNavigator、それからランク順の表示をするTITANやNTT DIRECTORYなどです。これはどう解釈すればよいのでしょうか。「旅」と「旅行」を区別できる日本語処理システムを採用しているからです。特に、全文タイプのものに多いのですが、情報量が多いため、しっかりした構文解析が必要のようです。
MondouとNETPLAZAの追加 前回の18日の調査でM?で登場した全文タイプの検索エンジンMondouと20日に索引サービスから検索を開始したNETPLAZAを新たに加えました。MondouはODINにあるサーバー紹介や19日付きのInternet Watchに紹介されましたので、正式に採用しました。テスト中ということですが、他のサービスも全部テスト中とみなせますし、インターネットは試行錯誤の世界ですから刺激がある方が楽しいですよ。
リストの配置替え 第1回から第6回までの検索数をベースにしました。検索結果に重複のあるものや、検索エンジンや検索結果の質などは今回とりあげませんでした。最新の情報を提供する立場から、配置替えを頻繁に行う予定です。
検索サービス名 | 対象 | 総数 | 上限 | 旅 | 旅行 | トラベル | ペット |
TITAN | 全文 | 300000 | 100 | #*100 | #*98 | #88 | #*96 |
ODIN | 全文 | 300000 | 1000 | *2137 | *3648 | 217 | 532 |
千里眼 | 全文 | 97000 | 全部 | 2452 | 1349 | 95 | 198 |
Mondou | 全文 | ? | 200 | 395 | 561 | 41 | 48 |
InfoNavigator | 全文 | 2168 | 200 | 166 | *199 | 27 | 71 |
NTT Directory | 紹介文 | 5200 | 100 | #40 | #56 | #5 | #16 |
WWWナビゲータ | 紹介文 | 8169 | 全部 | 159 | 107 | 10 | 16 |
Nippon Search Engine | 紹介文 | 17000 | 100 | 503 | 97 | 6 | 17 |
Hole-in-One | 紹介文 | 8364 | 200 | 58 | 47 | 2 | 16 |
Yahho | 紹介文 | 7218 | 全部 | 306 | 107 | 6 | 12 |
Japan Search Engine | 紹介文 | 5000 | 全部 | 53 | 30 | 9 | 5 |
NETPLAZA | 紹介文 | 3030 | 全部 | 201 | 198 | 6 | 5 |
CSJインデックス | 紹介文 | 2900 | 全部 | 136 | 101 | 6 | 16 |
URL広場 | 紹介文 | 2187 | 全部 | 53 | 39 | 2 | 6 |
JOY | 紹介文 | 2409 | 30 | 51 | 31 | 2 | 15 |
今回のねらい インターネットを使った求人・求職活動が盛んになってきました。企業の人事部の人、大学の就職担当の人、就職希望の学生が検索サービスを利用できるかどうか調べました。すでに多数の情報が入っていることが分かります。検索を出発点にすれば幅の広い情報が得られ、それだけ出会いが多くなることになります。
キーワード入力 フォーム内の日本語入力問題は解決しました。ナビゲーター利用者は、2.0日本語b6a(Win用)へのVupを薦めます。しかし、実際問題として、Vupへの対応ができる人は少ないのではと危惧しています。よいブラウザを使わなければ、日本語の入力が難しく検索はできません。検索サービスの普及にはブラウザの向上とともにユーザー側の対応能力(DLとセットアップ)が必要です。
M?(準備中) まだ正式に公開されていませんが、全文タイプの検索エンジンがテスト中です。参考にするために、ヒット数を調べて最後の欄に載せました。まだデータ量は少ないですが、比較的新しいデータが入っています。相当実力を持っており、発展性の高いデータベースが構築されています。できるだけ早い公開が待たれます。
NETPLAZA(新設) 索引サービスだけでしたが、新たに検索コーナーができましたので、早速検索数を調べ、追加しました(2/20)。週末に移動の予定です。さて、どこかな???
検索サービス名 | 対象 | 総数 | 上限 | 求人 | 就職 | 新卒 | 人材 |
TITAN | 全文 | 300000 | 100 | #*99 | #*100 | #*99 | #*99 |
ODIN | 全文 | 300000 | 1000 | 773 | *1913 | 216 | 1861 |
千里眼 | 全文 | 97000 | なし | 731 | 344 | 198 | 285 |
InfoNavigator | 全文 | 2168 | 200 | *200 | 115 | 36 | 191 |
NTT Directory | 紹介文 | 5200 | ? | #605 | #40 | #22 | #43 |
Nippon Search Engine | 紹介文 | 17000 | 100 | 74 | 21 | 6 | 30 |
WWWナビゲータ | 紹介文 | 7791 | なし | 102 | 67 | 36 | 79 |
Hole-in-One | 紹介文 | 8192 | 200 | 32 | 31 | 18 | 18 |
Japan Search Engine | 紹介文 | 5000 | 200 | 29 | 10 | 2 | 10 |
URL広場 | 紹介文 | 2153 | なし | 23 | 12 | 3 | 12 |
Yahho | 紹介文 | 6814 | ? | 61 | 17 | 5 | 17 |
CSJインデックス | 紹介文 | 2900 | ? | 27 | 25 | 4 | 11 |
JOY | 紹介文 | 2375 | 30 | 3 | 10 | 0 | 1 |
M?(準備中) | 全文 | ? | 200 | 319 | 383 | 84 | 259 |
NETPLAZA(新設) | 紹介文 | 2943 | なし | 197 | 25 | 0 | 171 |
今回のねらい ビジネスでどの程度使えるのかという問い合わせが多いため、特許情報にしぼりました。数が少ないかも知れませんが、全文検索はもう処理出来ないほどの情報量です。
キーワード入力 「ブラウザ」のところで取り上げたEmigrantを使用したため、日本語の問題はすべての検索で正常になりました。(Win95、Netscape2.0(英語版)を使用)
紹介文の長さ URL広場の総数は1800、Yahhoの総数は6400。その差は3.5倍。だからといって、検索数は3.5倍の開きになっていない。検索するのは紹介文やキーワードであるから、単純に(総数×紹介文の平均文字数)が影響する。このことから1文書あたりURL広場はYahhoの数倍の紹介文を処理しているといえる。
インターネットに情報があるのかないのか 検索数が少ないため、インターネットは使えないと判断するのは間違いですよ。1年後には2~4倍に、2年後には6~12倍(?)になります。2~3年後の世界を頭に描いて判断して欲しいですね。
検索サービス名 | 対象 | 総数 | 上限 | 著作権 | 特許 | 知的 所有権 | inte llectual |
TITAN | 全文 | 300000 | 40 | #39 | #40 | #39 | #40 |
ODIN | 全文 | 300000 | 1000 | *2315 | 599 | 151 | 396 |
千里眼 | 全文 | 97000 | なし | 486 | 178 | 26 | 70 |
InfoNavigator | 全文 | 2168 | 200 | 159 | 20 | 5 | 23 |
NTT Directory | 紹介文 | 5200 | ? | #9 | #9 | #1 | #0 |
Nippon Search Engine | 紹介文 | 17000 | 100 | 19 | 4 | 2 | 1 |
WWWナビゲーター | 紹介文 | 7539 | なし | 11 | 10 | 3 | 0 |
Hole-in-One | 紹介文 | 7499 | 200 | 111 | 6 | 2 | 1 |
Japan Search Engine | 紹介文 | 5000 | 200 | 5 | 5 | 6 | 0 |
URL広場 | 紹介文 | 1796 | なし | 4 | 5 | 2 | 2 |
Yahho | 紹介文 | 6408 | ? | 7 | 0 | 0 | 0 |
CSJインデックス | 紹介文 | 2900 | ? | 2 | 3 | 2 | 1 |
JOY | 紹介文 | 2243 | 30 | 2 | 2 | 0 | 0 |
キーワード入力 千里眼の日本語の入力文字表示も出力表示も正常になりました。
検索結果の総数表示 出力の最初の所に欲しいものです。出力数の上限が設定されてない場合は特に問題です。CGIで1~2行つけ加えれば解決しませんか。
商用インターネット 「商用インターネット」か、「商用」and「インターネット」か。一つのキーワードしかあつかえないものもあります。
Japan Search Engine 出力数を制限なしにすると検索できず、200にしたら検索できました。
NTT DIRECTORY "internet"は5件、"Internet"は40件。大文字と小文字を区別しています。
WWWナビゲーター 「インターネット」と「商用インターネット」の結果は得られませんでした。使えないキーワード?
検索サービス名 | 対象 | 上限 | インターネット | 商用インターネット | internet | ジャズ | 備考 |
TITAN | 全文 | 40 | #40 | #30 | #40 | #39 | スコア |
ODIN | 全文 | 1000 | *12151 | 727 | *13113 | 439 | -- |
千里眼 | 全文 | なし | *6726? | 25 | *10422 | 118 | -- |
InfoNavigator | 全文 | 200 | 198 | 41 | 196 | 57 | -- |
NTT Directory | 紹介文 | ? | #336 | #2 | #40 | #2 | スコア |
Nippon Search Engine | 紹介文 | 100 | 501 | 6 | 305 | 32 | -- |
WWWナビゲータ | 紹介文 | なし | ??? | ??? | 183 | 15 | -- |
Hole-in-One | 紹介文 | 200 | 101 | 6 | 56 | 8 | -- |
Japan Search Engine | 紹介文 | 200 | *200 | 4 | 116 | 11 | -- |
URL広場 | 紹介文 | なし | 236 | 4 | 237 | 4 | -- |
Yahho | 紹介文 | ? | 278 | 2 | 319 | 2 | -- |
CSJインデックス | 紹介文 | ? | 127 | 0 | 58 | 7 | -- |
JOY | 紹介文 | 30 | 46 | 0 | 37 | 8 | -- |
ODIN 自動分割OFFは使用できない。従って、プロバイダーは"プロ"and"バイ"and"ダー"で検索し、プロバイダは"プロ"and"バイ"and"ダ"で検索する。
NTT DIRECTORY 「プロバイダー」は「プロバイダ-」で検索する。最後の文字「ー」が「-」に注意。キーボードの[P]右上の「ー」ではなく、数字キーの[+]上の「-」を使用する。
Yahho "provider"は0件、"Provider"は61件。要するに大文字と小文字を区別する。→[更新] 大文字と小文字の区別ができるようになりました(2/2)。
検索サービス名 | 対象 | 上限 | プロバイダー | プロバイダ | provider | 福祉 | 備考 |
TITAN | 全文 | 40 | 36 | *40 | 32 | 39 | スコア |
ODIN | 全文 | 1000 | 517 | 247 | 522 | *1794 | -- |
千里眼 | 全文 | なし | 151 | 314 | 185 | 172 | -- |
InfoNavigator | 全文 | 200 | 56 | 59 | 132 | 10 | -- |
NTT Directory | 紹介文 | ? | 5 | 5 | 1 | 35 | スコア |
Nippon Search Engine | 紹介文 | 100 | 6 | 25 | 11 | 15 | -- |
WWWナビゲータ | 紹介文 | なし | 70 | 111 | 3 | 25 | -- |
Hole-in-One | 紹介文 | 50 | 21 | 30 | 2 | 5 | -- |
Japan Search Engine | 紹介文 | 100 | 39 | 219 | 43 | 9 | -- |
URL広場 | 紹介文 | なし | 12 | 19 | 22 | 5 | -- |
Yahho | 紹介文 | ? | 63 | 65 | 61 | 0 | -- |
CSJインデックス | 紹介文 | ? | 21 | 33 | 6 | 4 | -- |
JOY | 紹介文 | 30 | 9 | 18 | 1 | 4 | -- |
検索サービス名 | 対象 | 上限 | 検索 | search | 姫路 | 備考 |
TITAN | 全文 | 40 | #*40 | #*40 | #35 | スコア順 |
ODIN | 全文 | 1000 | *7239 | *5855 | 657 | 上限 |
千里眼 | 全文 | なし | 4691 | 5339 | 273 | --- |
InfoNavigator | 全文 | 200 | *200 | *200 | 26 | 上限 |
NTT Directory | 紹介文 | ? | #35 | #3 | #1 | スコア順 |
Nippon Search Engine | 紹介文 | 100 | *133 | *118 | 4 | 上限 |
WWWナビゲータ | 紹介文 | なし | 110 | 21 | 9 | --- |
Hole-in-One | 紹介文 | 50 | *50 | 16 | 0 | 上限 |
Japan Search Engine | 紹介文 | 100 | 46 | *100 | 3 | 上限 |
URL広場 | 紹介文 | なし | 29 | 23 | 4 | --- |
Yahho | 紹介文 | ? | 16 | 55 | 2 | --- |
CSJインデックス | 紹介文 | ? | 25 | 22 | 6 | --- |
JOY | 紹介文 | 30 | 8 | 4 | 2 | --- |