頻発する「検索汚染」とキーワードによる検索の限界

マッチングの問題

 2016年に起きたことである。Google で「Did the Holocaust happen?」(ホロコーストは起きましたか)というフレーズの検索結果のトップが、ネオナチと白人至上主義者のフォーラムになっているとニュースになった(Gizmodo)。  Google は当初、問題になった「Top 10 reasons why the holocaust didn’t happen,」(ホロコーストが起こらなかった理由のトップ10)というタイトルの記事を、結果から削除しないと述べた。理由は同社の方針による。2008年に、Google の創設者であるセルゲイ・ブリン氏は、インタビューでこう答えている。 「企業としての私たちの価値観の重要な部分は、検索結果を編集しないことです。私たちのアルゴリズムが生成するのは、それが好きかどうかにかかわらず、検索結果です。偏りのない検索結果があることを人々は知りたがっていると思います」  騒ぎの結果、Google は折れた。そして、このリンクを削除することに決めた(Gizmodo)。ユーザーの入力と、Google の出力の対応が不適切だと認めた形になった。  この事件は、キーワードや短い言葉と、膨大な情報を結びつける難しさを感じさせられる。陰謀論を信じる人にとっては、探したかったWebページだろう。しかし、適切な歴史を学びたいと思っている人には、誤りに導く誤情報だ。  検索した言葉やフレーズの文脈をくみ、適切な情報を返すというのは、非常に難しいことだ。

Webに溢れる情報

 Webサイトの数は、10年前、20年前に比べて膨大に増えた。1991年8月のWebサイトの数は1つだった。1992年は10、1993年は130、そして1995年には23,500になった。Google が誕生した1998年には241万、2000年には1708万、2010年には2億になっている。  Webサイトの数自体は、2017年に17億を突破して、おおむね横ばいになる。これは、大手のSNSにWebが再編成された結果だろう(Internet Live StatsNetcraft News)。  このそれぞれのサイトに、膨大な情報がある。Google では、検索のインデックスとして、何千億ものウェブページを登録しており、その容量は1億GBを超えると公表している(Google)。  このインデックスの数は、検索に利用されるWebページの数であり、現実のインターネットのWebページの数ではない。Google は2008年のブログで、1兆を越える個別のリンクが見つかり、重複を削除した後でも1兆個の一意のURLがあると書いている。また、1日あたり数十億ページ増加しているとも書いている(Official Google Blog)。  無限にデータを収集して利用することはできない。そのため、厳選したWebページを検索に利用することになる。  Google は2004年の11月にインデックス数が80億ページになったと公表している(INTERNET Watch)。そこから17年で数千億、インデックス数が100倍程度にしか増えていないことが分かる。  インターネットの成長速度を考えれば、検索によってたどり着けないページが多くあることは、想像に難くない。キーワードやフレーズで情報を探す以前に、そもそもインデックスされていない情報も大量にあるのだろうと想像できる。

検索の限界

 検索汚染、文脈の問題、マッチングの問題、Webに溢れる情報と順に書いてきた。Webの世界から、本当に欲しい情報を適切に見つけるのは難しい。  昔は検索で引っ掛かったのに、今は見つからない情報も多い。その情報が削除されたのか、マッチングが上手くいっていないのか、Google のインデックスから漏れたのかは分からない。  Webの情報を探すのが、年々難しくなっているというのは、私以外の人も感じているのではないか。こればかりは個人のレベルでは解決ができない。Google のような巨人に頑張ってもらうしかない。 <文/柳井政和>
やない まさかず。クロノス・クラウン合同会社の代表社員。ゲームやアプリの開発、プログラミング系技術書や記事、マンガの執筆をおこなう。2001年オンラインソフト大賞に入賞した『めもりーくりーなー』は、累計500万ダウンロード以上。2016年、第23回松本清張賞応募作『バックドア』が最終候補となり、改題した『裏切りのプログラム ハッカー探偵 鹿敷堂桂馬』にて文藝春秋から小説家デビュー。近著は新潮社『レトロゲームファクトリー』。2019年12月に Nintendo Switch で、個人で開発した『Little Bit War(リトルビットウォー)』を出した。2021年2月には、SBクリエイティブから『JavaScript[完全]入門』、4月にはエムディエヌコーポレーションから『プロフェッショナルWebプログラミング JavaScript』が出版された。
1
2