頻発する「検索汚染」とキーワードによる検索の限界

マッチングの問題

 2016年に起きたことである。Google で「Did the Holocaust happen?」(ホロコーストは起きましたか)というフレーズの検索結果のトップが、ネオナチと白人至上主義者のフォーラムになっているとニュースになった(Gizmodo)。  Google は当初、問題になった「Top 10 reasons why the holocaust didn’t happen,」(ホロコーストが起こらなかった理由のトップ10)というタイトルの記事を、結果から削除しないと述べた。理由は同社の方針による。2008年に、Google の創設者であるセルゲイ・ブリン氏は、インタビューでこう答えている。 「企業としての私たちの価値観の重要な部分は、検索結果を編集しないことです。私たちのアルゴリズムが生成するのは、それが好きかどうかにかかわらず、検索結果です。偏りのない検索結果があることを人々は知りたがっていると思います」  騒ぎの結果、Google は折れた。そして、このリンクを削除することに決めた(Gizmodo)。ユーザーの入力と、Google の出力の対応が不適切だと認めた形になった。  この事件は、キーワードや短い言葉と、膨大な情報を結びつける難しさを感じさせられる。陰謀論を信じる人にとっては、探したかったWebページだろう。しかし、適切な歴史を学びたいと思っている人には、誤りに導く誤情報だ。  検索した言葉やフレーズの文脈をくみ、適切な情報を返すというのは、非常に難しいことだ。

Webに溢れる情報

 Webサイトの数は、10年前、20年前に比べて膨大に増えた。1991年8月のWebサイトの数は1つだった。1992年は10、1993年は130、そして1995年には23,500になった。Google が誕生した1998年には241万、2000年には1708万、2010年には2億になっている。  Webサイトの数自体は、2017年に17億を突破して、おおむね横ばいになる。これは、大手のSNSにWebが再編成された結果だろう(Internet Live StatsNetcraft News)。  このそれぞれのサイトに、膨大な情報がある。Google では、検索のインデックスとして、何千億ものウェブページを登録しており、その容量は1億GBを超えると公表している(Google)。  このインデックスの数は、検索に利用されるWebページの数であり、現実のインターネットのWebページの数ではない。Google は2008年のブログで、1兆を越える個別のリンクが見つかり、重複を削除した後でも1兆個の一意のURLがあると書いている。また、1日あたり数十億ページ増加しているとも書いている(Official Google Blog)。  無限にデータを収集して利用することはできない。そのため、厳選したWebページを検索に利用することになる。  Google は2004年の11月にインデックス数が80億ページになったと公表している(INTERNET Watch)。そこから17年で数千億、インデックス数が100倍程度にしか増えていないことが分かる。  インターネットの成長速度を考えれば、検索によってたどり着けないページが多くあることは、想像に難くない。キーワードやフレーズで情報を探す以前に、そもそもインデックスされていない情報も大量にあるのだろうと想像できる。

検索の限界

 検索汚染、文脈の問題、マッチングの問題、Webに溢れる情報と順に書いてきた。Webの世界から、本当に欲しい情報を適切に見つけるのは難しい。  昔は検索で引っ掛かったのに、今は見つからない情報も多い。その情報が削除されたのか、マッチングが上手くいっていないのか、Google のインデックスから漏れたのかは分からない。  Webの情報を探すのが、年々難しくなっているというのは、私以外の人も感じているのではないか。こればかりは個人のレベルでは解決ができない。Google のような巨人に頑張ってもらうしかない。 <文/柳井政和>
やない まさかず。クロノス・クラウン合同会社の代表社員。ゲームやアプリの開発、プログラミング系技術書や記事、マンガの執筆をおこなう。2001年オンラインソフト大賞に入賞した『めもりーくりーなー』は、累計500万ダウンロード以上。2016年、第23回松本清張賞応募作『バックドア』が最終候補となり、改題した『裏切りのプログラム ハッカー探偵 鹿敷堂桂馬』にて文藝春秋から小説家デビュー。近著は新潮社『レトロゲームファクトリー』。2019年12月に Nintendo Switch で、個人で開発した『Little Bit War(リトルビットウォー)』を出した。2021年2月には、SBクリエイティブから『JavaScript[完全]入門』、4月にはエムディエヌコーポレーションから『プロフェッショナルWebプログラミング JavaScript』が出版された。
1
2
バナー 日本を壊した安倍政権
新着記事

ハーバービジネスオンライン編集部からのお知らせ

政治・経済

コロナ禍でむしろ沁みる「全員悪人」の祭典。映画『ジェントルメン』の魅力

カルチャー・スポーツ

頻発する「検索汚染」とキーワードによる検索の限界

社会

ロンドン再封鎖16週目。最終回・英国社会は「新たな段階」に。<入江敦彦の『足止め喰らい日記』嫌々乍らReturns>

国際

仮想通貨は“仮想”な存在なのか? 拡大する現実世界への影響

政治・経済

漫画『進撃の巨人』で政治のエッセンスを。 良質なエンターテイメントは「政治離れ」の処方箋

カルチャー・スポーツ

上司の「応援」なんて部下には響かない!? 今すぐ職場に導入するべきモチベーションアップの方法

社会

64bitへのWindowsの流れ。そして、32bit版Windowsの終焉

社会

再び訪れる「就職氷河期」。縁故優遇政権を終わらせるのは今

政治・経済

微表情研究の世界的権威に聞いた、AI表情分析技術の展望

社会

PDFの生みの親、チャールズ・ゲシキ氏死去。その技術と歴史を振り返る

社会

新年度で登場した「どうしてもソリが合わない同僚」と付き合う方法

社会

マンガでわかる「ウイルスの変異」ってなに?

社会

アンソニー・ホプキンスのオスカー受賞は「番狂わせ」なんかじゃない! 映画『ファーザー』のここが凄い

カルチャー・スポーツ

ネットで話題の「陰謀論チャート」を徹底解説&日本語訳してみた

社会

ロンドン再封鎖15週目。肥満やペットに現れ出したニューノーマル社会の歪み<入江敦彦の『足止め喰らい日記』嫌々乍らReturns>

社会

「ケーキの出前」に「高級ブランドのサブスク」も――コロナ禍のなか「進化」する百貨店

政治・経済

「高度外国人材」という言葉に潜む欺瞞と、日本が搾取し依存する圧倒的多数の外国人労働者の実像とは?

社会