情報立国化を妨げる、デジタルなのに、機械が読みにくいデータ。表記の統一ルールで何か変わるのか?

PDFによる判例など、機械判読が難しいデジタルデータ

 官公庁というものは文書によって動いている。そして、IT時代の前は、紙の書類で回っていた。そのためIT時代になっても、官公庁から出てくる文書は、人間の目で見て書類のように見えるものが多い。そして、機械に読み取りやすいようにという意識は低い。  こうした状態だと、どうなってしまうのか。国の統計を元に政策を立てようとしても、せっかく集めた情報が有効に活用されにくくなる。また、情報を利用した民間のイノベーションも起きにくくなる。データを活用した民間での活発な議論も、やりにくくなるだろう。  人間にしか読めない情報を発信している国と、機械にも読める情報を公開している国とでは、どちらが情報技術の活用が進むか。それは考えるまでもない。  最初に紹介した、機械判読可能なデータの表記方法の統一ルール案が、官公庁の出すデータに適用されれば、民間でのデータ活用は進むだろう。会社だけでなく、個人がデータを簡単に利用して、政策の提言や、社会の問題点の指摘などを、おこないやすくなる。  こうした、機械的に判読が難しいデータは、不適切な Excel データだけではない。  PDFも、かなり問題が多い。PDFと言えば、デジタルデータの最たるものじゃないかと思うかもしれない。しかしPDFは、印刷の技術から来ている文書表示用のファイル形式だ。PDFは、画面で紙を再現する要素が強い(コトバンク)。  PDF(Portable Document Format)は、PostScript の技術が基になっている。PostScript は、印刷する文字や画像などの位置や大きさ、色などを記述して、ページ内に配置していく技術だ(コトバンク)。  PDFの文字を選択してよくコピーする人は、文字のあいだにスペースが入ったり、1文字ごとに改行されていたり、見た目とコピーした行の対応が合っていなかったりしたことがあるはずだ。  元々印刷するための技術から来ているので、見た目が正しければ、データの構造や順番は関係ない。そのため、データの内部で、ばらばらに文字が配置されていたりする。  PDFで情報が出ている例として、裁判所の判例が挙げられる。こうしたPDFからプログラムで情報を得ようとすると、細切れの文字情報になったり、ぶつぶつと改行されたりして、すぐに利用できるデータが、なかなか得られない(Qiita)。  デジタルで情報を出しているのに、情報技術で処理できないデータになっているわけだ。こうしたことを、1つ1つ改善していくことで、情報技術に強い国ができていくのではないだろうか。

情報技術で処理しやすいデータが、情報技術を発達させる

 情報技術は、弾みが付くと、どんどん発達していく。情報技術で処理しやすいデータがあれば、情報技術の活用度は上がっていく。  これは、法律などの制度設計と同じだ。利用しやすいルールを作れば、利用されるようになる。人間は、罰則を避けるためにも動くが、楽ができると分かっても動く。利用しやすいデータが、ゴロゴロと転がっていて、それで何かができそうとなると、勝手にデータの利用を始める。  プログラミングの世界では、こうしたことがよく起きる。新しいサービスにユーザーを呼び寄せるために、外部から簡単に利用できる API(Application Programming Interface)を公開する。  手軽に利用できるとなると、そのサービスを利用して、多くの人が、さまざまな方法で使い始める。そして、サービスが活発になると、そこにコミュニティーができて、新しいイノベーションが起きたりする。  「こんなものを機械的に読んでどうするんだ」というデータも、とにかく利用しやすい形で公開して欲しい。だいたい、データやソフトウェアというものは、作った人が意図しない使い方をされた時に、著しく発達するものだ。  官公庁から出てくるデータが、どんどん変わっていけば、そこから新しいイノベーションが起きてくるのではないかと思う。 <文/柳井政和>
やない まさかず。クロノス・クラウン合同会社の代表社員。ゲームやアプリの開発、プログラミング系技術書や記事、マンガの執筆をおこなう。2001年オンラインソフト大賞に入賞した『めもりーくりーなー』は、累計500万ダウンロード以上。2016年、第23回松本清張賞応募作『バックドア』が最終候補となり、改題した『裏切りのプログラム ハッカー探偵 鹿敷堂桂馬』にて文藝春秋から小説家デビュー。近著は新潮社『レトロゲームファクトリー』。2019年12月に Nintendo Switch で、個人で開発した『Little Bit War(リトルビットウォー)』を出した。2021年2月には、SBクリエイティブから『JavaScript[完全]入門』、4月にはエムディエヌコーポレーションから『プロフェッショナルWebプログラミング JavaScript』が出版された。
1
2
バナー 日本を壊した安倍政権
新着記事

ハーバービジネスオンライン編集部からのお知らせ

政治・経済

コロナ禍でむしろ沁みる「全員悪人」の祭典。映画『ジェントルメン』の魅力

カルチャー・スポーツ

頻発する「検索汚染」とキーワードによる検索の限界

社会

ロンドン再封鎖16週目。最終回・英国社会は「新たな段階」に。<入江敦彦の『足止め喰らい日記』嫌々乍らReturns>

国際

仮想通貨は“仮想”な存在なのか? 拡大する現実世界への影響

政治・経済

漫画『進撃の巨人』で政治のエッセンスを。 良質なエンターテイメントは「政治離れ」の処方箋

カルチャー・スポーツ

上司の「応援」なんて部下には響かない!? 今すぐ職場に導入するべきモチベーションアップの方法

社会

64bitへのWindowsの流れ。そして、32bit版Windowsの終焉

社会

再び訪れる「就職氷河期」。縁故優遇政権を終わらせるのは今

政治・経済

微表情研究の世界的権威に聞いた、AI表情分析技術の展望

社会

PDFの生みの親、チャールズ・ゲシキ氏死去。その技術と歴史を振り返る

社会

新年度で登場した「どうしてもソリが合わない同僚」と付き合う方法

社会

マンガでわかる「ウイルスの変異」ってなに?

社会

アンソニー・ホプキンスのオスカー受賞は「番狂わせ」なんかじゃない! 映画『ファーザー』のここが凄い

カルチャー・スポーツ

ネットで話題の「陰謀論チャート」を徹底解説&日本語訳してみた

社会

ロンドン再封鎖15週目。肥満やペットに現れ出したニューノーマル社会の歪み<入江敦彦の『足止め喰らい日記』嫌々乍らReturns>

社会

「ケーキの出前」に「高級ブランドのサブスク」も――コロナ禍のなか「進化」する百貨店

政治・経済

「高度外国人材」という言葉に潜む欺瞞と、日本が搾取し依存する圧倒的多数の外国人労働者の実像とは?

社会