PDFによる判例など、機械判読が難しいデジタルデータ
官公庁というものは文書によって動いている。そして、IT時代の前は、紙の書類で回っていた。そのためIT時代になっても、官公庁から出てくる文書は、人間の目で見て書類のように見えるものが多い。そして、機械に読み取りやすいようにという意識は低い。
こうした状態だと、どうなってしまうのか。国の統計を元に政策を立てようとしても、せっかく集めた情報が有効に活用されにくくなる。また、情報を利用した民間のイノベーションも起きにくくなる。データを活用した民間での活発な議論も、やりにくくなるだろう。
人間にしか読めない情報を発信している国と、機械にも読める情報を公開している国とでは、どちらが情報技術の活用が進むか。それは考えるまでもない。
最初に紹介した、機械判読可能なデータの表記方法の統一ルール案が、官公庁の出すデータに適用されれば、民間でのデータ活用は進むだろう。会社だけでなく、個人がデータを簡単に利用して、政策の提言や、社会の問題点の指摘などを、おこないやすくなる。
こうした、機械的に判読が難しいデータは、不適切な Excel データだけではない。
PDFも、かなり問題が多い。PDFと言えば、デジタルデータの最たるものじゃないかと思うかもしれない。しかしPDFは、印刷の技術から来ている文書表示用のファイル形式だ。PDFは、画面で紙を再現する要素が強い(
コトバンク)。
PDF(Portable Document Format)は、PostScript の技術が基になっている。PostScript は、印刷する文字や画像などの位置や大きさ、色などを記述して、ページ内に配置していく技術だ(
コトバンク)。
PDFの文字を選択してよくコピーする人は、文字のあいだにスペースが入ったり、1文字ごとに改行されていたり、見た目とコピーした行の対応が合っていなかったりしたことがあるはずだ。
元々印刷するための技術から来ているので、見た目が正しければ、データの構造や順番は関係ない。そのため、データの内部で、ばらばらに文字が配置されていたりする。
PDFで情報が出ている例として、裁判所の判例が挙げられる。こうしたPDFからプログラムで情報を得ようとすると、細切れの文字情報になったり、ぶつぶつと改行されたりして、すぐに利用できるデータが、なかなか得られない(
Qiita)。
デジタルで情報を出しているのに、情報技術で処理できないデータになっているわけだ。こうしたことを、1つ1つ改善していくことで、情報技術に強い国ができていくのではないだろうか。
情報技術で処理しやすいデータが、情報技術を発達させる
情報技術は、弾みが付くと、どんどん発達していく。情報技術で処理しやすいデータがあれば、情報技術の活用度は上がっていく。
これは、法律などの制度設計と同じだ。利用しやすいルールを作れば、利用されるようになる。人間は、罰則を避けるためにも動くが、楽ができると分かっても動く。利用しやすいデータが、ゴロゴロと転がっていて、それで何かができそうとなると、勝手にデータの利用を始める。
プログラミングの世界では、こうしたことがよく起きる。新しいサービスにユーザーを呼び寄せるために、外部から簡単に利用できる API(Application Programming Interface)を公開する。
手軽に利用できるとなると、そのサービスを利用して、多くの人が、さまざまな方法で使い始める。そして、サービスが活発になると、そこにコミュニティーができて、新しいイノベーションが起きたりする。
「こんなものを機械的に読んでどうするんだ」というデータも、とにかく利用しやすい形で公開して欲しい。だいたい、データやソフトウェアというものは、作った人が意図しない使い方をされた時に、著しく発達するものだ。
官公庁から出てくるデータが、どんどん変わっていけば、そこから新しいイノベーションが起きてくるのではないかと思う。
<文/柳井政和>