情報立国化を妨げる、デジタルなのに、機械が読みにくいデータ。表記の統一ルールで何か変わるのか?

excel文書イメージ

Esa Riutta via Pixabay

機械判読可能なデータの表記方法の統一ルール案

 新しい政権になって、悪習となっていたIT関係の慣例を正す内容が、定期的に話題になっている。  10月16日には、行政手続きのハンコを99%廃止するという発表があった(日本経済新聞)。11月24日には、メールでパスワード付きファイルを送り、パスワードを別送する方法を廃止するという発表があった(ITmedia NEWS)。  そして、11月25日には、河野太郎・行政改革担当大臣が Twitter で、機械判読可能なデータの表記方法の統一ルール案を発表した(Twitter)。ご意見照会は12月1日までということで、ツイートで示されたファイルは現在削除されている。データの表記方法の統一ルール案の内容は、窓の杜の記事に掲載されている。  内容は、頷くことばかりだ。「1セルに複数のデータを入れてはいけない。1データにすること」「数値データに、データとは無関係な文字列を含めてはいけない。数値のみにすること」「セルを結合してはいけない。適切な項目名の設計をすること」「スペースで体裁を整えない。データに検索を妨げる文字を入れないこと」「項目名を省略しないこと。1セルごとに独立して成立する見出しにすること」といった具合だ。

プログラマー的に盛り上がった「Excel」の話

 この Excel の話は、プログラマーのあいだでかなり話題を呼んだ。書類からデータを得て処理をおこなうことは、プログラムを書いているとよくある。その時、多くの人が苦労するのは、実はデータを読み取る部分だったりする。  データをどう処理して、どう表示するかではなく、文書からデータをどうやって得るかに、頭と労力を使うのだ。  先ほど挙げた内容に注意して作成したデータは、プログラムから情報を利用しやすい。しかし、そうでなければ、複雑な事前処理をしなければならない。はっきり言って、その作業は不毛だ。  だから、プログラマーが主導した作ったデータは、多くの場合、データと表示が分離可能になっている。そうなるように注意して設計されている。  たとえば、多くの人が見ているWebページも、こうした考えで作られている。HTMLファイルで、データの構造とデータの中身を書いて、情報の配置や見栄えは、CSSファイルで指定する。  実際には、それほど完璧にデータと表示が分けられているわけではないが、なるべくそうなるように多くの人が努力している。  Webページのデータと見た目が分離していると、検索エンジンなどがWebページを見に行ったときに、内容を機械的に把握しやすくなる。  恩恵は検索エンジンだけでない。プログラムでWebサイトを処理する際に、必要なデータを抜き出しやすくなる。また、音声読み上げ機能でWebページを利用する人にも、優しいWebページになる。
次のページ
機械判読が難しいデジタルデータ
1
2