データを公開する(技術的にオープンにする)

オープンデータ というからには、法的にオープンにするだけではなく技術的にもオープンにしなければならない。特に大切なのは、データをまとめて公開する際に 機械可読 形式にしておくことだ。

Available
データを公開するにあたって、複製するための実費を超える値段をつけてはいけない。インターネットから無料でダウンロードできるようにするのがおすすめだ。この価格体系を実現できる理由は、データを提供するにあたってその組織がよけいなコストをかけるべきではないからだ。
In bulk
データは完全なセットとして公開しなければならない。法の下で収集された記録を持っているのなら、その一部ではなく全体をダウンロードできるようにする必要がある。Web APIなどのサービスも便利ではあるが、一括アクセスの代替にはならない。
In an open, machine-readable format
公営企業の持つデータの再利用が特許による制限を受けるようではいけない。より重要なのは、データを機械可読形式で提供して再利用をしやすくすることだ。具体例として、 PDF 形式で提供されている統計情報を考えてみよう。この形式は、きれいに印刷するための手段としてよく用いられる。確かにこの統計情報は、人間にとっては読みやすい。しかし、コンピュータでの再利用は非常に難しい。したがって、データの再利用が大きく制限されてしまう。

次の原則に従えば、多大な恩恵を受けられる。

  • シンプルに保つ
  • すばやく動く
  • 実利的であることを心がける

具体的には、生のデータを今この時点で公開するほうが、きちんとまとめたものを半年後に公開するよりもよいということだ。

データを他の人たちに公開するには、さまざまな方法がある。インターネット世代の人たちにとっていちばん自然なのは、オンラインで公開することだ。この方式にも様々なバリエーションがある。最も基本的なやり方は、その組織自身のウェブサイトからデータを取得できるようにし、中央カタログから直接その場所を指すようにするという方法だ。しかし、それ以外にも方法はある。

接続性 に制限があったりデータのサイズがあまりにも大きかったりする場合には、他のフォーマットでの配布もあり得る。このセクションではそういった代替手段についても扱う。これらは価格を低く抑えるために使える。

オンラインでの公開

既存のウェブサイト経由で

ウェブコンテンツチームにとって一番なじみのある方式は、ファイルをウェブページからダウンロードできるようにすることだろう。いつも会議の議事録を公開しているのと同じように、データファイルもまったく同じ方式で公開すればよい。

この方式の問題のひとつは、情報がどこにアップロードされたのかを外部の人が探しにくいということだ。また、公開されたデータを利用するツールを作る人たちにかかる負担も多くなる。

第三者のサイト経由で

さまざまな分野で、データのハブとなるリポジトリが多数存在する。たとえばpachube.comは、測定機器とその測定値にアクセスしたい人たちとをつなげるために作られている。また、Infochimps.comやTalis.comといったサイトは、公共機関が大量のデータを保管して自由に使えるようにしている。

第三者のサイトは非常に有用に使える。その主な理由は、特定の分野に興味のある人たちや同じ分野の他のデータセットが既にそこに集まっているからである。こういったプラットフォームにデータを追加すれば、相乗効果によってよりよい結果を得られる。

大規模データプラットフォームは、既に要件を満たす基盤を提供している。多くの場合、統計情報や利用状況なども得られる。公的機関の場合は、無料で使えることが一般的だ。

これらのプラットフォームには二種類のコストがかかる。まずは独立性。自分の組織のデータを他社に委ねてしまうことになる。たいていの場合、政治的・法的・あるいは運営上の理由でそれは難しい。もうひとつのコストはオープン性だ。データを預けたプラットフォームに対して誰がアクセスできるかは把握できないということを認識する必要がある。ソフトウェア開発者や科学者たちが使うOSは幅広く、スマートフォンの場合もあればスーパーコンピューターの場合もある。どんな環境からでもデータにアクセスできなければならない。

FTPサーバーから

最近ではあまりはやらなくなったが、File Transfer Protocol (FTP)を使ってファイルにアクセスさせる方式もある。この方式が適しているのは、ソフトウェア開発者や科学者などの技術分野を相手にする場合だ。FTPはHTTPのかわりに使うことができ、ファイルの転送に特化して設計されている。

FTPにはかつてほどの人気はなくなった。ウェブサイトを提供するのに比べると、FTPサーバーを扱うというのはコンピューター上のフォルダを扱うのに似ている。したがって、たとえそれが目的にかなっていたとしても、そのカスタマイズを請け負えるウェブ開発会社はあまりいないだろう。

torrentで

BitTorrent は、政府の人間にはおなじみになりつつあるシステムだろう。というのも、著作権違反に関連して語られることが多くなったからである。BitTorrentは、torrentsというファイルを利用するシステムであり、ファイルにアクセスしようとする人たちにコストを分散させる仕組みがある。サーバーにだけ負荷をかけるのではなく、需要が増加するのにあわせて供給も増やすようにしている。だからこそ、このシステムは動画の共有の世界で成功したのだ。大規模なデータを配布するためのシステムとして、これは非常に効率的なものだ。

APIとして

データの公開を Application Programming Interface (API)で行うこともできる。この方式は、近年はやりつつある。すべてのデータを巨大なファイルで一括提供するのではなく、プログラマー側で特定の箇所を選んで取得できるようにする仕組みだ。APIは一般的にデータベースにつながっており、データはリアルタイムに更新される。つまり、情報をAPI経由で公開しておけばそれが常に最新であることを保証できるというわけだ。

すべてのデータに対する主導権を握るには、一括で公開することをまず考えなければならない。APIとして提供すれば、次のようなコストが発生する。

  1. 金額。ファイルで提供することに比べて、その仕組みを開発したり保守したりするための資金を要する。
  2. 期待。そのシステムの利用者のコミュニティを育てるには、APIを確実に提供することが重要だ。何か問題が発生すれば、それは自分たちが修正しなければならない。

データへの一括アクセスを提供すれば、次のようなことを保証できる。

  1. データの提供者の事情に依存しない。つまり、仮に組織の編成や予算などの状況が変わったとしても、データはそのまま使える。
  2. 誰でも複製して再配布できる。これによって元の所有者が各所に配布するコストを削減でき、単一障害点がなくなる。
  3. そのデータを使って第三者が自分でサービスを開発できる。データが手元から離れないことを確信できるからだ。

データを一括で提供すれば、他の人たちが本来の目的を超えてデータを活用できるようになる。たとえば別のフォーマットに変換したり他のリソースとリンクさせたり、バージョン管理して複数の場所でアーカイブしたりといった具合だ。最新版のデータがAPI経由で取得できるようにしたとしても、生のデータも定期的に一括公開しておくべきだ。

たとえば、統計データのサービスである Eurostat statistical service は一括ダウンロード機能を提供しており、4000を超えるデータファイルを一括ダウンロードできるようにしている。このデータは一日に二回更新され、 タブ区切り (TSV) 形式で提供される。また、データファイルだけでなくダウンロード機能に関するドキュメントも用意している。

もうひとつの例が、District of Columbia Data Catalog (ワシントンD.C.のCTO室のデータカタログ)だ。ここではデータをCSVあるいはXLS形式でダウンロードでき、さらにデータのライブフィードも提供している。