使数据可获得 (技术上的开放)

:term:`开放数据`不仅要法律上开放而且要技术上开放。具体来说,数据应该能够被整批获取且提供在机器能阅读的文件格式下。

Available
数据应当能在支付最多不超过合理重制费用的情况下获得,最好是能通过网络下载取得。这一价格模型得以实现是基于你在将数据开放时不产生其他新的成本。
In bulk
数据应当可以完整获取。如果你有一份依法令收集的记录,那么整个记录都必须提供下载。网络API或者类似的服务在这种情况也是非常有用的但并非整批获取的替代品。
In an open, machine-readable format
重利用公共部门开放的数据不应当被技术专利所限制。更为重要的,你应当确保使用机器可阅读的文件格式来实现再利用。例如,统计数据常因高质量印刷的原因被发布在PDF格式下。虽然这些数据可以被人阅读,但对于计算机而言这些数据很难阅读。这就限制了他人对数据的再利用。

这里给出一些有益的准则:

  • 尽量保持简单
  • 行动迅速
  • 要务实

特别的,相比花费六个月去完善数据,直接给出原始数据是更好的选择。

将数据开放有很多方法。在网络时代最直接的方式是提供数据在线版本。这种方法也有很多变种。最基本的是将数据放置于网上上并且在一个数据中心目录上将用户导向到相关的数据源。然而,还有其他方法是可以采用的。

当:term:`网络环境`不佳或者数据量异常庞大,通过其他渠道分发数据也是可以的。在这一节里我们将讨论在保持成本低廉的前提下如何分发数据。

在线方式

通过现有网站

对于你的在线内容团队来说,提供可从网站下载的内容是很熟悉的工作内容了。正如你现在提供在线下载文档一样,你也能如此简单地使数据文件通过在线下载方式被获取。

这个方法的难点在于对于外部人员而言,找到在哪获取更新的数据是很困难的。这个方法为那些使用你数据创造新产品的人制造了障碍。

通过第三方网站

很多数据仓库都已经逐渐变成了某个领域内的数据集散中心。比如,pachube.com 把那些拥有传感器的人群和那些希望访问那些传感器数据的人群连接起来。诸如 Infochimps.com 和 Talis.com 网站则允许公共服务机构免费存储海量数据。

第三方网站可以非常有用,这主要是因为他们已经吸引了一群对数据感兴趣的人以及存储了大量其他数据。 当你的数据也成为这个平台的一部分,就会引发出一种对你数据投以关注的正面氛围。

数据批发平台已经提供了底层基础架构来支持此类需求。他们通常提供数据分析和数据使用情况服务。而这些服务对于公共服务部门都是免费的。

使用此类平台要付出两种代价。第一是要丧失独立性。你的机构要有能力将控制权完全交托于第三方。而这通常在政治上,法律上或运营上非常困难。第二种代价是开放性。请确保你的平台不限制任何人的访问。软件工程师和科学家常使用不同的系统,从智能手机到超级计算机都有。他们应该都能够访问到你的数据。

通过FTP服务器

一个逐渐不流行的方式是将数据通过FTP方式开放。如果你的主要客户是熟悉技术的人群,例如软件工程师或者科学家,那么这种方式是合适的。FTP系统是类似于HTTP系统的但其被特别设计为为文件传输服务。

FTP已经逐渐被淘汰了。不同于提供一个网站,提供一个FTP更像是提供了一种访问计算器文件夹的方式。因此,尽管它能解决问题,但其的不可定制性使得鲜有网站开放商愿意提供此服务。

通过torrents

BitTorrent 对于政策制定者而言已经越来越熟悉这是因为它与版权纠纷常联系在一块。BitTorrent 使用一种称为 torrents 的文件,这种文件将文件传输的成本分摊到了每一个正在访问文件的人身上。与传统服务器会遇到服务器过载不同,使用 torrents 会使得在对文件需求增强的时候,文件服务端能力也相应增强。因此它在电影分享上十分成功。它的确是传输大量数据的极为有效的传输方法。

通过API

数据可以以 :term:`应用程序语言接口`(API)的方式发布。这种接口现在越来越流行了。因为他们允许程序员选择特定部分的数据发布而不是将整批数据作为一个大型文件来提供下载。APIs 通常和一个实时更新的数据库连接起来。 这意味着任何通过API请求的数据都将是最新更新的。

将原始数据整批发布应当是任何开放数据发布者首要考虑的。提供API将会需要付出以下代价:

  1. 高成本。 API方式相比传统文件下载方式通常需求繁重的开发和维护而造成高成本。
  2. 高预期。 为了营造良好的社区氛围,你应当提供确定的 API 服务内容。当任何部分出错,你都要付出修复他们的代价。

提供整批数据则保证了:

  1. 不存在对原始数据提供者的依赖。这就意味着即使因为数据提供者的预算发生了变化或者其机构内部结构重组,都不影响数据的访问。
  2. 任何人都会有数据的副本并且可以重分发这些数据。这就降低原数据提供者的数据分发成本以及不用担心分发数据中出现问题。
  3. 其他人可以利用这些数据开发自己的服务而不用担心将来会无法访问这些数据。

提供整批的数据使得使用者可以重新规划这些数据的用途。比如,可以将这些数据转换入另一种格式,或者与其他数据整合在一起,或者编上版本号并存档在多个地方。虽然 API 会提供最新版本的数据,原始数据仍应能被定期整批获得。

比如,欧盟统计局的统计服务提供超过4000数据文件的数据整批下载服务。这个服务每两天更新数据一次,将数据提供在 TSV 格式下, 并且提供下载服务说明文档以及数据文件说明文档。

另一个例子来自于哥伦比亚行政区 OCTO 数据目录,这个服务提供了 CSV 和 XLS 两种格式的数据下载以及数据的 live feeds