让数据可被发现

没有用户的话,开放数据就毫无意义。因此你需要确保人们可以找到你的数据。这一节将会讨论不同的使数据可被发现的方法。

最为关键的一点是你能找到一个中立的平台来规避可能的机构间的政治冲突和预算变化。无论是部门间的或是地域间的职权管辖范围都会对机构间合作造成一定的困扰。然而,机构间的合作有其益处。因为别人越容易发现数据,新的基于你数据的产品服务就会越快被开发出来。

现有服务

在网上已经有一批服务可以帮助你使你的数据可被人们发现。

其中最突出的服务当属 DataHub,它是服务于全球数据的数据目录和数据存储服务。它使得任何个人和组织都可以轻易地发布数据并使人们能够找到需要的数据。

除此之外,现在还有许多服务于专门领域和地区的数据目录服务。一些科学社区也开发了专门的数据目录来服务于自己的研究领域,因为这些领域的论文发表都要求一同发布数据。

为政府服务

对政府部门而言,常见的方式是建立一个数据目录。当开发数据目录时,要记得其架构因能使不同部门轻易管理各自的数据。

不要坚持去从头开发一个数据目录。免费,开源的解决方案(比如 CKAN)已经被很多政府所采用。因此,重新投入资源去开发新平台就显得没必要了。

下面我们列出一些数据目录服务通常缺少的特性,你们的开发人员可以考虑添加这些特性:

  • 允许民间企业、组织、社区向数据目录添加数据。或许值得思考一下数据目录是仅仅服务于地区政府的还是服务于整个地区的。
  • 允许数据的衍生版本被列入目录来促进数据质量的提升。比如,某个人或许将地址数据转为地理编码数据并想分享结果。如果你只允许单一版本的数据,这些改进都将不可见。
  • 要容忍你的数据出现在别的地方。这意味着你的数据很可能在其他地方重复出现。比如你提供河流监测数据,它很有可能在水文学者的数据目录中出现。
  • 确保数据的获取对任何人是公平的。不要给政府官员或者终身教授等高级权限,因为这会使社区参与受到打击。

为民间团体服务

要乐意为那些非官方数据建立数据目录。

对于政府部门而言,很少会将非官方数据源和自身联系起来。通常政府部门会花费巨额来防止因为数据的误读和过分解读而造成的政治上的窘迫和损害。

进一步来说,政府通常不愿意支持那些将自身政府信息和商业信息整合使用的活动。对于此类活动,政府部门通常抱以利益驱动的阴谋论。因此,一个由社区运营的独立数据目录是需要的。