选取数据集

虽然选取你将要开放的数据集是第一步,但你要记得整个将数据开放的过程是一个迭代的过程所以当你在之后遇到问题的话还能回到这一步。

如果你已经很清楚要将哪些数据集开放,你可以直接跳到下一节。然而,很多情况下,特别是在大型机构中,选择一个数据集作为工作重心将会是极大的挑战。那么在这种情况下该如何处理呢?

准备一个你考虑可以开放的数据集清单将会是很快完成的工作。之后会有时间具体来审视每个数据集是否合适开放。

这里并**不要求**一个完备的数据集清单。重点是你要清楚将这些数据公开是否可行 (无论这些数据最终是否开放。具体参见 :ref:`「什么是开放数据」<what-data-can-be-open>`一节)。

向社区询问

我们推荐你在一开始就向社区咨询。他们是那些将会访问或使用你数据的人,所以他们很可能对那些数据有价值这一问题有着很好的理解。

  1. 先准备一个你想要回馈意见的数据集的清单。这个清单没有必要和你预期使用的数据集一致,这里主要目的是去了解用户的需求。这个清单也可以基于其他国家的开放数据目录。
  2. 邀请社区评论你的清单。
  3. 将你的邀请做成一个网页。 确保通过URL可以访问到这个邀请。这样当使用社交媒体传播这个邀请时别人可以很容易发现。
  4. 提供提交反馈的简单方法。避免因为要求注册而减少回应数量。
  5. 将邀请发布到不同的讨论组,论坛,个人,记得同时给出网页地址。
  6. 组织一个讨论会。确保讨论会的时间便利,以让大部分商业人士,数据爱好者,政府官员等可以参加。
  7. 请一个政客替你的组织对外发言。开放数据是很容易成为提升政府信息公开这一政策的一部分的。

将数据开放的成本

机构在数据收集和维护上花费多少?如果他们花了很多钱在某一个数据集上,那么别人很可能希望能够访问这些数据。

这一论断很容易引起对于「搭便车」的担忧。所谓「搭便车」的担忧,即「为什么别人可以免费访问我们花费巨资收集维护的数据?」。一个回答是这些资金投入是公共部门需要来执行特定工作的,但数据收集后再分发给第三方的成本则近乎为零。因此,数据不应该在被收费。

将数据开放的简易性

有些时候,与其考虑哪个数据集更有价值,不如考虑哪个数据集更容易被开放给公众。小而易的开放数据更容易促进大型机构改变对开放数据的态度。

然而使用这个方法时也要小心。因为可能一些小的数据集被开放后并没有创造什么价值。如果这发生了,那么整个将数据开放的项目都将夭折。

向同行学习

将数据开放是一个成长中的运动。因此在你的区域里很可能有人了解其他地区在开放数据上的工作进展。基于了解同行们的工作,你可以建立一个工作清单。