將資料釋出與可得 (技術層面上的開放性)

Open data 資料的開放必須從技術層面與法令層面上都需要符合開放的標準。尤其是,資料必須是大宗並且採用 machine-readable (機器可讀)的格式。

Available
Data should be priced at no more than a reasonable cost of reproduction, preferably as a free download from the Internet. This pricing model is achieved because your agency should not undertake any cost when it provides data for use.
In bulk
資料的呈現必須是完整的一組資料。如果您有一份紀錄是依照法規所收集,您就必須將整份記錄都開放釋出提供下載。提供一組 Web API 或是類似的服務也將會有很大的幫助,但是這些並不能取代資料完整取得的機制。
In an open, machine-readable format
Re-use of data held by the public sector should not be subject to patent restrictions. More importantly, making sure that you are providing machine-readable formats allows for greatest re-use. To illustrate this, consider statistics published as PDF documents, often used for high quality printing. While these statistics can be read by humans, they are very hard for a computer to use. This greatly limits the ability for others to re-use that data.

Here are a few policies that will be of great benefit:

  • 盡量保持簡單,
  • 快速前進
  • 要務實

In particular it is better to give out raw data now than perfect data in six months’ time.

There are many different ways to make data available to others. The most natural in the Internet age is online publication. There are many variations to this model. At its most basic, agencies make their data available via their websites and a central catalog directs visitors to the appropriate source. However, there are alternatives.

當 connectivity (連線環境) 受到限制或是資料量非常龐大時,使用其他格式來散佈是有其必要性的。在這一個章節中,我們也會討論到其他資料散佈的方式,同時也考慮到盡量壓低需要的額外資源(經費)。

線上模式

透過您的網站

對於您的網站內容負責團隊來說,最熟悉的方式就是將資料檔案直接放上網站讓他人下載。就如同其他網站上的內容一般,資料檔案也可以如此簡單的分享釋出。

採用這種方法時比較麻煩的一點是,對於外來的使用者來說,他們比較難以找到資料更新的資訊。而這一點對於使用您的資料來建立新工具的人而言是蠻糟糕的事情。

透過第三方網站

目前有許多網路儲存庫 (repository) 可以拿來當作特定領域的資料集散中心。例如, pachube.com 的目的是連結不同的人,從資料的提供者到期望能使用這些資料的人們。其他如 infochimps.com 或是 talis.com 等則允許公部門單位在他們網站上免費儲存大量的資料。

第三方提供的網站可以是非常有用的選擇。最主要的原因是在這些網站上已經有對這些資料有興趣的社群和來自不同來源的資料集,全都聚集在同一個地點上。當您的資料也成為這裡眾多資料中的一份時,就會引發出一種正面的關注氣氛的產生。

整個資料批發平台已經備好該有的基礎架構來回應可能出現的需求。他們一般也會提供關於資料使用等資訊的分析報告。而對公部門單位一般都是免費服務。

使用這些平台可能會有兩個地方需要注意。第一個是依賴性的養成。您的部門需要將控制權外放给他人。而這常常是在政治上,法規上或是執行上都是個問題。第二個需要注意的事情是,開放性。請確定您所使用的資料平台對於誰可以讀取這些資料沒有任何限制。軟體開發者和科學研究人員使用的電腦作業系統可能非常多樣,可能使用從智慧型手機到大型電腦主機都有。他們全部都該有一樣的權力來讀取您的資料。

透過 FTP 伺服器

一個逐漸比較不流行的作法就是透過 FTP (File Transfer Protocol) 來分享資料檔案的下載。如果您所預期的資料使用者屬於偏技術端的,例如軟體開發者或是科學研究人員,那就可以使用這個方法來提供資料下載。FTP 伺服器在使用上就如同 HTTP 網路伺服器,只是他的工作就是專門用來做為檔案傳輸用。

FTP 在現在越來越不受重用,大家也比較喜歡直接開啟網站下載資料。因為 FTP 的介面看起來就如同在自己電腦內的不同目錄之間尋找要的資料。所以雖然 FTP 的功能就是提供檔案的傳輸,在服務的提供上,整個架構都是固定無法做出什麼改變。

使用 torrents 模式分享

BitTorrent 是一個目前政策決策者越來越熟習的系統,因為這個系統的使用與侵犯版權等相關問題常常被放在一起提到。BitTorrent 使用一種稱為 torrents 的檔案,然後在運作上可以將檔案散佈的資源分散平均分配到每個讀取該檔案的使用者身上。這樣一來,就算對資料檔案的要求提高,也可避免伺服器出現頻寬不足的狀況,因為越多人下載檔案,就表示越多人同時也在分享。這也是為什麼這個系統受到網路上電影分享下載者的熱愛。這是個非常有效率的方法來分享大量的資料檔案。

透過 API 的呼叫

資料還可以透過 Application Programming Interface (API) 來做分享和散佈。使用 API 這種介面的模式在現在越來越受到歡迎。這種方式允許程式設計師每次只選擇讀取特定的資料片段,而不需要一次就把整個龐大的資料集先下載回來。 API 一般來說都會連接到一個資料庫,同時資料庫內的資料都可以及時更新。這意味著,透過 API 的模式,我們可以隨時提供最新最即時的資料。

Publishing raw data in bulk should be the primary concern of all open data intiatives. There are a number of costs to providing an API:

  1. The price. They require much more development and maintainence than providing files.
  2. The expectations. In order to foster a community of users behind the system, it is important to provide certainty. When things go wrong, you will be expected to incur the costs of fixing them.

直接下載完整大檔案則可保證:

  1. there is no dependency on the original provider of the data, meaning that if a restructure or budget cycle changes the situation, the data are still available.
  2. 任何其他人都可以取得一份資料檔案和將他分享散佈出去。這也可減低原始資料提供者在散佈資料時所需投入的資源,更不用擔心在資料的散佈中會出現什麼問題。
  3. 其他人可以使用這些資料開發他們自己的服務,因為他們可確定其他人無法把這些資料從他們那邊拿走。

Providing data in bulk allows others to use the data beyond its original purposes. For example, it allows it to be converted into a new format, linked with other resources, or versioned and archived in multiple places. While the latest version of the data may be made available via an API, raw data should be made available in bulk at regular intervals.

For example, the Eurostat statistical service has a bulk download facility offering over 4000 data files. It is updated twice a day, offers data in Tab-separated values (TSV) format, and includes documentation about the download facility as well as about the data files.

Another example is the District of Columbia Data Catalog, which allows data to be downloaded in CSV and XLS format in addition to live feeds of the data.