Fă datele accesibile (deschiderea tehnică)

Open data trebuie să fie atât deschise din punct de vedere tehnic cât și din punct de vedere legal. Mai precis, datele trebuie să fie disponibile în vrac (bulk), într-un format care poate fi citit de către un calculator (machine-readable).

Available
Datele trebuie să fie disponibile la un preț mai mic decât costul rezonabil de reproducere, preferabil ca o descărcare gratuită de pe Internet. S-a ajuns la acest model de tarifare pentru că agenția ta nu trebuie să suporte nici un cost atunci când furnizează date utilizatorilor
In bulk
Datele ar trebui să fie disponibile sub forma unui set complet. Dacă ai un registru care este colectat sub această formă, întregul registru trebuie să fie disponibil pentru descărcare. O interfață de programare (API) web sau un serviciu similar ar putea fi deasemenea foarte utile, dar ele nu substituie accesul în vrac.
In an open, machine-readable format
Re-utilizarea datelor deținute de către sectorul public nu trebuie să fie subiectul unor restricții generate de licențe sau patente. Și mai important, dacă te asiguri că furnizezi datele in formate care pot fi citite automat, permiti un grad mai mare de re-utilizare. Pentru a ilustra acest fapt, ia în considerare datele statistice publicate ca documente în format PDF, un format ales uzual datorită calității de imprimare ridicat. În timp ce aceste statistici pot fi citite de către oameni, sunt foarte greu utilizabile de către un calculator. În acest mod este îngrădită major abilitatea altora de a re-utiliza datele.

Mai jos câteva direcții care vor aduce beneficii majore:

  • păstrează o formă simplă,
  • mișcă-te repede,
  • fii pragmatic.

În mod special este mai bine să furnizezi chiar acum datele brute, decât să furnizezi date într-un format perfect.

Sunt foarte multe moduri diferite de a face datele accesibile către alții. Cel mai natural mod, în epoca Internetului, este publicarea online. Există multe variațiuni ale acestui model. Formula de bază este ca agențiile care dețin date publice să asigure accesul la date prin intermediul proprilor sit-uri web, iar un catalog central direcționează vizitatorii către sursa adecvată. În orice caz, există alternative.

Când conectivitatea (connectivity) este limitată sau mărimea setului de date este este extrem de mare, ar putea fi asigurată distribuirea prin intermediul altor formate. Această secțiune va discuta alternative care ar putea avea un rol în a menține tarifele foarte scăzute.

Metode online

Prin intermediul sit-ului tău web deja existent

Sistemul care este cel mai familiar echipei tale de conținut web este de a furniza fișiere pentru a fi descărcate de pe pagini web. La fel cum oferiți în acest moment acces la documente pentru discuții, pot fi oferite și fișierele.

Problema este că este dificil pentru cineva din exterior să descopere unde poate să găsească informația actualizată. Această opțiune îngreunează crearea de unelte pentru datele respective, pentru anumite persoane.

Prin intermediul sit-urilor altor persoane

Multe depozite au devenit puncte central pentru distribuția datelor în anumite domenii. De exemplu, pachube.com este creat pentru a facilita conexiunea între persoanele care folosesc sisteme senzoriale cu cei doresc să acceseze datele deținute de ele. Sit-uri precum Infochimps.com și Talis.com permit agențiilor publice să stocheze gratis cantități mari de date.

Sit-urile altor persoane sunt foarte utile. Acest lucru se datorează faptului că ei au adunat deja o comunitate de persoane interesate și alte seturi de date. Atunci când informațiile tale fac parte din aceste platforme, se crează un interes comun.

Platforme de date în volum mare oferă infrastructura necesară care răspunde cererii. Adesea ele furnizează informații statistice și informații privind utilizarea. Pentru agențiile din sectorul public, acestea sunt în general gratuite.

Aceste platform implică două tipuri de costuri. Primul este independența. Agenția ta trebuie să poată preda controlul și altora. Acest lucru este adesea dificil din punct de vedere politic, legal sau operațional. Al doilea cost îl implică deschiderea. Asigură-te că platforma ta de date este accesibilă de către toată lumea. Dezvoltatorii de software și oamenii de știință folosesc multe sisteme de operare, de la telefoane inteligente la supercalculatoare. Ar trebui ca toată lumea să poată să acceseze datele.

Prin intermediul Protocolului pentru Transferul Fișierelor (FTP)

O metodă mai puțin la modă pentru acordarea accesului la fișiere este prin FTP. Acest lucru este potrivit atunci când audiența ta are cunoștințe tehnice, precum dezvoltatorii de software și oamenii de știință. Sistemele FTP înlocuiesc HTTP, dar sunt special create pentru transferal de fișiere.

FTP a ieșit din grații. Mai degrabă decât furnizarea unui sit, să te uiți printr-un server este ca și cum te-ai uita prin dosare într-un calculator. Deși este în concordanță cu obiectivul, capacitatea firmelor de dezvolatare web de a taxa pentru personalizare este mult mai mica.

Ca torenți

BitTorrents este un sistem care a devenit familiar celor care conturează politici datorită asocierii cu încălcarea dreptului de copier. BitTorrent folosește fișiere numite torenți, care funcționează prin împărțirea costului de distribuire a fișierelor între toate persoanele care accesează respectivele fișiere. În loc ca serverele să se supraîncarce, oferta creștea pe măsură ce creștea cererea. Acesta este motivul pentru care acest sistem este atât de eficient pentru distribuirea filmelor. Este o metodă foarte eficientă pentru distribuirea unor volume mari de date.

Ca API

Datele pot fi publicate prin Interfețe de Programare cu Aplicație (API). Aceste interfețe au devenit foarte cunoscute. Ele permit programatorilor să selecteze anumite fragmnte de date, mai degrabă decât să furnizeze toate într-un vrac (bulk), ca fișiere mari. API sunt conectate în mod obișbuit la o bază de date care este actiualizată în timp real. Acest lucru înseamnă că a face informația disponibilă prin intermediul unei API ne asigură că informația este actualizată la zi.

Publicarea datelor primare în volum mare ar trebui să fie principala preocupare a tuturor inițiativelor privind datele deschise. Interfețele de programare cu aplicație presupun o serie de costuri:

  1. Prețul. Au nevoie de mai multă mentenanță decât furnizarea fișierelor.
  2. Așteptările. Pentru a încuraja o comunitate de utilizatori să folosească sistemul, este important să ofero certitudine. Atunci când lucrurile nu merg bine, se va aștepta de la tine să acoperi costul reparațiilor.

Accesul la un volum mare de informații asigură că:

  1. nu există dependență față de furnizorul primar de date, acest lucru însemnând că, dacă o restructurare sau un ciclu bugetar schimbă situația, informațiile sunt încă disponibile.
  2. oricine altcineva poate obține o copie și o poate redistribui. Acest lucru reduce costurile cu distribuția, luându-le de la agenția sursă și presupune faptul că nu există un singur loc unde sunt stocate informațiile (single point of failure).
  3. alții pot dezvolta propriile servicii folosind informațiile, pentru că au siguranța că informațiile nu le vor fi luate.

Furnizând informațiile în volum mare, le permite altora să folosească informațiile dincolo se scopul lor primar. De exemplu, permite ca acestea să fie transformate în formate noi, să fie conectate cu alte surse, sau să fie create alte versiuni și arhivate în multiple locații. În timp ce ultima versiune a informației poate fi pusă la dispoziție printr-o API, datele primare ar trebui puse la dispoziție în volum mare, la intervale regulate de timp.

De exemplu, serviciul de statistică Eurostat (http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/) conține posibilitatea de a descărca volume mari, oferind peste 4000 de fișiere de date. Este actualizat de două ori pe zi, oferă date în format cu valori separate tabular și include documentația privind fișierele de date și posibilitatea de descărcare.

Un alt exemplu este Catalogul de Date al Districtului Columbia (District of Columbia Data Catalog), care permite ca datele să fie descărcate în formate CSV și XLS, în plus față de actualizarea în timp real a datelor.