Padarykite duomenis techniškai atvirus

Atviri duomenys turi būti atviri ne tik teisiškai, bet ir techniškai. Tai yra, duomenys turi būti prieinami masiškai (in bulk) ir kompiuteriams patogiu formatu.

Available
Duomenų kaina turėtų būti ne didesnė, nei pagrįsta savikaina, geriausia, jei juos galima nemokamai atsisiųsti internete. Toks kainos modelis pasiekiamas tada, kai duomenis atverianti įstaiga nenaudoja didelių resursų, pateikdama juos naudojimui.
In bulk
Duomenys turėtų būti gaunami kaip vienas pilnas duomenų rinkinys. Jei turite registrą, kurį pildote ir palaikote pagal nuostatus, tuomet visas registras turėtų būti atsisiunčiamas. API ar panašus būdas taip pat gali būti labai naudingas, bet jis nepakeičia galimybės gauti visus duomenis masiškai.
In an open, machine-readable format
Viešojo sektoriaus turimų duomenų pernaudojimas neturėtų turėti jokių patentinių apribojimų. Didžiausio masto pernaudojimą garantuoja mašininiu būdu skaitomi formatai. Pavyzdžiui, įsivaizduokite statistiką, paskelbtą PDF dokumentuose, kurie skirti spausdinimui. Tokią statistiką patogu skaityti žmogui, tačiau labai sunku suprasti kompiuteriui. Tai riboja galimybes tuos duomenis pernaudoti ir iš jų kažką sukurti.

Štai keli labai naudingi patarimai:

  • Viską darykite paprastai,
  • judėkite greitai,
  • ir būkite pragmatiški.

Pavyzdžiui, geriau jau dabar atiduoti pirminius, neapdorotus duomenis, nei tobulai sutvarkytus duomenis po šešių mėnesių.

Yra daug skirtingų būdų, kaip duomenis padaryti prieinamus kitiems. Natūraliausias, šiais interneto laikais, yra skelbimas internete. Tą galima daryti daugeliu būdų. Paprasčiausia - institucijoms skelbti duomenis savo interneto svetainėse, o centrinis katalogas nukreipia lankytojus į duomenų šaltinį. Tačiau yra ir alternatyvų.

Kai interneto ryšys ribotas, arba duomenų kiekis ypatingai didelis, galima platinti kitokiais formatais. Šiame skyriuje bus aptartos alternatyvos, kuriomis pasinaudojus, galima tai padaryti pigiai.

Skelbimo internete būdai

Talpinimas savo svetainėje

Jūsų darbuotojams, tvarkantiems internete skelbiamą turinį, geriausiai pažįstamas formatas yra sudėti failus atsisiuntimui. Taip, kaip dabar skelbiate aptariamus dokumentus, taip ir duomenų failai gali būti paskelbti.

Šio būdo trūkumas yra tai, kad tokiu būdu pašaliniam žmogui gali būti sunku rasti naujausią informaciją. Žmonėms, kurie, pasinaudodami jūsų duomenimis, kuria įrankius, toks būdas nepatogus.

Talpinimas naudojantis trečiųjų šalių portalais

Daugelis duomenis talpinančių portalų tapo duomenų centrais tam tikrose srityse. Pavyzdžiui, pachube.com skirtas jungti žmones, kurie turi sensorius, su žmonėmis, kurie nori pasiimti iš jų duomenis. Tokie portalai, kaip Infochimps.com ir Talis.com, leidžia viešajam sektoriui nemokamai talpinti didelius informacijos kiekius.

Trečiųjų šalių portalai gali būti labai naudingi, nes jie jau yra pritraukę besidominičiųjų bendruomenes bei surinkę kitų duomenų. Jei jūsų duomenys yra šių platformų dalis, jie sulaukia papildomo susidomėjimo.

Didmeninės duomenų platformos suteikia infrastruktūrą, kuri gali patenkinti poreikį. Jos taip pat suteikia įrankius analizei atlikti ir duomenims analizuoti. Šie įrankiai viešojo sektoriaus įstaigoms paprastai būna nemokami.

Platformos turi ir savo kainą. Visų pirma, tai nepriklausomybė. Jūsų įstaiga turi galėti atiduoti kontrolę kitiems. Dažnai tai sunku ir politiškai, ir teisiškai, ir techniškai. Visų antra, tai gali kainuoti ir atvirumą. Įsitikinkite, kad duomenų platforma neriboja priėjimo prie jos. Programinės įrangos kūrėjai ir mokslininkai naudoja daug įvairių operacinių sistemų, nuo išmaniųjų telefonų iki superkompiuterių. Visi jie turi turėti galimybę prieiti prie duomenų.

Per FTP serverius

Ne toks madingas būdas - suteikti prieigą prie failų per FTP (File Transfer Protocol). Tai gali tikti, jei auditorija techninė, pavyzdžiui, programuotojai ar mokslininkai. FTP naudojama vietoje HTTP, ir yra skirta keistis failais.

FTP jau nebėra taip populiaru. Lyginant su interneto svetaine, FTP naudojimas prilygsta aplankų peržiūrinėjimui kompiuteryje. Todėl, nors FTP ir tinka naudoti pagal paskirtį, tačiau turi daug mažiau galimybių.

Naudojantis torrent-ais

BitTorrent - tai sistema, politiką formuojančioms institucijoms pažįstama dėl asociacijos su piratavimu. BitTorrent naudoja bylas, vadinamas torrent-ais, kurie padalina keitimosi bylomis resursus tarp visų besikeičiančiųjų jomis. Skirtingai nei serverių atveju, kuomet jie gali būti perkrauti, naudojant torrent-us, resursų pasiūla didėja kartu su paklausa.

Suteikiant API

Duomenys gali būti skelbiami naudojant Aplikacijų programavimo sąsają (API). API labai išpopuliarėjo, nes leidžia programuotojams pasirinkti jiems reikalingus duomenis vietoj masinio duomenų rinkinio atsisiuntimo. API paprastai būna sujungta su duomenų baze, kuri atnaujinama realiu laiku. Tai reiškia, kad per API prieinama informacija visada atnaujinta ir aktuali.

Skelbti pirminius duomenis masiškai (in bulk) turi būti visų atvirų duomenų iniciatyvų tikslas. API naudojimas turi ir savo kainą:

  1. Kaina. Norint paruošti API, reikia daugiau programavimo ir palaikymo, nei pateikiant failus.
  2. Lūkesčiai. Puoselėjant sistemos vartotojų bendruomenę, svarbu užtikrintumas. Jei kažkas bus negerai, jums teks atsakomybė taisyti klaidas.

Masinė (bulk) prieiga prie visų duomenų užtikrina, kad:

  1. Nėra priklausomybės nuo originalaus duomenų teikėjo, vadinasi, įvykus restruktūrizacijai ar pasikeitus biudžetams, duomenys vis tiek bus prieinami.
  2. bet kas gali duomenis nusikopijuoti ir platinti. Tai sumažina platinimo kainą, nes naudojami ne vien tik įstaigos resursai, be to, mažesnė duomenų dingimo tikimybė.
  3. kiti gali kurti nuosavas paslaugas, kurios naudoja duomenis, nes yra tikri, kad duomenys nebus atimti.

Masinis (bulk) priėjimas prie visų duomenų iš karto leidžia tuos duomenis naudoti plačiau nei pagal originalią paskirtį. Pavyzdžiui, galima juos konvertuoti į naują formatą, susieti su kitais duomenimis arba versijuoti ir saugoti įvairiose vietose. Naujausia duomenų versija gali būti suteikiama per API, tačiau pirminiai duomenys taip pat turi būti reguliariai pateikiami masiniu (bulk) formatu.

Pavyzdžiui, Eurostat statistical service leidžia parsisiųsti duomenis ir pateikia virš 4000 duomenų failų. Duomenys atnaujinami dukart per dieną, pateikiami Tabuliavimo žymėmis atskirtų reikšmių (TSV) formatu, taip pat pateikiama dokumentacija apie failų atsisiuntimą ir pačius failus.

Kitas pavyzdys yra ‘Kolumbijos apskrities Duomenų Katalgoas’_, kuris leidžia duomenis atsisiųsti ne tik CSV ir XLS formatais, bet ir prisijungti prie atnaujinimų srauto (live feed).