Καταστήστε διαθέσιμα τα Δεδομένα (Τεχνικό «Άνοιγμα»)

Τα Ανοιχτά Δεδομένα πρέπει να είναι ανοιχτά τόσο από νομικής άποψης, όσο και από τεχνικής. Ειδικότερα, τα δεδομένα πρέπει να είναι διαθέσιμα αυτούσια στο σύνολο τους, αλλά και σε μορφή αναγνωρίσιμη από τις μηχανές.

Available
Τα δεδομένα δε θα πρέπει να τιμολογούνται πάνω από ένα κόστος λογικό για την αναπαραγωγή τους, προτιμότερη, δε, είναι η ελεύθερη λήψη τους από το Διαδίκτυο. Αυτή η τιμολογιακή πολιτική ακολουθείται επειδή η υπηρεσία σας δε θα πρέπει να αναλαμβάνει κανένα επιπλέον κόστος όταν παρέχει δεδομένα για χρήση.
In bulk
Τα δεδομένα θα πρέπει να είναι διαθέσιμα ως ένα πλήρες σύνολο. Εάν διαθέτετε ένα μητρώο που συλλέγεται βάσει καταστατικού, ολόκληρο το μητρώο θα πρέπει να είναι διαθέσιμο για λήψη. Ένα API διαθέσιμο στο Διαδίκτυο ή κάποια παρόμοια υπηρεσία θα μπορούσε επίσης να φανούν χρήσιμα, αλλά σε καμία περίπτωση δεν μπορούν να υποκαταστήσουν την εξολοκλήρου πρόσβαση στο σύνολο δεδομένων.
In an open, machine-readable format
Η επαναχρησιμοποίηση των δεδομένων που ανήκουν στο δημόσιο τομέα δε θα πρέπει να υπόκειται σε περιορισμούς ευρεσιτεχνίας. Ακόμα πιο σημαντικό είναι να φροντίσετε ώστε τα δεδομένα να είναι διαθέσιμα σε μορφή αναγνωρίσιμη από τις μηχανές, κάτι το οποίο επιτρέπει ακόμα μεγαλύτερη επαναχρησιμοποίηση. Συγκεκριμένα, έστω ότι υπάρχουν κάποια στατιστικά στοιχεία δημοσιοποιημένα, σε μορφή PDF που χρησιμοποιείται συχνά για εκτυπώσεις υψηλής ποιότητας. Ενώ αυτά τα στατιστικά στοιχεία μπορούν να αναγνωστούν από τους ανθρώπους, καθίσταται πολύ δύσκολη η προσπέλαση τους από μία μηχανή. Αυτό έχει ως αποτέλεσμα τον έντονο περιορισμό της επαναχρησιμοποίησης των δεδομένων.

Οι τακτικές που πρέπει να ακολουθήσετε συνοψίζεται στα εξής:

  • απλά
  • γρήγορα
  • ρεαλιστικά

Ιδιαίτερα σημαντικό είναι να προσφέρετε άμεσα ακατέργαστα δεδομένα, αντί για άψογα δεδομένα, αλλά σε έξι μήνες.

Υπάρχουν πολλοί διαφορετικοί τρόποι να καταστήσετε τα δεδομένα διαθέσιμα σε άλλους. Το πιο φυσιολογικό στην εποχή του Διαδικτύου είναι η Διαδικτυακή δημοσιοποίησή τους. Υπάρχουν πολλές παραλλαγές σε αυτό το πρότυπο. Στην πιο βασική εκδοχή τους, οι υπηρεσίες καθιστούν τα δεδομένα τους διαθέσιμα μέσω της ιστοσελίδας τους και ένας κεντρικός κατάλογος κατευθύνει τους επισκέπτες στις αντίστοιχες πηγές. Ωστόσο, υπάρχουν και εναλλακτικές προσεγγίσεις.

Όταν η διασυνδεσιμότητα είναι περιορισμένη ή το μέγεθος των δεδομένων είναι εξαιρετικά μεγάλο, ενδείκνυται η διανομή μέσω εναλλακτικών μορφών. Σε αυτήν την ενότητα, θα συζητηθούν εναλλακτικές προσεγγίσεις που μπορεί να λειτουργήσουν καθοριστικά στη διατήρηση του κόστους σε χαμηλό επίπεδο.

Διαδικτυακές μέθοδοι

Μέσω της υπάρχουσας ιστοσελίδας

Ο πιο οικείος τρόπος για να παρέχετε τα δεδομένα στην ομάδα για το Διαδικτυακό περιεχόμενο είναι σε αρχεία προς λήψη, διαθέσιμα στην ιστοσελίδα. Ακριβώς όπως, επί του παρόντος, προσφέρετε πρόσβαση σε έγγραφα αναφορών, τα αρχεία δεδομένων μπορούν να καταστούν διαθέσιμα με τον ίδιο τρόπο.

Μία δυσκολία που συναντάται σε αυτήν την περίπτωση είναι η δυσχέρεια που συχνά αντιμετωπίζουν οι χρήστες στο να ανακαλύψουν ενημερωμένες πληροφορίες. Το επιπλέον πρόβλημα που προκύπτει με αυτή τη προσέγγιση είναι ότι προστίθεται επιπλέον φόρτος σε αυτούς που προσπαθούν να δημιουργήσουν εργαλεία χρησιμοποιώντας τα δεδομένα σας.

Μέσω τρίτων, συμβαλλόμενων ιστοσελίδων

Πολλά αποθετήρια δεδομένων μετατράπηκαν σε κομβικά σημεία αναφοράς για ορισμένους τομείς. Για παράδειγμα, το pachube.com σχεδιάστηκε για να φέρνει σε επαφή τους ανθρώπους με αισθητήρες, εφόσον επιθυμούν να έχουν πρόσβαση σε δεδομένα που προέρχονται από αυτούς. Άλλες ιστοσελίδες, όπως η Infochimps.com και η Talis.com, επιτρέπουν σε υπηρεσίες του δημοσίου τομέα να αποθηκεύουν μαζικές ποσότητες δεδομένων, χωρίς χρέωση.

Οι Ιστοσελίδες τρίτων συμβαλλομένων μπορεί να αποδειχθούν χρήσιμες. Ο κύριος λόγος που συμβαίνει αυτό είναι ότι έχουν ήδη καταφέρει να συγκεντρώσουν, σε κοινότητες, τα ενδιαφερόμενα άτομα μαζί με πολλά άλλα σύνολα δεδομένων. Όταν και τα δικά σας δεδομένα γίνονται μέρος αυτών των πλατφορμών, αναπτύσσεται μια μορφή θετικού ενδιαφέροντος για αυτά.

Οι πλατφόρμες δεδομένων παρέχουν ήδη την υποδομή που μπορεί να υποστηρίξει τη ζήτηση. Συχνά προσφέρουν αναλύσεις και στατιστικές πληροφορίες σχετικά με τη χρήση τους. Η χρησιμοποίηση τέτοιων πλατφορμών από το δημόσιο τομέα γίνεται, συνήθως, δωρεάν.

Όμως, αυτού του είδους οι πλατφόρμες μπορεί να έχουν διπλό κόστος. Το πρώτο είναι η ανεξαρτησία. Η υπηρεσία μπορεί να επιθυμεί να είναι σε θέση να αποδίδει έλεγχο σε άλλους. Αυτό πολλές φορές είναι πολιτικά, νομικά ή λειτουργικά δύσκολο. Το δεύτερο κόστος μπορεί να είναι η «Ανοιχτότητα». Επιβεβαιώστε ότι η πλατφόρμα δεν κάνει διακρίσεις στις συσκευές που έχουν πρόσβαση σε αυτήν. Οι προγραμματιστές λογισμικού και οι επιστήμονες χρησιμοποιούν πολλά λειτουργικά συστήματα, από smart phones μέχρι υπερυπολογιστές. Όλοι θα πρέπει να είναι σε θέση να έχουν πρόσβαση στα δεδομένα.

Μέσω FTP διακομιστών

Ένας λιγότερο δημοφιλής τρόπος για την παροχή πρόσβασης στα αρχεία σας είναι μέσω του FTP πρωτοκόλλου. Αυτό μπορεί να είναι κατάλληλο αν το κοινό σας είναι τεχνικά καταρτισμένο, όπως προγραμματιστές εφαρμογών και επιστήμονες. Το σύστημα FTP λειτουργεί στη θέση του HTTP, αλλά είναι ειδικά σχεδιασμένο ώστε να υποστηρίζει μεταφορές αρχείων.

Το πρωτόκολλο FTP έχει παγιωθεί και δεν αναπτύσσεται. Σε αντίθεση με την παροχή μίας ιστοσελίδας, η χρήση ενός FTP διακομιστή θυμίζει περισσότερο την όψη των φακέλων στους υπολογιστές. Συνεπώς, αν και είναι κατάλληλο για το σκοπό που χρησιμοποιείται, υπάρχει πολύ χαμηλότερη δυνατότητα για εταιρείες ανάπτυξης Διαδικτυακών εφαρμογών να χρεώσουν επιπλέον για την παραμετροποίησή του.

Ως torrents

Το BitTorrent είναι ένα σύστημα που έχει γίνει οικείο στους φορείς χάραξης πολιτικής λόγω της σύνδεσής του με την καταπάτηση των πνευματικών δικαιωμάτων. Το BitTorrent χρησιμοποιεί αρχεία που λέγονται torrents, και η λειτουργία του βασίζεται στον καταμερισμό του κόστους της διανομής των αρχείων, μεταξύ των ανθρώπων που έχουν πρόσβαση σε αυτά. Οπότε, αντί για διακομιστές που υπερφορτώνονται, σε αυτήν την περίπτωση, αυξάνεται η προσφορά με την αύξηση της ζήτησης. Αυτός είναι ο λόγος που αυτό το σύστημα είναι πολύ δημοφιλές για το διαμοιρασμό ταινιών. Είναι ένας αποτελεσματικός τρόπος για τη διανομή πολύ μεγάλων όγκων δεδομένων.

Ως ένα API

Τα δεδομένα πρέπει να είναι δημοσιοποιημένα μέσω ενός Application Programming Interface (API). Αυτές οι διεπαφές έχουν γίνει πολύ διάσημες. Επιτρέπουν στους προγραμματιστές να επιλέγουν συγκεκριμένες ποσότητες δεδομένων, αντί να τους παρέχουν όλα τα δεδομένα μαζικά, σε μεγάλα αρχεία. Τα APIs είναι συνήθως διασυνδεδεμένα με μία βάση δεδομένων η οποία ενημερώνεται σε πραγματικό χρόνο. Αυτό σημαίνει ότι, όταν οι πληροφορίες παρέχονται μέσω ενός API, μπορεί να είναι κανείς σίγουρος ότι έχει πρόσβαση στα πιο ενημερωμένα δεδομένα.

Η δημοσιοποίηση ακατέργαστων δεδομένων θα πρέπει να είναι πρωταρχικής σημασίας για όλες τις πρωτοβουλίες για τα Ανοιχτά Δεδομένα. Άλλωστε, υπάρχουν κάποια κόστη που σχετίζονται με την παροχή ενός API:

  1. Η τιμή: Απαιτεί πιο περίπλοκη ανάπτυξη εφαρμογών και συντήρηση από ότι η παροχή απλών αρχείων.
  2. Οι προσδοκίες: Για να ενθαρρυνθεί η κοινότητα χρηστών ενός σύστηματος, είναι σημαντικό να παρέχεται βεβαιότητα. Όταν κάτι σταματήσει να λειτουργεί σωστά, τότε το κόστος της διόρθωσης δε θα πρέπει να επιβαρύνει την κοινότητα.

Η πρόσβαση σε μαζικά δεδομένα εξασφαλίζει ότι:

  1. Δεν υπάρχει εξάρτηση από τον αρχικό πάροχο των δεδομένων, με την έννοια ότι, αν συμβεί κάποια αναδιάρθρωση ή ο οικονομικός προυπολογισμός αλλάξει την κατάσταση, τα δεδομένα θα είναι ακόμα διαθέσιμα.
  2. Ο καθένας μπορεί να έχει ένα αντίγραφο και να το αναδιανείμει. Αυτό μειώνει το κόστος διανομής πέρα από την υπηρεσία που λειτουργεί σαν πηγή και σημαίνει πως δεν υπάρχει μοναδικό σημείο αποτυχίας.
  3. Οι άλλοι μπορούν να αναπτύξουν τις δικές τους υπηρεσίες χρησιμοποιώντας τα δεδομένα, επειδή έχουν τη βεβαιότητα ότι δε θα τα στερηθούν.

Η προσφορά μαζικών δεδομένων επιτρέπει σε τρίτους να τα χρησιμοποιήσουν πέρα από τον αρχικό τους σκοπό. Για παράδειγμα, επιτρέπει τη μετατροπή σε νέα μορφή, τη διασύνδεση με άλλες πηγές ή άλλες εκδόσεις και την αποθήκευσή τους σε περισσότερες τοποθεσίες. Ενώ η νεότερη έκδοση των δεδομένων μπορεί να καταστεί άμεσα διαθέσιμη από το ΑΡΙ, τα ακατέργαστα δεδομένα θα πρέπει να είναι μαζικά διαθέσιμα ανά τακτά χρονικά διαστήματα.

Παράδειγμα αποτελέι η περίπτωση της ευρωπαικής στατιστικής υπηρεσίας (Eurostat) που προσφέρει μαζική λήψη 4000 αρχείων δεδομένων. Ενημερώνεται δύο φορές την ημέρα, ενώ παρέχει τα δεδομένα σε μορφή Tab-separated values (TSV), περιλαμβάνοντας και έγγραφα σχετικά με την υπηρεσία λήψης και τα ληφθέντα αρχεία.

Ένα άλλο παράδειγμα αποτελεί το District of Columbia OCTO’s Data Catalogue που επιτρέπει στα δεδομένα να ληφθούν σε CSV και XLS μορφή και επιπλέον σε ζωντανή ρόη.