Сделайте данные доступными (Техническая Открытость)

Открытые данные должны быть открыты не только юридически, но и технически. В частности, данные должны быть доступны в полном объёме, а формат должен быть машиночитаемый.

Available
Данные должны предоставляться не дороже разумной стоимости воспроизводства; лучше всего — бесплатно через Интернет. Эта ценовая модель достижима, поскольку ваше ведомство не несёт никаких затрат, когда предоставляет свои данные.
In bulk
Данные должны быть доступны в виде полного набора. Если вы ведёте реестр на основании закона, сделайте так, чтобы его можно было скачать целиком. Веб-API или подобный ему сервис тоже будет очень кстати, но они не заменят полного доступа.
In an open, machine-readable format
Повторное использование данных гос. сектора не должно ограничиваться патентами. Однако ещё важнее предоставлять данные в машиночитаемом формате, что способствует наиболее активному их повторному использованию. Для примера, представьте себе статистические данные, которые опубликованы в формате PDF, который часто используют для высококачественной печати. Люди смогут их прочитать, но компьютерам будет очень трудно их использовать. Это сильно ограничит возможность повторного использования данных.

Вот несколько стратегий, которые могут быть очень полезны:

  • Не усложняйте,
  • Двигайтесь быстро
  • Будьте прагматичны.

В частности, лучше выдать необработанные данные сегодня, чем совершенный набор данных - через полгода.

Сделать данные доступными можно разными путями. Наиболее естественный способ в век интернета — публикация онлайн. Есть множество вариантов этой модели. Самый простой — когда ведомства выкладывают свои данные на веб-сайты. Посетители находят нужный источник данных через центральный каталог. Есть, однако, и другие варианты.

Когда подключаемость ограничена или объём данных чрезвычайно велик, может быть оправдано распространение данных в другом формате. В этом разделе также обсуждаются варианты, которые помогут значительно снизить издержки.

Онлайновые методы

Через уже имеющийся сайт.

Самый привычный способ для команды, которая занимается вашим сайтом — выложить файлы на сайт для скачивания. Таким путём можно распространять не только документы для обсуждения, но и файлы с данными.

Трудность такого подхода состоит в том, что человеку со стороны очень трудно понять, где найти свежую информацию. Этот вариант создаёт дополнительное бремя тем, кто будет создавать инструменты для работы с вашими данными.

Через сторонние сайты

Есть много репозиториев, которые стали центрами данных в определённых областях. Например, pachube.com предназначен для того, чтобы связывать владельцев сенсоров с теми, кто хочет получить доступ данным их данным. На сайтах Infochimps.com и Talis.com государственные учреждения могут бесплатно хранить большие массивы данных.

Подобные сайты могут быть очень полезны. Главная причина в том, что они уже объединили сообщество заинтересованных людей и другие наборы данных. Когда ваши данные становятся частью такой платформы, возникает своего рода положительная обратная связь.

У крупных платформы данных уже есть инфраструктура, которой может оказаться достаточно. Часто они также предоставляют аналитику и статистику использования. Обычно они бесплатны для государственных учреждений.

Есть, однако, две проблемы. Во-первых, независимость. Нужно, чтобы ваше ведомство могло делегировать управление на сторону. Часто это связано с политическими, юридическими или техническими трудностями. Вторая проблема — открытость. Убедитесь, что вашей платформе данных всё равно, кто ей пользуется. Учёные и разработчики программ пользуются многими операционными системами, от смартфонов до суперкомпьютеров. И все они должны иметь возможность получить доступ к данным.

Через FTP-сервера

Менее модный метод предоставления доступа к файлам это протокол передачи файлов (FTP). Он подойдёт, если ваши потребители — технари, например, разработчики программ или учёные. FTP работает так же, как и HTTP, но разработан специально для передачи файлов.

FTP потерял популярность. В отличие от вебсайта, просмотр FTP сервера больше похож на поиск в папках на компьютере. Поэтому, хоть он и справляется с задачей, он даёт гораздо меньше возможностей фирмам занимающимся веб-разработкой заработать на дополнительном оформлении.

Через торренты

Система BitTorrent стала известна законодателям в связи с нарушениями копирайта. Принцип её работы состоит в том, что бремя распространения файлов ложится на всех, кто эти файлы скачивает. Увеличение спроса приводит не к перегрузке серверов, а к увеличению предложения. Именно поэтому эта система успешно используется для раздачи фильмов. Это невероятно эффективный способ распространять большие объёмы данных.

Через API

Данные можно публиковать через Интерфейс программирования приложений (API). Такие интерфейсы в последнее время очень популярны. Они позволяют программистам выбирать заданные порции данных, не скачивая все данные одним большим файлом. API обычно используются с базами данных, обновляемых в реальном времени. Благодаря этому информация, доступная через API, всегда самая свежая.

Публикация всего объёма «сырых» данных должна быть основной задачей всех инициатив открытых данных. Существует несколько проблем при создании API:

  1. Цена. Они требуют больших усилий по разработке и эксплуатации чем просто файлы.
  2. Ожидания. Чтобы создать сообщество пользователей системы, важно обеспечить определённость. Когда дела пойдут не так, от вас будут ожидать что вы потратитесь на исправление проблем.

Доступ к целым массивам данных обеспечивает следующее:

  1. независимость от первоначального поставщика данных: ситуация может изменится, из-за реструктуризации или пересмотра бюджета, но данные будут по-прежнему доступны.
  2. любой может получить копию и распространять её. Это снижает цену распространения для организации-источника и означает что отсутствует единственная точка отказа.
  3. другие могу разрабатывать свои собственные сервисы на основе этих данных, потому что у них есть уверенность что данные у них не отберут.

Предоставив все данные целиком, вы позволите другим использовать их за рамками первоначальных целей. К примеру, их можно конвертировать в другой формат, связать с другими ресурсами, или поместить под контроль версий и архивировать в нескольких местах. Можно сделать самую свежую версию данных доступной через API, но полные копии сырых данных должны выкладываться регулярно.

Например, `статистический сервис Eurostat`_ имеет модуль для скачивания целиком, предлагая более 4000 файлов с данными. Он обновляется дважды в день и хранит данные в формате Значения, разделённые табуляцией (TSV) и включает как файлы данных, так и документацию на модуль скачивания.

Другой пример — `каталог Округа Колумбия`_, где есть как потоки данных, так и воможность скачать данные в формате CSV и XLS.