Torne os Dados Disponíveis (Abertura Técnica)

Dados abertos precisam ser tecnicamente abertos, além de legalmente abertos. Especificamente, os dados precisam estar disponíveis em volume e em um formato legível por máquina.

Available
Os dados devem ter preço não maior que um custo razoável de reprodução, preferencialmente como um download gratuito na Internet. Esse modelo de precificação é viável porque seu órgão não deve incorrer em qualquer custo ao prover dados para utilização.
In bulk
Os dados devem ser disponibilizados como um conjunto completo. Se você tem um cadastro que é coletado por medida legal, o cadastro total deve estar disponível para download. Uma API web ou serviço similar podem também ser muito úteis, mas não eliminam a necessidade de publicar o volume completo.
In an open, machine-readable format
A reutilização dos dados sob a guarda do setor público não deve ser sujeita a restrições de patente. Mais importante ainda é ter certeza de que você está provendo formatos legíveis por máquina, para permitir ao máximo sua reutilização. Para ilustrar isto, veja essas estatísticas, publicadas como documentos no formato PDF, frequentemente utilizado para impressão em alta qualidade. As estatísticas podem ser lidas seres por humanos, mas são muito difíceis para um computador usar. Isto limita muito a possibiliade de reutilização dos dados.

Seguem algumas políticas que podem trazer grandes benefícios:

  • Seja simples,
  • Movimente-se rápido
  • Seja pragmático.

Em particular, é melhor fornecer dados brutos agora que dados perfeitos dentro de seis meses.

Há muitas maneiras diferentes de disponibilizar dados. A mais natural, na era da Internet, é a publicação online. Há muitas variações nesse modelo. Em sua forma mais básica, os órgãos publicam seus dados em websites e um catálogo central direciona os visitantes para a fonte apropriada. Entretanto, há muitas alternativas.

Quando a conectividade é limitada, ou o volume dos dados é extremamente grande, a distribuição em outros formatos pode ser justificada. Nesta seção também serão discutidas alternativas, que podem funcionar para manter baixo o custo de publicar os dados.

Meios online

Pelo seu website

A maneira mais familiar, para a sua equipe de conteúdo web, é prover arquivos para download de páginas web. Assim como você provê acesso a documentos, arquivos de dados podem ser perfeitamente disponibilizados desta maneira.

Uma dificuldade nesta abordagem é que é muito difícil para alguém de fora descobrir onde encontrar informações atualizadas. Esta alternativa gera uma sobrecarga para as pessoas que vão criar ferramentas a partir dos seus dados.

Por de sítios de terceiros

Muitos repositórios têm se tornado pontos centrais de dados sobre assuntos específicos. Por exemplo, pachube.com foi projetado para conectar pessoas com sensores com aqueles que desejam acessar os seus dados. Sítios como Infochimps.com e Talis.com permitem que órgãos do setor público guardem quantidades maciças de dados gratuitamente.

Sítios de terceiros podem ser muito úteis, principalmente porque já reunem uma comunidade de pessoas interessadas e outros conjuntos de dados. Quando os seus dados fazem parte dessas plataformas, uma forma de interesse conjunto é criada.

Plataformas completas de dados já provêm uma infraestrutura capaz de suportar a demanda. Muitas vezes elas oferecem informações analíticas e de utilização. Para órgãos do setor público, elas geralmente são gratuitas.

Essas plataformas podem ter dois custos. O primeiro é a sua independência. Seu órgão precisa ceder o controle a terceiros. Isto é, muitas vezes, política, legal ou operacionalmente difícil. O segundo custo pode ser a abertura. Certifique-se de que a sua plataforma de dados é agnóstica em relação a quem pode acessá-la. Desenvolvedores de software e cientistas usam muitos sistemas operacionais, desde smart phones até supercomputadores. Eles todos devem ser capazes de acessar os dados.

Por servidores FTP

Um método menos elegante de fornecer acesso a arquivos é por Protocolo de Transferência de Arquivos (FTP, na sigla em inglês). Isto pode ser adequado se o seu público-alvo é técnico, tais como desenvolvedores de software ou cientistas. O sistema FTP funciona no lugar do HTTP, mas foi especificamente projetado para dar suporte a transferências de arquivos.

O FTP caiu em desuso. Navegar por um servidor FTP, em vez de em um website, é como procurar por pastas em um computador. Portanto, embora ele seja adequado ao propósito, há muito menos possibilidades de empresas de desenvolvimento Web cobrarem por customizações.

Na forma de torrents

BitTorrent é um sistema que tornou-se familiar a formuladores de políticas por causa de sua associação com violações de direitos autorais. O BitTorrent utiliza arquivos chamados torrents, que funcionam dividindo o custo de distribuição de arquivos entre todas as pessoas que acessam esses arquivos. Em vez de servidores centralizados e sobrecarregados, a oferta aumenta na medida em que a demanda aumenta. Este é o motivo do sucesso desse sistema no compartilhamento de filmes. É uma maneira incrivelmente eficiente de se distribuir volumes muito grandes de dados.

Como uma API

Dados podem ser publicados por uma Interface de Programação de Aplicações (API, na sigla em inglês). Essas interfaces têm se tornado muito populares. Elas permitem que programadores selecionem partes específicas dos dados, em vez de fornecer todos os dados em um grande arquivo. APIs estão tipicamente conectadas a um banco de dados que é atualizado em tempo real. Isto significa que disponibilizar dados por uma API pode garantir que eles estão atualizados.

Publicar dados brutos em grande volume deveria ser a preocupação principal de todas as iniciativas de dados abertos. Há vários custos em se fornecer uma API:

  1. O preço. Elas exigem muito mais desenvolvimento e manutenção do que o fornecimento de arquivos.
  2. As expectativas. Para fomentar uma comunidade de usuários por trás do sistema, é importante proporcionar segurança. Quando as coisas dão errado, a expectativa é de que você arque com os custos de consertá-las.

O acesso a dados em grande volume garante que:

  1. não há dependência do provedor original dos dados, o que significa que se uma reestruturação ou ciclo orçamentário mudar a situação, os dados ainda estarão disponíveis.
  2. qualquer outra pessoa pode obter uma cópia e redistribuí-la. Isto reduz o custo da distribuição, afastando-o do órgão de origem, e evita a existência de um único ponto de falha.
  3. terceiros podem desenvolver seus próprios serviços usando os dados, porque eles têm segurança de que os dados não serão tirados deles.

Fornecer dados em volume permite a terceiros usar os dados além de seus propósitos originais. Por exemplo, permite que eles sejam convertidos a um novo formato, ligados a outras fontes, ou versionados e arquivados em múltiplos lugares. Embora a versão mais atualizada dos dados possa ser disponibilizada por uma API, os dados brutos devem ser disponibilizados em volume em intervalos regulares.

O serviço estatístico do Eurostat <http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/>, por exemplo, tem uma funcionalidade de download em volume que oferece acima de 4000 arquivos de dados. Ele é atualizado duas vezes ao dia, oferece dados em formato {Valores Separados por Tabulação} {Tab-separated values} (TSV, na sigla em inglês) e inclui documentação sobre a funcionalidade de download, bem como sobre os arquivos de dados.

Outro exemplo é o Catálogo de Dados de OCTO do Distrito de Colúmbia <http://octo.dc.gov/DC/OCTO/>, que permite que os dados sejam descarregados nos formatos CSV e XLS, além de feeds em tempo real dos dados.