O escritório brasileiro do W3C publicou em parceria com a Transparência Hacker uma versão adaptada e traduzida do Open Data Manual.
O manual reúne conceitos de “dados abertos” e informações técnicas (o que é API, XML, JSON).
Na versão brasileira do manual, dicas de como organizar um “hackathon“, informações sobre como funcionam as leis federais de acesso a dados públicos, além de exemplos brasileiros de projetos de “dados abertos” e detalhes do primeiro Transparência Hack Day, realizado em São Paulo.
O documento é gratuito e pode ser baixado no site do W3C Brasil (em formato pdf).
Veja também: O que mais aproxima cidadãos de governantes na web?
Em uma sociedade democrática, os dados do governo pertencem aos cidadãos
Jeff Jaffe, presidente executivo do W3C
Web semântica é um conjunto de tecnologias que permite interligar dados na web. Dessa forma, bem simples, Ivan Herman, responsável pelos estudos de web semântica do W3C, definiu o conceito, visto por muito anos como um enigma.
O pesquisador participou como palestrante do Café com Browser, evento organizado pelo escritório do W3C Brasil, na manhã desta sexta-feira, em São Paulo.
Por um conjunto de tecnologias, entenda-se algumas já existentes, como RDF e SPARQL. E por dados, informações públicas de todo tipo em formato aberto.
Como exemplo prático, Herman citou a BBC Music, que utiliza informações de banco de dados abertos para construir o seu site. Os perfis dos artistas, por exemplo, são criados com conteúdo do verbete equivalente na Wikipedia, além de músicas disponíveis no MusicBrainz.
Segundo ele, até hoje o conceito de web semântica assusta muita gente. Isso acontece porque, em seu início, ele foi explicado de forma errada, muito complicada. Deu-se muita ênfase à questão da ontologia.
Parecia que eram necessários diversos doutores e PhDs para poder desenvolver algo ligado à web semântica, enquanto que as coisas poderiam ser bem mais simples.
As tecnologias para a realização da web semântica já existem. RDF, tecnologia que permite a interligação de dados, por exemplo, existe desde 1999 e a sua estrutura não é difícil de ser explorada e estudada, segundo Herman.
Para ele, um ponto de virada em relação ao conceito de web semântica aconteceu em 2008, quando o movimento sobre linked data (dados interligados) passou a descomplicar o discurso.
Neste sentido, uma série de conferências sobre web semântica realizadas nos EUA, voltadas mais para negócios, ajudou a desmitificar o conceito.
Além de descomplicar, o que achei interessante na apresentação de Herman foi que ele levantou a questão do “efeito de rede” nos dados.
“Efeito de rede” é uma dinâmica bem comum na internet. O valor que um usuário dá a um produto depende de quantas outras pessoas estão usando-o. Por exemplo, quanto mais pessoas utilizam o Facebook e o Google, melhores eles ficam, mais sentido há em usá-los
A mesma coisa acontece com os dados, quanto mais pessoas os utilizam, mais valiosos eles ficam. Recentes projetos de web semântica têm deixado isso bem claro.
Durante a apresentação e as posteriores perguntas do público, Herman deixou de lado a bola de cristal, optou por não prever o futuro dos “dados interligados”.
Mas cogitou que a web semântica vai enfrentar alguns desafios, como a própria questão da privacidade e da ética no uso dos dados. Quando você disponibiliza dados públicos na web, abre espaço para que eles sejam usados de todas as formas inimagináveis.
Além de, claro, um problema comum a outras áreas do conhecimento. Apesar da web semântica ser algo descomplicado, na sua visão, ainda faltam especialistas na área, pessoas que entendam as tecnologias e realmente saibam colocar a mão na massa.
Para quem quiser, dá para baixar os slides da apresentação de Herman.
Veja também: Como a BBC ‘reutiliza’ a web
Paralela à 1ª Conferência Web do W3C Brasil aconteceu o Transparência Camp, encontro que reuniu pessoas de diversas áreas para debater e criar aplicativos em torno de dados públicos disponíveis. Foi uma continuidade ao Transparência Hack Day, que aconteceu em outubro.
Ao final, dois aplicativos foram apresentados:
1) SACSP, que mostra em um mapa de São Paulo as reclamações feitas por moradores da cidade. A maioria das reclamações é relacionada à jardinagem (poda de árvores e corte de mato).
O interessante delas estarem plotadas em um mapa é a possibilidade de visualizar melhor quais regiões da cidade são mais problemáticas, além de ter um ranking dos tipos de reclamações.
Para isso, a ferramenta utiliza dados do SAC (serviço de atendimento ao cidadão) da Prefeitura de São Paulo. No caso, o Bruno Barreto, que criou o site, teve que fazer um processo de “raspagem de dados”. Ou seja, pegar os dados do site da prefeitura e passá-los para um formato aberto, mais maleável e que permita a criação de mashups.
A previsão é que, no futuro, o SACSP libere o acesso público à API.
2) Legisdados, por sua vez, surgiu durante o Transparência Hack Day. Foi desenvolvido pelo pessoal do Parlamento Aberto.
Semelhante ao SACSP, faz um trabalho de “raspagem de dados”. Extrai dados sobre projetos de leis do site da Câmara Federal e passa-os para formatos abertos. A ideia é ser uma espécie de repositório de dados que já foram “raspados” (estão em formatos abertos), o que facilitará o trabalho futuro de outros desenvolvedores que quiserem criar aplicativos em torno de informações públicas.
Vale lembrar que os dois projetos ainda estão em estágio de desenvolvimento inicial, logo podem apresentar problemas e algumas funções incompletas.
Antes da apresentação dos projetos desenvolvidos no Transparência Camp, aconteceu um debate sobre dados públicos, que contou com a presença de Wagner Diniz, gerente do escritório do W3C no Brasil; Roberto Aguine, do Gati (Grupo de Apoio Técnico à Inovação da Secretaria de Gestão Pública, do Governo do Estado de São Paulo); e Marcelo Stopanoveski, da Controladoria Geral da União.
Em resumo, acredito que três pontos importantes foram levantados durante o debate. Um deles, é necessário uma linguagem menos técnica nos sites de transparência governamental.
Transparência e disponibilização de dados abertos não podem se resumir a fiscalizar e controlar a corrupção. É comum associar dados abertos ao combate à corrupção, mas a ideia deve ir além disso, ser um instrumento para uma gestão mais próxima das demandas da sociedade.
E ainda. É preciso haver um debate sobre o licenciamento dos dados públicos. É permitido o uso comercial desses dados? Com qual licença específica os dados serão disponibilizados? Quem produz os mashups e aplicativos precisa de uma segurança jurídica?
Outro Transparência Camp está previsto para acontecer.
Desta vez, em Brasília e no começo de dezembro.
Veja também:
Quem tem medo da internet?
Nesta segunda-feira, estive na 1ª Conferência Web do W3C, em São Paulo. E uma das principais ideias mostradas por Patrick Sinclair, engenheiro de software da BBC Audio and Music Interactive e palestrante do evento, é a de que o grupo de mídia britânico utiliza a “web como um CMS de seu site” (sistema de gestão de conteúdo de seu site).
É uma visão um pouco diferente de grupos de mídia que veem a web apenas como uma plataforma de distribuição. A BBC, por exemplo, constrói o seu site de música, o BBC Music, em parte com base em dados de sites de conteúdo aberto, como Wikipedia e MusicBrainz (banco de dados sobre música).
Ou seja, em vez de reinventar a roda, a BBC tem uma política de reutilizar conteúdo relevante produzido na web. Os perfis dos artistas são criados com conteúdo do verbete equivalente na Wikipedia, além de músicas disponíveis no MusicBrainz.
A apresentação de Patrick se resumiu a mostrar o case da BBC.
Nesse posicionamento, que começou em 2007, o número de páginas da BBC Music pulou de 3 mil para 500 mil. Sem contar que os sites deixaram de ser desenvolvidos separadamente e com dados que não se “falavam”. Hoje diversas informações estão linkadas e sincronizadas.
Em alusão ao termo “findability” (conteúdo fácil de ser encontrado), o engenheiro de software utilizou, em sua apresentação, a palavra “tweetability” para demonstrar a preocupação que deve existir em tornar um conteúdo fácil de ser propagado no Twitter.
Nesta terça-feira, acontece a 2ª parte da Conferência do W3C.
Paralelamente acontece o Transparência Camp.
Atualização - Patrick disponibilizou a sua apresentação no slideshare.
Veja também:
Princípios de um projeto web, segundo a BBC
Crédito da foto: Juliana Molina
Patrick Sinclair é engenheiro de software da BBC Audio and Music Interactive. Faz parte da equipe responsável pelo uso de APIs e padrões abertos na disponibilização do acervo da emissora.
Ele estará no Brasil nos dias 23 e 24 de novembro para participar como palestrante da 1ª Conferência Web, do escritório do W3C Brasil, que acontecerá em São Paulo.
As inscrições estão abertas. Detalhes aqui.
Veja também:
O que aconteceu no 1º Transparência HackDay
RSS para acompanhar como cada político vem votando a pauta da Câmara, mashup para confrontar dados sobre o desmatamento na Amazônia e um mapa para identificar a demanda por escolas voltadas para educação adulta foram alguns dos projetos (“hacks”) desenvolvidos e apresentados durante o Transparência Hack Day, que eu acompanhei neste final de semana, na Casa de Cultura Digital, em São Paulo.
O encontro, que reuniu pessoas de diversas áreas para criar aplicativos em torno de dados públicos disponíveis, foi organizado pelo projeto Esfera, responsável pela clonagem do Blog do Planalto.
Além de um RSS para poder acompanhar a votação de cada político, o Parlamento Aberto tem a proposta de fornecer uma interface que permita visualizar os votos de cada deputado e senador. E ainda simular uma votação, onde você também pode votar nos mesmos tópicos dos políticos. Essa simulação acontece para que, no final, você possa confrontar os seus votos com os dos deputados e, a partir disso, descobrir com qual você tem mais afinidade política. Algo parecido ao que o Last.fm já faz na área de música, mas voltado para a área política.
O tr3e, por sua vez, confronta dados sobre o desmatamento na Amazônia. Atualmente, existem várias metodologias para mensurar a derrubada de árvores e que, muitas vezes, entram em conflito e são utilizadas para fins eleitoreiros. O tr3e tem o objetivo de confrontar e mostrar esses dados em uma interface do Google Maps para evitar distorções.
A partir de dados públicos do Ministério da Educação, o Mapa da EJA (Educação para Jovens e Adultos) mostra em um mapa todas as escolas que fornecem educação para adultos no Brasil. O objetivo é não somente mostrar onde essas escolas estão localizadas (algo difícil de visualizar por outros meios), mas identificar a demanda por esse tipo de educação no Brasil. A ideia, mais pra frente, é que as pessoas possam complementar essas informações plotadas no mapa.
Ademais, outros projetos foram apresentados. Um deles é um protótipo de um sistema de votação online para os cargos na USP. No caso, os próprios alunos
podem votar de forma remota. Outro, um mashup para mapear o lixo eletônico em todo o país. E ainda uma espécie de API (não oficial) para o projeto Excelências, da Transparência Brasil, e outra para a seção de fotos da Agência Brasil (o ABrCrawl).
O interessante é que esses dois últimos foram feitos em sites de informação que estão no ar, mas que apesar de terem uma abordagem de abertura de informações, não fornecem os seus dados de forma amigável e legível para computadores.
O trabalho é um pouco de “raspagem de dados”. Ou seja, extrair esses dados dos sites da Transparência Brasil e da Agência Brasil e passá-los para um formato aberto, tornando-os mais maleáveis, para que outras pessoas possam mesclá-los com outros dados e informações.
Vale lembrar que, em sua maioria, esses “hacks” estão em uma fase bem inicial, mais de conceituação e desenvolvimento (podem apresentar alguns erros). Neste momento mesmo, alguns deles estão sendo desenvolvidos. Todos foram apresentados no domingo, mas começaram a ser desenvolvidos e conceituados um dia antes, semelhante à dinâmica de outros eventos estilo “Hack Day“.
O Transparência Hack Day, na realidade, começou já no sábado de manhã, com Roberto Agune, do Gati (Grupo de Apoio Técnico à Inovação da Secretaria de Gestão Pública) apresentando o projeto do Portal Governo Aberto, do Governo estadual, que fornecerá 11 bases de dados sobre informações públicas (desemprego, PIB, condição de vida etc.).
Dados que já são públicos, mas serão disponilizados em padrão aberto e formato “amigável”, o que permitirá o desenvolvimento de aplicativos que possam melhorar o seu entendimento. Um preview do portal foi mostrado durante o Transparência Hack Day (imagem acima).
Na ocasião, a SEADE (fundação responsável pela análise de dados estaduais) aproveitou para distribuir um CD com dados públicos – cerca de 40 indicadores sobre todos os municípios do Estado de São Paulo. Os dados foram solicitados anteriormente pelos organizadores do Hack Day.
O projeto do Portal Governo Aberto está sendo feito em parceria com o escritório do W3C no Brasil. Aliás, o W3C também está em negociação com a Casa Civil para uma parceria para disponibilizar dados sobre as obras do PAC.
Vagner Diniz, gerente do escritório no Brasil, também presente no Hack Day, contou algo que chamou a minha atenção, além de governos, o W3C está com foco também em orientar, “evangelizar”, emissoras, jornais e rádios para que disponibilizem seu acervo em padrão aberto, o que vai ao encontro do que já está sendo feito lá fora com o NYTimes, BBC e Guardian, ao liberar o acesso público às suas APIs.
No período da tarde, Pedro Valente, jornalista e desenvolvedor, explicou como utilizar o YQL, ferramenta do Yahoo! que facilita a coleta de dados públicos na web, seguido pelo professor Sérgio Amadeu, da Faculdade Cásper Líbero, que falou sobre cidadania digital.
O que ficou evidente no debate da manhã é que os dados públicos existem, eles estão acessíveis para qualquer pessoa e os governos têm disposição em fornecê-los. O problema é o formato. Esses dados, na maioria das vezes, quando disponilizados na web, estão em formato pdf ou algo parecido que não permite a leitura por máquinas e impossibilita a criação de aplicativos e interfaces interativas e amigáveis para visualizar e interagir com essas informações.
Uma coisa é os dados poderem ser lidos por pessoas. Outra coisa é por computadores, serem utilizados de forma automática. Enfim, adianta muito pouco oferecer os dados em padrões não-abertos, legível apenas para pessoas. O grande diferencial é esses dados poderem ser lidos automaticamente por computadores, o que abre espaço para fazer cruzamentos e data mining, possibilidade que não existia enquanto esses mesmos dados não estavam digitalizados. A partir desses cruzamentos, é possível descobrir nuances e tendências que antes não eram perceptíveis.
Atualmente, é possível ter acesso a maioria dos dados que é considerada pública. Mas, dependendo do caso, é necessário fazer um ofício para o órgão responsável, justificar o uso e esperar um certo tempo para receber as informações que, na maioria das vezes, virão impressas e desatualizadas, já que se toma como referência a data em que foi feito o pedido de acesso aos dados.
Dinâmica que muda totalmente quando esses dados são oferecidos de forma aberta na web e com uma licença que permita o seu uso sem tantas restrições.
Para mim, o Transparência Hack Day foi bem positivo. Foi o primeiro deste tipo no Brasil. O que vai ajudar a fomentar que sejam realizados outros no país, sempre pensando em como utilizar a rede por uma maior transparência política. O encontro, claro, teve um caráter de provocação, sobre a importância de liberar os dados em formatos abertos, deixando para a sociedade a criação de ferramentas, interfaces e recursos que tornem mais fácil o seu entendimento.
Pessoalmente, foi ótimo para fazer mais contatos com desenvolvedores que estão por dentro dessa questão de “dados abertos” (jornalismo de dados) e aprender um pouco mais sobre APIs.
Para saber mais sobre o encontro e os seus desdobramentos, é só seguir a hashtag #thackday.
Veja também:
Como foi o seminário sobre mídia na Cásper Líbero