Caixa de ferramentas para o jornalismo de dados

“Isto é um acorde. Isto é outro. Este é o terceiro. Agora, forma uma banda”. Diagrama publicado na revista “punk” britânica Sideburns em 1977.

O jornalista britânico Simon Rogers, editor especializado em jornalismo de dados do diário britânico The Guardian, utilizou esta imagem numa intervenção nas Ted Conferences para ilustrar a sua teoria de que o jornalismo de dados “é o novo punk” porque “toda a gente pode fazê-lo”. Rogers recorre a esta comparação para afastar os temores de quem acredita que para entrar no chamado jornalismos de dados ou de precisão é preciso saber programa ou ser um gênio da Matemática. Como sempre no jornalismo, o essencial é saber quais são as perguntas adequadas e onde encontrar as respostas. Neste caso, as ditas respostas são fornecidas por dados, e como tal, é preciso conhecer algumas ferramentas básicas para as encontrar. Os três acordes necessários para o jornalismo de dados estão disponíveis em muitos dos equipamentos com que trabalhamos habitualmente: uma folha de cálculo (Excel, Google Docs…), um programa para limpar e homogeneizar os ditos dados (Refine) e uma ferramenta que permita realizar visualizações básicas tipo Fusion Tables, ou .  O kit básico do jornalista de dados pode ser composto por apenas três programas disponíveis na rede de forma gratuita e que, de fato, são utilizados não só por jornalistas que trabalham como freelancers como também por grandes meios de comunicação e outras organizações especializadas em jornalismo de investigação como a Pro Publica. Aqui tem alguns exemplos de mapas realizados com o Fusion Tables por meios de comunicação tradicionais:

Para projetos que impliquem trabalhar com grandes bases de dados sim, será necessário utilizar sistemas de gestão mais avançados como o Microsoft Access, e se quisermos gerar ambiciosas visualizações interativas necessitaremos de trabalhar ao lado de equipas de design e desenvolvimento web. Mas com as ferramentas básicas mencionadas pode importar, limpar, analisar e visualizar centenas de milhares de células. Seja qual for o tipo de dados com que vai trabalhar, a folha de cálculo será a sua ferramenta de trabalho essencial. De fato, com ela poderia realizar o processo do princípio ao fim se os dados fossem homogêneos e estivessem bem estruturados. Lamentavelmente, é raro isso acontecer. As folhas de cálculo mais utilizadas são o Excel e o Google Docs (gratuito), e na Internet pode encontrar vários manuais e vídeos para aprender a utilizá-las. Se partir de um nível básico, recomendo que consulte os cursos práticos da Medialab Prado, disponíveis no seu site. Se já se sente cômodo manejando as funções básicas de uma folha de cálculo, são interessantes guias como Mr Excel.com ou a própria . Aí encontrará indicações para funções que vão de inserir novas filas ou colunas a gerar gráficos múltiplos. Se optar pela folha de cálculo da Google, talvez seja interessante começar por um manual básico como o que é oferecido pela AulaClic. Depois de familiarizado com qualquer uma delas, verá que as funcionalidades são muito parecidas e que precisa apenas de um pouco de intuição para se mover comodamente por ferramentas semelhantes. Conseguir que um organismo público, empresa ou qualquer tipo de organização entregue a informação solicitada num formato fácil de processar nem sempre é tarefa fácil. Se nos derem à escolha, um dos vais comuns e fáceis se utilizar é o CSV (valores separados por vírgulas). No entanto, por vezes a única forma de aceder aos dados é retirá-los da página de Internet do organismo em causa. É o chamado web scraping, e para o fazer também existem várias ferramentas disponíveis. Nesta ligação (http://medialab-prado.es/mmedia/10528/view) pode ver o ateliê de web scraping partilhado pelo programador Juan Elosúa com o sugestivo título “Nenhum siteé inexpugnável “. Elosúa participou em projetos como España en llamas, que compila informação abundante sobre os mais de 170.800 incêndios registrados em Espanha entre 2001 e 2010; e El indultómetro, que aglutina os amis de 10 mil indultos outorgados em Espanha desde o ano de 1996. Uma vez incorporados os dados na folha de cálculo, é muito provável que se depare com inconsistências que o impedem de os analisar. O exemplo mais típoco é o do nome de pessoas, entidades ou categorias. Por exemplo, a mesma pessoa pode figurar como “María González Ruiz”, como “M. González Ruiz” ou como “Gonzalez Ruiz, María”. Para homogeneizar os dados (ou limpá-los, como se costuma dizer), existem também programas gratuitos como o Refine ou o Data Wrangler. Nesta ligação pode ver o ateliê sobre o uso do Refine partilhados pelo programador David Cabo da Medialab Prado, utilizando como base os apoios outorgados à indústria cinematográfica; e aqui um interessante exemplo de como a Pro Publica utilizou esse programa para homogeneizar a informação com que gerou a sua base de dados Dollars for Docs, em que se podem consultar os pagamentos realizados pelos grandes alboratórios farmacêuticos a médicos norte-americanos entre 2009 e 2012.  O Refine procura semelhanças entre os dados e apresenta-os agrupados para que indique se devem ou não ser considerados dentro do mesmo apartado ou categoria. Assinalará “María González Ruiz” e “M.G.R.” para que determine se deve ser considerada a mesma pessoa.

Dollars for Docs, de Pro Publica

Uma vez limpos, os dados estão prontos para ser analisados. E parte da análise pode vir da sua própria visualização dos mesmos, que ocasionalmente permite detectar tendências ou magnitudes que talvez não fizessem parte da sua hipótese inicial de trabalho. A experiente jornalista Sharon Machlis elaborou um guia completo com “30 + ferramentas gratuitas para visualização e análise de dados” em que não só encontrará resenhas bastante completas sobre cada programa, como também os poderá classificar em função do nível de conhecimentos necessário para poder utilizá-los facilmente. No nível 1, adequado para usuários que simplesmente se sentem “cômodos” com as tarefas básicas de uma folha de cálculo, figuram programas como o Google Fusion Tables ou o Many Eyes. Para a sua lista de favoritos deixou algumas ligações que podem ser interessantes:

  •  The Data Journalism Handbook.  Um trabalho colaborativo para o qual contribuíram centenas de profissionais de todo o mundo e que é o guia por excelência em que encontrará tudo o que é essencial. Pode consultá-lo gratuitamente na Internet ou adquirir uma versão em papel ou para Ebook. A obra continua sendo construída com novos contributos e pode registrar-se no site para receber avisos quando forem acrescentados novos capítulos.
  •  Curso de Jornalismo de Dados da Medialab Prado. Abarca todos os passos do processo, incluindo sessões sobre como importar dados de uma página de Internet ou como converter documentos para formatos reutilizáveis.
  •  Datablog do The Guardian. O diário britânico é, sem dúvida, a referência mundial em termos de jornalismo de dados. Este blog não só publica as suas informações baseadas em dados, como também detalha como foram realizadas, que ferramentas foram utilizadas, que processo foi seguido, etc., etc.
  •  The ProPublica Nerd Blog. Um espaço em que esta organização sem fins lucrativos especializada em jornalismo de investigação coloca as suas aplicações tecnológicas ao serviço dos cidadãos, detalha como foram desenvolvidas e oferece guias para que outros programadores possam fazer uso das suas ferramentas.
  •  NACION Data. Blog do diário argentino La Nación, inspirado no Datablog, em que são partilhadas informações de projetos e coberturas baseadas no uso de dados.

Data Driven Journalism.  Página de recursos para quem quiser se iniciar neste disciplina em que poderá encontrar dezenas de guias e recomendações: desde como visualizar ligações no Twitter através do Gephi até um guia de blogs para se familiarizar com a estatística, passado por manuais para se familiarizar com as bases de dados públicas mais utilizadas. Para terminar, uma data: de 24 a 28 de abril se celebra na localidade italiana de Perugia o  International Journalism Festival  e, dentro dele, foi convocada a segunda edição da School of Data Journalism. Destacados profissionais de meios como The New York Times, The Guardian  ou Spiegel Online debaterão as formas de utilizar os dados como ferramenta básica para o jornalismo de investigação ou como cobrir emergências na era do Big Data. Para além disso, serão organizados grupos de trabalho que vão do sempre necessário “Excel para jornalistas até “Como usar a API do Twitter no jornalismo ou “Guia de sobrevivência sobre visualização de dados. Como pode observar, os títulos dos ateliês mudam, mas a base é sempre a mesma: saber como e onde obter a informação; dominar o uso da folha de cálculo para a importar, estruturar e organizar; e gerar visualizações básicas que permitam retirar conclusões informativas relevantes. O acesso aos ateliês de trabalho é gratuito e as sessões serão provavelmente oferecidas posteriormente na página da organização. E, se ainda não o fez, não deixe de ver a intervenção de Simon Rogers na TEDxPantheonSorbonne: “Data journalists are the new punks”. Isto é um acorde. Isto é outro. Este é o terceiro. Agora, faz jornalismo de dados.   Lydia Aguirre Subdiretora do EL PAÍS.

Comments are closed.

MENU
Leer entrada anterior
O Email Marketing como arma de sedução

  Se queremos fidelizar o usuário que recebe as nossas comunicações, em primeiro lugar, temos de conquistá-lo com conteúdos relevantes...

Cerrar