Caja de herramientas para el periodismo de datos

cifras

“Esto es un acorde. Este es otro. Este es el tercero. Ahora, forma una banda”. Diagrama publicado en la revista punk británica Sideburns en el año 1977

El periodista británico Simon Rogers, editor especializado en periodismo de datos del diario británico The Guardian, utilizó esta imagen en una intervención en las Ted Conferences para ilustrar su teoría de que el periodismo de datos “es el nuevo punk” porque “todo el mundo puede hacerlo”. Rogers acude a este símil para espantar los temores de quienes creen que para adentrarse en el llamado periodismo de datos o de precisión es preciso saber programar o ser un genio de las matemáticas. Como siempre en periodismo, lo esencial es saber cuáles son las preguntas adecuadas y dónde encontrar las respuestas. En este caso dichas respuestas vienen dadas por datos, y por ello es preciso conocer algunas herramientas básicas para dar con ellas. Los tres acordes necesarios para el periodismo de datos están disponibles en muchos de los equipos con los que trabajamos habitualmente: una hoja de cálculo (Excel, Google Docs…), un programa para limpiar y homogeneizar dichos datos (Refine) y una herramienta que permita realizar visualizaciones básicas tipo Fusion Tables, o .  El kit básico del periodista de datos puede componerse pues de apenas tres programas disponibles en la red de manera gratuita y que, de hecho, son utilizados no solo por periodistas que trabajan como freelancers sino también por grandes medios de comunicación y otras organizaciones especializadas en periodismo de investigación como Pro Publica. Aquí tienes algunos ejemplos de mapas realizados con Fusion Tables por medios de comunicación tradicionales:

Para proyectos que impliquen trabajar con grandes bases de datos sí será necesario utilizar sistemas de gestión más avanzados como Microsoft Access, y si lo que queremos es generar ambiciosas visualizaciones interactivas necesitaremos trabajar mano a mano con los equipos de diseño y desarrollo web. Pero con las herramientas básicas mencionadas puedes importar, limpiar, analizar y visualizar cientos de miles de celdas. Sea cual sea el tipo de datos con los que vas a trabajar, la hoja de cálculo será tu herramienta esencial de trabajo. De hecho, con ella podrías realizar el proceso desde principio a fin si los datos fuesen homogéneos y estuviesen bien estructurados. Lamentablemente, esto sucede poco a menudo. Las hojas de cálculo más utilizadas son Excel y Google Docs (gratuita), y en la propia red puedes encontrar numerosos manuales y vídeos para aprender a utilizarlos. Si partes de un nivel básico, te recomiendo que consultes los cursos impartidos en Medialab Prado, disponibles a través de su web. Si ya te sientes cómodo manejando las funciones básicas de una hoja de cálculo puede que te resulten de interés guías como Mr Excel.com o la propia . En ellos encontrarás indicaciones para funciones que van desde insertar nuevas filas o columnas hasta cómo generar gráficos múltiples. Si optas por la hoja de cálculo de Google, quizás te interese empezar por un manual básico como el que ofrece AulaClic. Una vez que te familiarices con cualquiera de ellas verás que las funcionalidades son muy parecidas y que solo precisas un poco de intuición para moverte cómodamente por herramientas similares. Conseguir que un organismo público, una empresa o cualquier otro tipo de organización  entregue la información solicitada en un formato en el que resulte fácil procesarla no siempre es tarea fácil. Si nos dan a elegir, uno de los más comunes y fáciles de utilizar es el CSV (valores separados por comas). Sin embargo, en ocasiones nos encontraremos con que la única manera de acceder a ellos es sacándolos de la página web del organismo en cuestión. Es lo que se conoce como web scraping, y para hacerlo también existen numerosas herramientas disponibles. En este enlace (http://medialab-prado.es/mmedia/10528/view) puedes ver el taller de web scraping impartido por el desarrollador Juan Elosúa con el sugerente título de “Ninguna web es inexpugnable”. Elosúa ha participado en proyectos como España en llamas, que compila abundante información sobre los más de 170.800 incendios registrados en España entre 2001 y 2010; y El indultómetro, que aglutina los más de 10.000 indultos otorgados en España desde el año 1996. Una vez incorporados los datos a la hoja de cálculo es muy probable que te encuentres con inconsistencias que te impiden analizarlos. El ejemplo más típico es el del nombre de personas, entidades o categorías. Por ejemplo, la misma persona puede figurar como “María González Ruiz”, como “M. González Ruiz” o como “Gonzalez Ruiz, María”. Para homogeneizar los datos (lo que se conoce habitualmente como limpiarlos), existen también programas gratuitos como Refine o Data Wrangler. En este enlace puedes ver el taller sobre el uso de Refine impartido por el programador David Cabo en Medialab Prado, utilizando como base las ayudas otorgadas a la industria cinematográfica; y aquí  un interesante ejemplo de cómo Pro Publica utilizó este programa para homogeneizar la información con la que generó su base de datos Dollars for Docs, en la que pueden consultarse los pagos realizados por los grandes laboratorios farmacéuticos a médicos estadounidenses entre 2009 y 2012.  Refine busca similitudes entre los datos y te los presenta agrupados para que le indiques si deben o no ser considerados dentro del mismo apartado o categoría, de manera que te señalará “María González Ruiz” y “M.G.R.” para que tú determines si deben considerarse o no la misma persona.

Dollars for Docs, de Pro Publica

Una vez limpiados, los datos están listos para ser analizados. Y parte del análisis puede venir de la propia visualización de los mismos, que a menudo te permite detectar tendencias o magnitudes que quizás no formaban parte de tu hipótesis inicial de trabajo. La veterana periodista Sharon Machlis ha elaborado una completa guía con “30 + herramientas gratuitas para visualización y análisis de datos”  en la que no solo encontrarás reseñas bastante completas sobre cada programa, sino que además puedes clasificarlos en función del nivel de conocimientos necesarios para poder utilizarlos con facilidad. En el nivel 1, adecuado para usuarios que simplemente se sienten “cómodos” con las tareas básicas de una hoja de cálculo, figuran programas como Google Fusion Tables o Many Eyes. Para tu lista de favoritos te dejo algunos enlaces que pueden resultarte de interés:

  • The Data Journalism Handbook.  Un trabajo en el que han colaborado decenas de profesionales de todo el mundo y que es la guía por antonomasia en la que encontrarás todo lo esencial. Puedes consultarla de manera gratuita por la red o bien adquirir una versión impresa o para Ebook. La obra sigue construyéndose con aportaciones nuevas y en la propia web puedes registrarte para recibir avisos cuando se incorporan capítulos nuevos.
  • Curso de Periodismo de Datos de Medialab Prado. Abarca todos los pasos del proceso, incluyendo sesiones sobre cómo importar datos de una página web o cómo convertir documentos a formatos reutilizables.
  • Datablog de The Guardian. El diario británico es, sin lugar a dudas, la referencia mundial en materia de periodismo de datos. Este blog no solo publica sus informaciones basadas en datos, sino que además detalla cómo han realizado, qué herramientas han utilizado, qué proceso han seguido, etc, etc.
  • The ProPublica Nerd Blog. Un espacio en el que esta organización sin ánimo de lucro especializada en periodismo de investigación pone sus aplicaciones tecnológicas al servicio de los ciudadanos, detalla cómo las ha desarrollado y ofrece guías para que otros desarrolladores puedan hacer uso de sus herramientas.
  • NACION Data.Blog del diario argentino La Nación, inspirado en el Datablog, en el que comparten informaciones, proyectos y coberturas basados en el uso de datos.
  • Data Driven Journalism.  Página de recursos para quienes quieran iniciarse en esta disciplina en la que podrás encontrar decenas de guías y recomendaciones: desde cómo visualizar conexiones en Twitter usando Gephi hasta una guía de blogs para familiarizarse con la estadística, pasando por manuales para familiarizarse con las bases de datos públicas más utilizadas.

Para terminar, una cita: del 24 al 28 de abril se celebra en la localidad italiana de Perugia el  International Journalism Festival y, dentro del mismo,  ha sido convocada la segunda edición de la School of Data Journalism. Destacados profesionales de medios como The New York Times, The Guardian  o Spiegel Online debatirán sobre cómo utilizar los datos como herramienta básica en el periodismo de investigación o cómo cubrir emergencias en la era del Big Data. Además se organizarán grupos de trabajo que van desde el siempre necesario ‘Excel para periodistas’ hasta ‘Cómo usar la API de Twitter en periodismo’ o ‘Guía de supervivencia sobre visualización de datos’.  Como podéis observar, los títulos de los talleres cambian, pero la base es siempre la misma: saber cómo y dónde conseguir la información; dominar el uso de la hoja de cálculo para importarlos, estructurarlos y analizarlos; y generar visualizaciones básicas que te permitan sacar conclusiones informativas relevantes. El acceso a los talleres de trabajo es gratuito y las sesiones probablemente serán ofrecidas posteriormente en la página de la organización. Y, si todavía no lo has hecho, no dejes de ver la intervención de de  Simon Rogers en la TEDxPantheonSorbonne: “Data journalists are the new punks”. Esto es un acorde. Este es otro. Este es el tercero. Ahora, haz periodismo de datos.   Lydia Aguirre Subdirectora de EL PAÍS

Comentarios cerrados.

MENU
Read previous post:
mailseduccion (2)
El Email Marketing como arma de seducción

Si queremos fidelizar al usuario que recibe nuestras comunicaciones primero hay que conquistarlo con un contenido relevante y de calidad....

Close