Periodismo de datos. Capítulo 02

Aniversario Perú
soy Biólogo, PhD. Hobbies: investigador en usos de las TIC, periodismo de datos, nerd, etc.En el capítulo anterior demostré lo fácil que es descargar documentos públicos de los servidores del Ministerio de Justicia. Solo se necesitan 5 líneas de código de programación para descargar las 2,184 normas jurídicas (en formato PDF) emitidas durante el 2do gobierno del APRA.
En qué casos se puede descargar tantos documentos de manera tan fácil?
No toda la información que está en la Internet puede ser cosechada con 5 líneas de código. Pero hay indicadores que te pueden dar una idea si esto es factible:
- Los documentos han sido colgados en el servidor de manera continua y constante.
- La cantidad de documentos es considerable (varios miles de archivos).
Si esas condiciones cumplen, es muy probable que los administradores del sitio web estén usando algún software para asignar nombres a los archivos y mantener los documentos de una forma ordenada.
Entonces ya tu sabes que si se ha usado un software para colgar archivos, es posible crear otro software para descargar esos archivos.
Cómo cosechar información
Cuando tienes todos los archivos descargados es necesario hacer la búsqueda de información útil y relevante que sirvan para una historia o nota. Este proceso es conocido como análisis de datos («data analysis»).
Ya que leer 2,184 archivos PDF en búsqueda de información puede ser muy tediosa para un humano, esto es muy fácil para una computadora. Pero es necesario que toda la información esté como archivos de texto, en formato digital.
Un nerd puede convertir los 2,184 PDFs en texto usando una única línea de de comandos en una consola Linux:
ls | parallel -I {} pdftotext {}
Ahora ya la computadora puede leer todas las normas jurídicas en búsqueda de datos de importancia. Si usas Linux o Mac ya tienes en tu computadora instalado el comando grep
. Este es un comando poderoso que puede leer miles de archivos de texto en cuestión de segundos.
Aplicación práctica
Hace unos meses el tuitero @jgodoym alertó que de una noticia en Caretas donde un #narcoindultado fue capturado con varias toneladas de droga.
@rmapalacios hoy Caretas registra que un conmutado colombiano ha sido capturado en Piura con 3 toneladas y liderando banda.
— Jose Alejandro Godoy (@jgodoym) October 17, 2013
En 2009, sin embargo, Facundo Chinguel le redujo la pena a la mitad y el colombiano obtuvo su libertad en mayo del 2010.
Facundo Chinguel ya estaba preso, pero algunos sospechan que la responsabilidad puede ser imputada a servidores públicos de mayor jerarquía.
Teniendo el nombre del indultado se puede buscar en cuál de las normas jurídicas aparece mencionado.
@jgodoym tenes el nombre del conmutado plis? para buscarlo en mi lista de #narcoindultos
— Aniversario Peru (@AniversarioPeru) October 17, 2013
@AniversarioPeru Edwin Valenzuela
— Jose Alejandro Godoy (@jgodoym) October 17, 2013
Usando el poderoso comando grep
podemos buscar a Edwin Valenzuela en las 2,184 normas jurídicas en cuestión de 35 segundos.
grep -i Valenzuela *.txt | grep -i Edwin
Estos son los resultados:
04-02-11.txt:22. VALENZUELA PINARES, EDWIN, conmutarle de 05 años a 04 años de pena privativa 09-08-09.txt:MELGAREJO VALENZUELA, EDWIN RICARDO 19-08-06.txt:1.- EDWIN TORRES VALENZUELA 24-11-09.txt:1. VALENZUELA MENESES, EDWIN JAVIER; conmutarle de 12 años a 06 años de pena real 0m35.020s
@jgodoym gracias! sale esto: "VALENZUELA PINARES, EDWIN, conmutarle de 05 años a 04 años de pena privativa"
— Aniversario Peru (@AniversarioPeru) October 17, 2013
@jgodoym y este otro: "VALENZUELA MENESES, EDWIN JAVIER; conmutarle de 12 años a 06 años de pena"
— Aniversario Peru (@AniversarioPeru) October 17, 2013
@AniversarioPeru Ese es!! Condenado a 12 años, dice la nota de Caretas.
— Jose Alejandro Godoy (@jgodoym) October 17, 2013
Entonces, producto del análisis de datos, ya sabemos que el nombre completo del narcoindultado es VALENZUELA MENESES, EDWIN JAVIER. El texto 24-11-09.txt
nos indica que la resolución salió publicada el 24 de Noviembre del 2009. Y teniendo la fecha podemos reconstruir la dirección electrónica donde se encuentra la dichosa resolución:
http://spij.minjus.gob.pe/Normas/textos/241109T.pdf
Si revisamos el documento vemos que el idulto fue firmado por el ex-minitro Aurelio Pastor (páginas 32–33).
Este intercambio de tuits fue captado por @larryportera:
OJO. En pagina 32, el indulto de @aureliopastor a quien luego fue capturado con 4 toneladas (vía @AniversarioPeru ) http://t.co/zGD1boEVCB
— Pao Ugaz (@larryportera) October 17, 2013
Y al día siguiente salió una noticia mucho más completa en @larepublica_pe, incluyendo datos que no aparecieron en la nota de Caretas:
Según resolución suprema 268-2009, del 23 de noviembre del 2009, el presidente Alan García y el ministro de Justicia, Aurelio Pastor, redujeron la condena de 12 años de prisión impuesta al colombiano, a solo seis años de cárcel.
La resolución se publicó el 24 de Noviembre pero se firmó un día antes.
Como ves, si tienes a un nerd a la mano tienes la posibilidad de enriquecer tus nota periodísticas con datos adicionales.
Ojo, que no fue necesario poner toda la información en una base de datos. Se puede extraer información útil de una lista de archivos contenidos en una carpeta. Las bases de datos pueden ser muy útiles para el periodismo de datos, pero se pueden hacer cosas interesantes usando el simple comando grep
.
Dejaré la discusión sobre base de datos para un post futuro.
Más procrastinación
