Certificado del Curso de Periodismo de Datos
Aniversario Perú
soy Biólogo, PhD. Hobbies: investigador en usos de las TIC, periodismo de datos, nerd, etc.Entrega de certificados
A los amixers que ya han pagado para recibir su certificado les pido un poco de paciencia. Los certificados estarán saliendo en un par de semanas. Estamos esperando que se acumulen un buen número de certificados para imprimirlos todos y enviarlos por SERPOST o email
Tal como se dijo al comienzo, este curso es gratuito pero la entrega de certificados tiene un costo por gastos administrativos. Se entregará certificados a nombre del Blog Útero de Marita siempre y cuando cumplas con dos condiciones:
- Examen final: que consiste en la entrega por email de la solución a las tareas de este curso. Máximo 1 hoja A4.
- Depósito de 86 nuevos soles (aprox. 30$) a la cuenta bancaria de la producción del blog en el Banco BCP (te doy la cuenta por inbox cuando envíes el examen final).
El curso online de Periodismo de Datos terminó la semana pasada luego de poco más de 12 semanas de estudio.
Aquí les dejo un resumen rápido del curso:
Capítulo 1
- Introducción al tema. Algunas definiciones y uso del programa curl para descargar las miles de normas jurídicas emitidas por el Ministerio de Justicia durante el segundo gobierno aprista.
Capítulo 2
- Cosechando datos en búsqueda de narcoindultados. Usando el comando grep se pudo encontrar que VALENZUELA MENESES, EDWIN JAVIER se ganó con una conmutación de pena de 12 a 6 años mediante firma de Aurelio Pastor y Alan García.
Capítulo 3
- Haciendo OCR con tesseract. Mucha de la información que provee el Estado está en forma de archivos PDF de muy mala calidad. Por lo general se escanean papeles impresos para armar los PDF. En este capítulo vimos una manera de procesar OCR a muchos PDF de una manera rápida.
Capítulo 4
- Quiz número 1. En este capítulo vimos cómo usar los programas curl y grep para contar el número de saludos oficiales emitidos por el Congreso peruano.
Capítulo 5
- Respuestas al quiz. Averiguamos que el Congreso había emitido 3,648 saludos oficiales en lo que va de este gobierno.
Capítulo 6
- Averiguamos cuál congresista emitió mayor número de saludos oficiales. Aprendimos a usar OpenRefine para corregir, y pulir los datos que consistían en la lista de congresistas que aparecen como firmantes en cada moción de saludo oficial.
Capítulo 7
- Ranking de congresistas saludones. Usando la lista curada de saludos por cada congresista, pudimos averiguar que el congresista Agustín Molina lidera el ranking con 576 saludos oficiales emitidos. Esto derivó en una nota periodística de Jona Castro para el programa Sin Medias Tintas de Frecuencia Latina.
Capítulo 8
- Usando Tabula. A veces existe la necesitad de extraer tablas conteniendo números y cantidades a partir de archivos PDF de reportes financieros. Con Tabula esto es tan sencillo como seleccionar la tabla y los números serán extraídos como por arte de magia.
Capítulo 9
- Fiscalizando viajes de los congresistas. En este capítulo usamos tuits georeferenciados emitidos por nuestros congresistas para ver si tuitean desde lugares del extranjero.
Capítulo 10
- Averiguando si los congresistas viajan con autorización del Congreso. Siguiendo la pista de los congresistas a través de sus tuits, averiguamos que la congresista Carmen Omonte estuvo tuiteando desde la Isla de Pascua durante el día 29 de Marzo del año 2013. No se pudo encontrar tal autorización en las actas del Congreso de la República.
Capítulo 11
- Averiguando en qué hotel se hospedan los congresistas durante sus viajes al extranjero. Usando lo tuits que emitió la congresista Carmen Omonte durante su viaje a Madrid, pudimos averiguar que se hospedó en el hotel NH Alcalá que está en el rango medio hoteles (alrededor de 100-80 Euros por persona por noche).
Capítulo 12
- Posibilidades de periodismo creando bases de datos. Aquí doy una breve introducción al desarrollo de aplicaciones del tipo data-driven journalism.