Aniversario Perú Lunes, 8 junio 2015

No vas a creer los 17 comentarios sobre datos abiertos que tenemos para la Secretaría de Gestión Pública

Aniversario Perú

soy Biólogo, PhD. Hobbies: investigador en usos de las TIC, periodismo de datos, nerd, etc.

La Secretaría de Gestión Pública, la cual pertenece a la Presidencia del Consejo de Ministros, quiere entrar a la onda de datos abiertos.

2015-06-06_secretaria_gestion_publica

Ha elaborado unos documentos que describe la Estrategia Nacional de Datos Abiertos y ha invitado a el público en general que analice y opine, critique, trolee, etc.

Aquí está la propuesta del Estado en 2 documentos: http://www.gestionpublica.gob.pe/foro/viewtopic.php?f=7&t=4

La idea principal de dicha estrategia es digitalizar una variedad de datos que contiene el Estado Peruano, y hacerlos disponibles a los ciudadanos, periodistas de datos, investigadores y emprendedores, con fines de investigación y periodismo. Todos estos datos estarán disponibles de manera abierta (#datosAbiertos).

2015-06-06_ofertas_de_datos

La propuesta está en algo, son bonitos deseos y anhelos, pero creemos que le falta sustancia a la parte técnica. Y sobre todo faltan marcar los objetivos claros sobre la cancha.

Creemos que la idea es buena, pero la estrategia será más concreta y menos gaseosa si se le añaden algunas cositas. Por eso en colaboración con mi amixer @McPollo hemos enumerado algunas ideas y comentarios:

Alcance

  1. Qué instituciones estatales digitalizarán sus datos? cuántas?
  2. Qué datos se harán disponibles? El registro de visitas del Congreso?
  3. Según esta estrategia, el Congreso dejará de publicar los resultados de las votaciones en hojas impresas en la EPSON MX-80?
Esto no se puede parsear automáticamente.

Esto no se puede parsear automáticamente.

Ya es hora de cambiar de impresora.

Ya es hora de cambiar de impresora.

Sugerencias y dudas a nivel técnico

  1. Los documentos de la gran estrategia indican que quieren emitir datos abiertos en los siguientes formatos: JSON, XML, RDF, ODF, CSV, etc. No sería suficiente que publiquen los datos en un solo formato? Mantener el software que emita tantos formatos no es tarea fácil. Además para qué tanta repetición? Pueden hacer mejor uso de su capital humano en otras tareas.
  2. Instituciones como el Poder Judicial tiene decenas de GB de info para liberar. Solo las sentencias de la Corte Suprema del año 2013 pesan 11 Gigabytes. Tienen la infraestructura para que los ciudadanos puedan descargar esta info sin tumbarse sus servidores? No sería bueno que usen torrents para que aligeren la carga y faciliten a que los ciudadanos interesados compartan la información entre ellos sin necesidad de exigir demasiado a los servidores del Estado? Algunos dirán: pero en los torrents solo se comparte material pirateado. Déjame decirte que:

2015-06-06_yon_snow

  1. Por alguna razón el Estado no quiere que Google y demás indexen sus contenidos. Varias webs del Estado tienen el parámetro Disable * en el archivo robots.txt, lo cual impide que el contenido sea indexable por Google. Francamente no entiendo. Por qué publicar datos en la web pero darse el trabajo de mantenerlo oculto (si no está indexado por Google está oculto, casi invisible). Si no quieren que nadie descubra y vea el contenido que publican en la web entonces para qué lo publican? No entiendo.
2015-06-06_hiperderecho

Tomado de la web de Hiperderecho.

 

  1. No solo los datos deben ser abiertos, también el software que sostiene y emite los datos abiertos debe ser publicado para dar chance a que el público mejore sus sistemas. Publicar el código sería riesgoso ya que hackers podrán saber cómo vulnerar los sistemas y robarse los datos. Cierto, pero solo si tu código de programación es inseguro. Si desarrollas código robusto no habría ningún riesgo. Desde hace tiempo el gobierno de Estados Unidos publica varias herramientas, APIs, y código fuente en la web. Todos pueden ver, modificar, mejorar etc. Han publicado su código en esta red social https://github.com/unitedstates. A manera de ejemplo, nosotros hemos elaborado estas propuestas de manera pública y colaborativa usando Github (aquí el respositorio).
  2. Cuántos repositorios de datos abiertos serán disponibles? para cuando? Necesitan publicar un un cronograma.
  3. Uno de los problemas de sincronizar los datos abiertos es que resulta tedioso que los usuarios actualicen sus datos cuando la entidad estatal publique datos nuevos, o modifique datos antiguos. Los usuarios tendrían que descargar TODOS los datos TODOS los días para hacer comparaciones y averiguar si han habido modificaciones o no. Esto es lento para los usuarios y fastidioso para los servidores del Estado ya que tendrían que servir los mismos datos a cada rato. A manera de solución, existe el proyecto dat. dat es una herramienta para sincronizar datos que funciona manteniendo versiones o snapshots del estado actual de los datos que se tengan que compartir. Entonces cuando uno quiere sincronizar los datos, el sistema dat se da cuenta de cuáles son aquellos datos nuevos y/o modificados y procede a descargarlos. Ya no tienes que descargar todos los millones de datos, solo descargas aquellos pocos que son generados de un día para otro. Los nerds se darán cuenta que este sistema es como Git pero para datos. Por eso se llama dat.

Sugerencias y dudas a nivel administrativo

  1. Me gusta que la Secretaría de Gestión Pública pida comentarios y sugerencias a su estrategia, pero quieren que sean enviadas (opcionalmente) por email. Deberían comenzar de una buena vez a trabajar de manera abierta, por ejemplo abriendo un Repositorio en Github y que la gente comente y sugiera de manera pública en tal red social. Así podemos ver qué propuestas se hacen y, más importante, ver si eventualmente nos escucharán, ver si realmente están interesados en nuestro feedback. Sería malazo que no les interese nuestra opinión y solo pidan feedback por cumplir.
  2. A esa estrategia/plan le falta un cronograma o calendario. Esto es básico. Toda propuesta, estrategia o plan necesita un calendario delineando los objetivos y para cuándo se espera lograrlos. A veces uno logra sus objetivos si existen fechas límite para entregar los productos. Además sirve para ir evaluando el progreso del trabajo. Vamos muy lento? necesitamos más personal? etc. Pero ya ustedes saben esto ya que pertenecen a la oficina de Gestión pública, no?
  3. Por ejemplo, dentro de 6 meses qué parte del sistema de #datos abiertos estará implementado?
  4. Cuál es el equipo que tienen para hacer esta monumental tarea?
  5. Cuántos programadores tienen contratados o piensan contratar?
  6. Cuantos «digitalizadores» estarán asignados para cada institución del Estado.
  7. Ya han contratado el personal? para cuándo los contratarán y cuántos?

Sugerencias sobre el proceso

  1. Es necesario que se aclare la legislación actual respecto a las bases de datos con datos personales. El caso datosperu es un ejemplo patente del conflicto entre la Ley de Transparencia y Ley de Datos Personales. Según una ley se puede publicar nombres y apellidos de funcionarios públicos relacionados a ciertos hechos administrativos, pero según la otra ley esto no se puede hacer. Abogados conocedores de estos temas me dan opiniones totalmente opuestas.  Quizá esto no sea de su ámbito, pero una estrategia con leyes confusas no será muy efectiva en alcanzar sus objetivos. Obviamente la ley no está clara. Nadie quiere que los usuarios de sus datos abiertos terminen sentenciados a multa/cárcel. A no ser que esta sea una muy elaborada trampa:

trap

La fecha límite para enviar comentarios y/o sugerencias a la Secretaría de Gestión Pública es del 10 de Junio. Ahorita nomás!

Así que, Secretaría de Gestión Pública, si estas leyendo, esto es para ti. Con cariño.

Aniversario Perú

soy Biólogo, PhD. Hobbies: investigador en usos de las TIC, periodismo de datos, nerd, etc.