En este primer episodio de mesa redonda de noticias en el mundo de Data Science se sumó Diego Arenas quien en últimos meses ha estado participando de unas cuantas conferencias de Datos Abiertos (OpenDataCon) y Big Data en Europa. Tomamos algunos temas interesantes y los fuimos cubriendo y discutiendo. Habrá mas de este tipo de episodios.
Diego Arenas comentó acerca de su participación en esta conferencia y sobre la evolución que se está dando con el movimiento de datos abiertos. Interesantemente ya se comienzan a ver algunos casos del sector privado generando modelos sostenibles con la utilización de datos y la creación de valor. Hablamos sobre modelos predictivos para fiscalizar municipios y el aporte a agricultores en Kenya.
Frans siempre está viendo lo nuevo en R y desde hace un tiempo está siguiendo el auge de Spark. Conversamos un poco acerca de la incorporación de Spark en el ambiente R a través de la librería sparklyR. Son muchas las empresas que están contribuyendo al ecosistema Spark y no podía faltar una integración desde R. Tocamos también Apache Kafka (streaming) y Apache Flink (streaming analytics).
Los microservicios tienen el potencial de dar mucha escalabilidad y flexibilidad en data pipelines. Estas arquitecturas modulares son clave para generar productos de datos que mezclan diversas herramientas y datos y a la vez son estables y funcionales. En esta sección hablamos un rato sobre los data lakes.
La ciencia de datos nos está permitiendo jugar al ajedrez como maestros, ganarle a campeones en GO, y pronto nos manejará los automóviles en las calles. Pero pocos imaginamos que los datos iban a estar a la altura de los artistas como Rembrandt! Diego trajo a la mesa el proyecto Fake Rembrandt desarrollado en Holanda donde con 150gb de 350 pinturas digitalizadas y mucho Machine Learning se pudo generar un cuasi-Rembrandt. Que mas nos darán los datos?