Suscripciones

Pachyderm: Reinventando Hadoop con contenedores

Episodio 26 - 2017-03-05


Dan Whitenack es actualmente científico de datos y lidera la comunidad de desarrollo de la empresa Pachyderm dedicada a facilitar la creación de data lakes que permiten versionado, escalabilidad y reproducibilidad además de poder administrar fácilmente el dataducto.

Durante la entrevista Dan nos pudo contar acerca de sus estudios de grado en Física y Computación y como su carrera lo fue llevando hacia Data Science para luego ponerse en contacto con 2 AirbBnB-ers, Joe y JD del equipo de infraestructura de datos, que buscaban traer innovación a la forma en que los científicos de datos preparan sus data pipelines y la infraestructura para lograr procesos escalables.

Cuando hacemos análisis de datos es clave poder mantener la integridad de los datos y procesos de ingreso y salida de datos de los dataductos. La posibilidad de colaborar con gente, reproducir lo que se hace, encontrar errores fácilmente y contar con herramientas que permitan escalabilidad es clave para el desarrollo de la práctica de ciencia de datos.

Hablamos sobre el concepto de Provenance que es diferente a reproducibilidad. Se trata de la habilidad de entender bien cuales son los datos y sus transformaciones para llegar a los resultados obtenidos.

También conversamos sobre el lenguaje de programación GO y porque cada vez hay más gophers. GO tiene interesantes aspectos para data science. Dan mencionó como Kubernetes y otras herramientas del ecosistema favorecen el uso de GO además de aspectos de programación con integridad. Otros lenguajes como Python pueden ser más complicados para debuggear por no tener total claridad respecto al manejo de excepciones. Por estos motivos es que Pachyderm está desarrollado enteramente en GO.

¿En qué casos vale la pena considerar Pachyderm? Si como científicos de datos estamos trabajando un modelo en nuestra computadora en R o Python y luego vemos que funciona y llegamos al punto en que hay que llevar este código a producción sería muy bueno no tener que re-escribir todo en otro lenguaje para que pueda escalar. El objetivo de Pachyderm es facilitar este paso de la computadora a un sistema escalable de forma muy simple para el científico de datos a través del uso del uso de containers que permiten paralelizar.

Durante la conversación hablamos sobre el trabajo de los científicos de datos y los ingenieros de datos. Es clave para que la industria vaya hacia una mayor nivel de eficiencia que la colaboración entre estos grupos fluya cada vez con menor rozamiento. Para esto se requiere colaboración y a la vez mayores niveles de autonomía para que los distintos roles en el proceso de creación de innovación con datos puedan hacer lo que les corresponde de forma adecuada.

Pachyderm tiene un modelo de negocios interesante para todos los que estamos haciendo ciencia de datos. El código se puede encontrar en Github y es código abierto! Por encima de esto Pachyderm ofrece servicios a las empresas que requieren servicios de valor agregado para optimizar estas herramientas para procesos más complejos. Ya hay una comunidad de gente creciente y contribuyendo al proyecto Pachyderm así como también empresas creando conectores. Para todos los interesados en usar la plataforma: adelante y no duden en enviar feedback al equipo Pachyderm a través del canal en slack, Github o por email a info@pachyderm.com.

Algunas de las fuentes que Dan utiliza para mantenerse al día respecto a temas de data science son:

Links relevantes