Greg Diuk trabaja en Facebook desde hace 3 años en el equipo central de Ciencia de Datos. Llegó allí partiendo en Argentina en computación, luego haciendo un doctorado en Machine Learning en US, para finalmente hacer un post-doc en Neurociencias en Princeton entendiendo los algoritmos de aprendizaje en el cerebro!
Siempre creyó que su carrera iba a ser académica y por eso el tipo de carrera académica que siguió. Pero con el surgimiento de Data Science vió las oportunidades en la industria donde existen grandes oportunidades para hacer cosas interesantes con datos. Por otro lado y según comenta Greg en el podcast, la carrera académica puede ser algo solitaria y aunque existe colaboración (que a el le gusta) también existen varios des-incentivos para compartir con colegas.
FB tiene un grupo de Core Data Science de unas 40 perfiles diversos (científicos, estadísticos, economistas, politólogos, etc) que trabajan de forma centralizada y alrededor de 300 especialistas en datos (analistas, ingenieros de datos, científicos de datos) distribuidos en distintos equipos de producto a lo largo de la organización. Una vez por trimestre todos los dateros en FB se juntan para compartir experiencias, mejores prácticas y actualizarse respecto a aspectos importantes. No hay procesos demasiado formales para este tipo de reuniones, pero se organizan vía FB :)
En general no están atados a ningún proyecto y tienen más libertad de buscar oportunidades interesante en toda la empresa y que no requieran tener un impacto en el muy corto plazo. Este grupo opera dentro de ingeniería y están subdivididos en 3 ejes temáticos: (1) Méthods (2) Economics & Ops (3) Product Science. Además hay gente que se especializa en algunas áreas tales como ML, AI, encuestas.
Para operar bien los dateros de FB tienen fácil acceso a datos y a través de un buen Data Warehouse, Hive y Presto pueden hacer los queries que necesitan y las manipulaciones de datos requeridas para poder trabajar. También hay infraestructura de Machine Learning para correr facilmente algoritmos a escala. Por el énfasis en grafos y la necesidad de analizar grafos a escala usan también Apache Giraffe. Hay otras herramientas internas desarrolladas o tuneadas por el equipo de infraestructura tales como Data Sworn (para la creación de data pipelines), Scuba (conteo de datos en tiempo real). Finalmente, en sus computadoras los dateros usan Python y R para análisis mas locales.
Mas allá del trabajo en datos que lleva en el día a día el equipo de analistas que trabajan en los sprints de cada uno de los productos en FB, en este episodio tocamos algunos de esos proyectos que trabajan desde el grupo de Core Data Science en que opera Greg como Científico de datos.
Un ejemplo interesante que tocamos fué el de el caso del Mundial. Un grupo de científicos de datos empezó a ver como se afectaban las redes sociales y como se manejaba la migración de hinchas cuando sus equipos no estaban jugando o cuando ya habían perdido. Un interés, resultó en algunas preguntas interesantes que se podían hacer, luego en definir experimentos, conseguir muchos datos, procesarlos y en base a eso no sólo publicar información interesante sino también lograr entender mas al grupo de Latinos y las formas de llegarles. Como este ejemplo hay muchos y algunos se mencionan en este episodio. También hablamos de como se manejan los aspectos de anonimización y privacidad al conducir este tipo de análisis.
Algo que se mencionó en este episodio y que es muy relevante es la forma en que se miden los científicos de datos en una empresa como Facebook. Para muchos es claro que Ciencia de Datos es diferente a BI y que en Ciencia de Datos se debe permitir experimentación y que no siempre obtenemos la respuesta que queremos. Pero como hacer para que esto no quede solamente en research? En Facebook los científicos de datos tienen que asegurarse que lo que hacen impacta al negocio en engagement, growth, core biz (ads) o utility (search, apps).