Suscripciones

Data Science en AirBnB (Parte 2)

Episodio 13 - 2016-10-02


¿Como hace una organización o una persona para escalar?

Esta es una pregunta que está embebida en la cultura de AirBnB y constantemente se están buscando formas de automatizar lo automatizable. Por eso dentro de AirBnB se invierte mucho esfuerzo para generar herramientas (tools). Algunos ejemplos son la generación de pipelines (AirFlow, AeroSolve) o mostrar datos a otros en el grupo. AirBnB está también por abrir otra herramienta a código abierto que usan para compartir conocimientos internamente (Knowledge Repository). Distribuir los conocimientos dentro de la empresa es un aspecto clave para funcionar de forma efectiva y en empresas como AirBnB donde es importante que los datos y la información permee a todos este tipo de herramientas generan mucha eficiencia.

El equipo de Data Science está constantemente documentando lo que hace para que quienes necesiten esta información la pueda acceder. Además hay bootcamps y clases que dan internamente para estar todos mas informados sobre aspectos de datos

¿Por que generar herramientas de código abierto y darlas al mercado?

Es muy clásico en Silicon valley el generar herramientas que luego se abren al mercado. Muchas de estas herramientas se abren como código abierto de manera tal de poder mejorar el producto.

En AirBnB, al igual que muchas empresas en Silicon Valley, buscan generar una marca para los equipos de trabajo de manera de poder atraer talento. Abrir herramientas es una forma de atraer gente.

¿Que tipo de problemas trabaja el Data Scientist de AirBnB?

Cuky cubre en esta parte del podcast algunos lineamientos de proyectos que tiene que ver. Un ejemplo es el caso de nuevos arrendadores que entran a operar en AirBnB. Muchas personas crean su perfil en AirBnB para poder alquilar su casa y luego comienzan a agregar información para atraer a gente que viaje a ese destino. El problema que existía es que los nuevos arrendadores no tenían la reputación de otras que están hace mucho tiempo. Entonces el planteo es cómo resolver este problema para que no se vayan los arrendadores. La forma en que AirBnB decidió hacer esto es a través de informar a los nuevos arrendadores tal que con un Dashboard para estos nuevos arrendadores se le den métricas (calidad de las fotos, descripciones, y demás) y una probabilidad de que su casa sea alquilada. A través de estas sugerencias e ideas el arrendador es el que hace el trabajo.

Es interesante como todos los proyectos de Data Science que están encarando proyectos nuevos definen métricas desde el inicio para poder ver el éxito (o no) de los experimentos que se realizan y esto se hace claro a lo largo de la conversación.

Para este proyecto el equipo de Cuky interactuó con muchos otros equipos de trabajo (precios, matching, marketplace, etc).

¿Que tools usa el equipo de Data Science?

El día a día de Cuky como científica de datos cubre el acceder a los datos por lo cual mucho se va en hacer SQL queries para extraer los datos, para luego comenzar a trabajar con los datos y para esto usa R y Python (mas que nada R). Mucho del trabajo es hacer modelos predictivos básicos (en R).

Dependiendo del tipo de proyecto en el que se esté trabajando (NLP por ejemplo para analizar texto y hacer inferencias) y cuando ya se decide que es lo que hay que hacer, entonces luego hay que comenzar a crear pipelines. Un ejemplo es el de las fotos de las casas en alquiler donde cuando se decidió que había que hacer había que crear un score. Esta parte del trabajo la realiza un Data engineer que colabora como parte del equipo.

Finalmente, una vez que se decide ir para adelante con un proyecto comienzan las pruebas. Para los A/B tests estos equipos de Data Scientists e Ingenieros definen procesos que miden la interacción con el producto (en este caso el Dashboard) para así poder tomar decisiones entendiendo que es lo que funciona y que no. El equipo luego interactúa con estas métricas para finalmente en conjunto los científicos de datos junto con los ingenieros y los product managers puedan tomar decisiones.

¿Hacia donde va la ciencia de datos en empresas?

Mas datos. Cuky nos comentaba que ella ve que cada vez hay mas datos de nuevas fuentes que podrán ayudarnos a la toma de decisiones. Desde los wearables hasta lo que recolectan nuestros celulares están generando muchos datos y el acceder a estos datos de forma eficiente va a permitir cosas fascinantes. Mayor personalización en tanto se pueda automatizar esta ingestión de datos y su correcta utilización.

Tools. Mucha automatización dado que cada vez hay mas herramientas que permiten bajar a un nivel mas humano lo que pasa con los datos.

¿A quien sigue Cuky?

Algunos clásicos en Twitter como AirBnB Data, Hadley Wickam y Big Data. También algunos podcasts como Data Skeptic.

Un tema que es interesante en el mundo de ciencia de datos es el tema del ´bias´ de los algoritmos y modelos que se están generando. Cómo hacemos para que los modelos representen de forma adecuada a las poblaciones minimizando sesgo (bias) y discriminación. Al final, estas empresas que generan productos de consumo via internet traen los problemas existentes en la sociedad.

Cerramos con una foto de Cuky en frente del Belo, como los AirBnBianos llaman afectuosamente el logo de la empresa.

Links relevantes