Noticias Suscripciones

Edgar, su curiosidad en datos y el camino desde Guatemala a RStudio

Episodio 41 - 2018-06-03


Edgar Ruiz es un originario de Guatemala donde desde chico inició trabajando con su madre en una tienda y de esta experiencia que le dejó mucho pasó a una empresa de seguros. Luego migró a Estados Unidos donde trabajó en el banco Hancock Whitney donde se fué desarrollando en la estructura de inteligencia de negocios del banco.

En su experiencia en el banco Hancock le tocó interactuar con las distintas unidades de negocios apoyándolos en la generación de reportes y análisis de datos. Esto lo llevó hacia el lado de infraestructura para implementar Hadoop y Spark.

Durante esta parte de la entrevista hablamos de la importancia del enfoque del científico de datos en definir una pregunta o al menos una duda que se quiere resolver. También pudimos hablar de la importancia de saber identificar donde están los datos que se requieren y manejar la infraestructura adecuada para poder accesarlos.

Como parte de esta sección de la entrevista nos tocó definir una vez mas Big Data. Interesante la perspectiva de Edgar y de RStudio definiendo este trillado concepto no sólo a través de las 4 a 10 Vs sino simplificándolo de la siguiente manera: “Hablamos de Big Data cuando los datos no caben en la RAM del computador o cuando el conducto desde donde están los datos -- servidores de bases de datos -- hasta el computador no permiten una velocidad adecuada de transmisión para un adecuado procesamiento” (o algo así!). Esto nos fué llevando a maneras adecuadas de accesar los datos, trabajarlos en el RDBMS o en Spark, y hacerlo a través de SparklyR.

Cubrimos el rol de BI en un banco junto con los desafíos de generación de reportes útiles y en tiempo y forma en empresas muy grandes, y el rol de un departamento de ingeniería de soluciones buscando formas óptimas de escalar su trabajo a través de la buena documentación que puede ser utilizada por múltiples personas. Dada la concentración de Edgar en Bases de Datos y Big Data (Spark, SparklyR y dbplyr, ODBC) una buena parte de sus “ratos libres” se van en mantener las páginas db.rstudio.com y spark.rstudio.com de manera tal de que tanto los ingenieros como los clientes y usuarios en general puedan encontrar fácilmente respuestas a preguntas sobre Big Data (Gracias Edgar !!!).

Otro aporte muy interesante de Edgar durante la entrevista fué su comentario de la tendencia en últimos años donde se ve cada vez mas que los ´científicos de datos´ están saliendo del “backstage” (del laboratorio detrás de bambalinas) y salen a la luz al generar productos de datos de impacto en organizaciones. En este tipo de implementaciones donde un análisis cobra vida -- por ejemplo -- con una aplicación Shiny entran a jugar un rol tanto el análisis como también aspectos de seguridad e implementación de soluciones en producción.

Finalmente, y también con su toque de originalidad, cuando preguntamos a Edgar como hace para estar informado y seguir en la cresta de la ola, nos comentó que además de Twitter como una gran fuente, el usa mucho GitHub y poder seguir el código de ´grandes´. Tal como lo mencionaba Edgar, hoy en día podemos ver la evolución del código de científicos de datos y programadores y de ello aprender mucho.

Links Relevantes