William nos atendió desde su casa en el Sur de Gales en Reino Unido. El tuvo una larga carrera relacionada al uso de los datos llegando a la actualidad al estudio - a partir de datos - de enfermedades transmitidas por vectores tales como mosquitos. Partiendo de la entomología en los 70’s pasó luego a estudiar ecología tropical en África durante los 80´s y con todo este bagaje William es hoy un líder de opinión en el uso de datos geoespaciales y el análisis espacial para evaluar riesgos y enfermedades transmitidas por insectos.
Por mucho tiempo William pasó tiempo en aviones contando ganado y generando datos valiosos que luego eran procesados para extraer insights valiosos. En los inicios y como pioneros en el análisis de datos espaciales les tocó desarrollar mapas. Luego desde Oxford llevaron esto al próximo nivel para generar conteos de ganado de todo tipo para poder permitir que muchas organizaciones puedan entender enfermedades y riesgos.
Para estos estudios procesan mucha información satelital, conteos de ganado, información sobre lluvias, datasets económicos y socio-demográficos. Cada uno de estos layers o variables pueden ser predictores de presencia de mosquitos y para lograr resultados estos terabytes y petabytes de información deben procesarse con complejos dataductos para llegar a altas resoluciones, a veces de menos de 1 metro cuadrado, y así entender con datos lo que está pasando en el terreno.
Los modelos de datos espaciales deben pasar por las diferentes etapas de (1) limpieza de los datos (por ejemplo quitar las nubes de las imágenes), para luego (2) agregar datos de diferentes layers de forma muy precisa que requiere mucho procesamiento. La siguiente etapa implica (3) llevar estos grandes volúmenes de datos a algo que se puede procesar. Durante la entrevista hablamos del uso de transformadas de Fourier para poder generar por ejemplo ´promedios inteligentes´ de temperaturas durante períodos de 10 años. Luego sigue (4) generar los modelos que implican mucho uso de estadística para poder conectar variables y observaciones y generar relaciones que permitan inferir, por ejemplo, cuando y donde puede llegar a estar un tipo de mosquito. Finalmente, la etapa de (5) transformar toda esta información en algo que se pueda comunicar de forma adecuada. A veces esto es un lindo mapa, otras veces son modelos que generan alertas claras cuando existe alta probabilidad de riesgos.
También tocamos este tema de tecnologías durante la entrevista y William nos contó como pasó de Quick Basic donde en algún momento hacían a mano las transformadas de Fourier, al uso actual de Python y R. En particular R es un lenguaje que usan mucho por la gran existencia de librerías para modelado geo espacial.
Esta es información muy relevante para la humanidad. Hay muchas organizaciones que generan información relevante alrededor de estos temas. Existe algo de información disponible en formatos crudos. Pero la información sobre modelos no es tan fácil de conseguir y esto es una lástima.
Mucha de esta información y modelado lleva mucho tiempo y esfuerzo para las organizaciones de naturaleza académica. Para entregar esta información primero tienen que extraerle valor y generar publicaciones. Y para obtener este tipo de modelos y datos muchas veces se necesitan negociaciones largas.
Por suerte el compartir datos a nivel académico está comenzando a verse cada vez más. Esto es reciente y llevará tiempo pero es un buen comienzo y hay aires de cambio.
Por otro lado hablamos sobre las consideraciones a tener en cuenta cuando se abren datos sobre salud y enfermedades de esta naturaleza. De ahí muchos de los cuidados en cómo manejar la apertura de estos datos.
No sólo para conseguir datos relevantes y datasets complementarios para aportar valor a los análisis que deben realizarse. También hablamos de la forma en que Oxford por ejemplo tiene equipos de 20 o más personas con habilidades y conocimientos diferentes para generar los resultados en colaboración con otras organizaciones alrededor del mundo.
Para generar impacto de escala global se tiene que dar colaboración con organizaciones alrededor del mundo. Centros especializados, ONU, USDA y muchas organizaciones forman parte de estas comunidades globales que colaboran para trabajar estos complejos datasets.