La gripe, Google y el poder del Big Data

Aterricé por alguna razón en una noticia de El Mundo sobre la gripe. Al acceder a la página en cuestión, descubrí que el periódico contaba con un muy completo especial sobre la gripe 2014. Contiene datos, infografías y contenido interactivo sobre la evolución temporal de los casos declarados. La fuente usada es Red Nacional de Vigilancia Epidemiológica Instituto de Salud Carlos III. Especial de El Mundo La epidemia de la gripe semana a semana.

Según los datos aportados, se superó el umbral epidémico (según los estándares españoles) en la tercera semana de enero.

Casos declarados de gripe y búsquedas en Google

Al contar con información disponible sobre la evolución semana a semana de los casos declarados de gripe en España, me picó la curiosidad y me pregunté por la actividad en Google en España sobre la gripe.

Contamos con la valiosa herramienta Google Trends para recabar datos sobre los términos de búsquedas que se hacen en Google. en este caso el marco estaba bien cerrado, puesto que se trataba de generar los resultados sobre las búsquedas sobre el término “gripe” desde España entre octubre 2013 y finales de enero 2014.

Mostramos en la siguiente gráfica los resultados de la evolución de las búsquedas sobre gripe, y las ponemos en paralelo con la evolución de los casos declarados de gripe.

Los resultados son claros, y permiten una interpretación directa e inmediata de los datos: existe una pasmosa relación directa entre las dos variables. Son series temporales gemelas, casi idénticas.

internet e inteligencia colectiva gripe en espana casos y google trends

.

El resultado es asombroso (para mí), porque no existe un contacto directo en la generación de las dos series. Bien entendido, las dos series beben y comparten la misma fuente: la aparición de síntomas de gripe entre los ciudadanos. Las series recogen dos reacciones de algunos de los que creen que tienen gripe ellos mismos o en su entorno: por un lado, acuden a una consulta médica, por otro, buscan en internet información sobre síntomas y/o remedios para tratar la gripe. Ambas estadísticas recogen sólo una fracción de todos los casos reales. Sobre la base de esta información, la Red Nacional de Vigilancia Epidemiológica es capaz de estimar la incidencia global en la población. De manera similar, el número y la evolución de las búsquedas en Google sobre “gripe” podría ser una medida aproximada y representativa de una fracción de la población que sufre los efectos de la gripe.

La sintonía entre casos declarados de gripe y tendencia de búsquedas en Google es tan estrecha, que no cabe aducir una simpática coincidencia de tendencias. Se trata básicamente de un mismo resultado, medido de dos formas alternativas e independiente entre ellas (aunque ambas tengan una causa común).

La información que genera el comportamiento de los usuarios en internet permite identificar de una manera totalmente nueva fenómenos que suceden en la realidad.

La relación sistemática entre búsquedas en Google y casos declarados de gripe

Mi curiosidad por la relación entre casos de gripe y búsquedas en Google fue auténtica pero no primigenia. Estaba inducida por mi recuerdo de haber leído en el pasado sobre la existencia de estudios científicos que mostraban esta relación tan directa entre las dos variables. Quería contrastar y  verificar personalmente hasta qué punto esta relación era fuerte y vigente en España. Lo es.

En un segundo momento, tras confirmar la relación, he buscado las referencias de esos estudios científicos.

Uno de los primeros, que llamamos seminal papers, es de 2006 (casi la prehistoria de la era digital social), Eysenbach (2006). Más recientemente, otros estudios han replicado el análisis, contando ya con más información.

influenza and google searches

Este es por ejemplo el resultado de la relación entre gripe y búsquedas en Estados Unidos, para el período 2004 a 2009, de Carneiro y Mylonakis (2009).

casos declarados de gripe en estados y busquedas en google

.

En el gráfico siguiente mostramos los datos de un seguimiento más reciente de nueve países europeos (Valdivia et al, 2010). No se trata de resultados altamente relacionados; son simplemente la misma variable medida de dos maneras distintas. Son resultados extraordinarios.relacion entre casos de gripe y busquedas en google

.

Se trata de datos que se obtienen de manera totalmente diversa, pero que generan exactamente la misma información. Son perfectamente contemporáneos.

Las consecuencias, aplicaciones y usos de esta evidencia empírica son múltiples. Es una información que pueden explotar las autoridades sanitarias. Sirven por supuesto también como fuente de información directa para el usuario: no es necesario acudir a las fuentes oficiales (que pueden ser de acceso poco difundido o con publicación con retraso, por ejemplo), puesto que Google Trends permite obtener esa información.

Si las dos fuentes son igual de fiables, la pregunta siguiente emerge casi de manera espontánea: ¿por qué no usar directamente esa información que genera la red a un coste nulo y abandonar o revisar los costosos programas de seguimiento?

Bases de datos masivas, inteligencia colectiva, Big Data

El caso del rastreo eficaz de la gripe gracias a Google trends se ha ampliado a otras enfermedades y epidemias, como la enfermedad de Lyme (acceso al estudio, pdf).

Para nosotros se trata simplemente de una ilustración del marco que nos interesa: la generación potencial de conocimiento gracias a la existencia y fácil acceso a datos masivos. En la medida en que se puede contar con herramientas que permiten ordenar esa nube de datos en bases de datos estructurados, las posibilidades de acceso a nuevos conocimientos se hacen reales.

El análisis y explotación de estos datos corresponde a los que muchos convienen en denominar Big Data. Las dos dimensiones principales para abordar el Big Data son el análisis de pautas del conjunto de la población observada y la que opta por la identificación de comportamientos asociados a individuos de esa población.

La primera vía corresponde al análisis que hemos mostrado aquí: viendo cómo reaccionan individuos del conjunto de la población al observar síntomas gripales en las búsquedas en Google, se puede pronosticar con alto grado de exactitud el número de casos totales de gripe que está sufriendo el conjunto de la población en la vida real.

La segunda vía consiste en conseguir conocer el mayor número de datos posibles sobre cada uno de los individuos observados. En este caso, contando con la información completa de unos miles de personas puede permitir identificar pautas de comportamiento de los individuos al identificar conexiones sistemáticas entre distintas variables. Desde esa vía actúan las empresas para acceder a los usuarios que serán más proclives a consumir productos de su marca o sector. Google es el referente absoluto como controlador de información viva de Big Data, y que ha reforzado en los últimos años al adquirir las distintas plataformas de difusión de contenido, todas ellas ligadas a una cuenta de usuario único, para asegurar que puede almacenar el mayor número posible de dimensiones de información sobre nuestros gustos y preferencias. Otras empresas que se sitúan en la cadena de conexión del usuario con el mundo digital son y serán las que generarán esas bases de datos del Big Data poseedoras de valor. Algunos apuntan que operadoras de telefonía, bancos y entidades financieras tendrán una parte creciente de su negocio ligado a la explotación del Big Data al que tienen acceso.

En nuestro grupo de investigación nos basamos ya desde 2004 en estas intuiciones (ligadas a la primera vía) para generar medición de intangibles ligadas a la monitorización de impacto mediático a nivel mundial. Construimos nuestras medidas de valor mediático en el ámbito del deporte a partir de las apariciones en prensa. En distintos estudios y análisis pudimos demostrar la estrecha relación entre talento y éxito deportivo con el valor mediático. A su vez, mostramos que el valor mediático era una excelente medida del valor de los activos intangibles (valor de traspaso de los futbolistas, potencial comercial de las marcas deportivas, etc). Los análisis ligados al deporte se encuentran en la web Economics, Sports & Intangibles, Universidad de Navarra.

.

****

Referencias

Carneiro y Mylonakis (2009), Google Trends: A Web-Based Tool for Real-Time Surveillance of Disease Outbreaks, CID, pp. 1557-1564 (acceso pdf)

Eysenbach (2006), Infodemiology: Tracking Flu-Related Searches on the Web for Syndromic Surveillance, AMIA Annual Symposium Proceedings, pp. 244-248. (acceso artículo)

Valdivia, López-Alcalde, Vicente, Pichiule, Ruíz y Ordobas (2010), Monitoring influenza activity in Europe with Google Flu Trends: comparison with the findings of sentinel physician networks – results for 2009-10, Eurosurveillance, Vol. 15, pp. 2-7 (acceso artículo, pdf)

Shaman et al (2013), Real-time influenza forecasts during the 2012–2013 season, Nature Communications 4, Article number: 2837

Un análisis que relativiza la capacidad de acierto de Google. Pero su tesis es la de compararlos con datos reales. Lo que el estudio parece olvidar es que el coste de obtención de la infomación vía Google es nulo, comparado con el sistema de contabilización de casos clínicos.

Leber (2014), The Failures Of Google Flu Trends Show What’s Wrong With Big Data, Co-Exist, 13 marzo 2014

Un comentario en “La gripe, Google y el poder del Big Data

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s