“Sintomas covid” en Google Trends. Un indicador alternativo para el seguimiento de la incidencia de casos.

Hace unos años me topé con unos gráficos con unos resultados que me dejaron patidifuso. De los gráficos fui a la fuente, artículos científicos publicados que no hicieron más que confirmar mi asombro. Ha sido la base de muchas de mis pesquisas posteriores. Lo compartí en una entrada en el blog, en 2014.

Gripe y Google

Se trata de la estrecha relación – tan estrecha que es de hecho idéntica – entre los resultados de las búsquedas en Google de la palabra “gripe”· y de la contabilización oficial de positivos de gripe.

El primer autor que encontró la relación es Eysenbach (2006):

influenza and google searches

y luego han venido muchos otros como Carneiro y Mylonakis (2009).

Los resultados de Valdivia et al (2010) son para mí simplemente asombrosos. La similitud entre búsquedas en Google y evolución de casos de gripe en varios países europeos es tan asombrosa que en algunos casos se funden las dos series.

relacion entre casos de gripe y busquedas en google

Es una conexión total entre la información colectiva masiva que se genera con la suma de comportamientos individuales en la esfera online (búsquedas relacionadas con la gripe) y lo que se está midiendo de manera totalmente autónoma en el espacio físico (la contabilización de positivos en los test de gripe). Ambas fuentes de generación de información están midiendo lo mismo: el número real de casos de gripe y su evolución. Y es precisamente la convergencia entre las dos fuentes la que confirma que las dos miden lo mismo: los casos reales de gripe.

He usado este caso canónico muchas veces para explicar el por qué del análisis de contenidos en el mundo online, y más especialmente en mi caso en redes sociales: para conseguir encontrar puentes entre el mundo online y el mundo “real”. Pautas de comportamiento en el mundo online que sean reflejo fiel del del mundo físico. Los hay, muchos. Pero, evidentemente, no todos los datos que se generan en el mundo online son reflejo real del físico. Ver la entrada en el blog.

Un artículo en Nature de 2013 planteaba su uso para predicción de evolución de la gripe a corto plazo (Shaman et al, 2013). Me permití hacer la frivolidad del ejercicio de predicción de la gripe en España en enero de 2020, y acerté.

Gripe en la era covid

Una relación pues perfecta entre las dos variables, robusta a prueba de bombas. Hasta que ha saltado por los aires, por la irrupción de algo mucho mayor que una bomba, la pandemia coronavirus.

El primer pico de menciones en 2020 sí que estaba directamente relacionado con lo casos de gripe, tal como mostraba en mis dos tuits. Era enero de 2020. Pero la explosión posterior, que multiplica el impacto con respecto a todos los años anteriores, corresponde a ausencia total de casos de gripe. Se habla y busca sobre la gripe en el contexto de la novedad absoluta que lo está invadiendo todo, el coronavirus. Y la ola de menciones en Google a finales de 2020 de nuevo no está relacionado con casos de gripe (que no han vuelto en España en la temporada 2020-21) sino con la segunda ola de coronavirus.

El coronavirus ha matado, probablemente para siempre, la relación entre búsquedas sobre la gripe en Google y los casos reales de gripe.

Google para el seguimiento de la pandemia covid

Y surge de manera directa la pregunta natural: ¿tenemos un indicador de búsquedas en Google que nos sirva para hacer el seguimiento de los casos de coronavirus? La respuesta es sí, pero no es ni “coronavirus” ni “covid”, al menos por el momento.

En toda la primera ola, de marzo a junio 2020, la pandemia y la crisis ha sido crisis coronavirus. Y he ha ido mutando poco a poco en pandemia y crisis covid, de manera generalizada. Mostramos los resultados para España y los principales países de referancia.

Todos los resultados son coincidentes: el shock de marzo 2020 lo abruma todo, y todo queda pequeño con respecto a ese punto de referencia.

Al mismo tiempo, sabemos que en todos los países seleccionados los casos y por lo tanto los fallecimientos han sido importantes y en algunos casos equivalentes o mayores en la segunda y tercera ola.

La conclusión primera es por lo tanto aparentemente directa: ni “coronavirus” ni “covid” en búsquedas de Google son un indicador estrechamente ligado a la evolución de los casos, como sí lo era “gripe”. Hemos perdido un indicador y no ha sido remplazado por otro.

Eso es debido a que en marzo 2020 el coronavirus no era sólo un virus contagioso ni una pandemia como lo era la gripe: era una crisis sistémica, un colapso en todos los ámbitos y era algo totalmente nuevo. Eso es lo que refleja las cifras de Google de marzo. Las búsquedas y resultados de Google son reflejo de distintas dimensiones de la realidad.

Una dimensión relacionada con muchos resultados de búsquedas en Google es el de la atención mediática, que es tanto causa como efecto de la atención popular. Esta atención está ligada a la relevancia que se le da a un evento, persona o institución y esa relevancia depende de muchos factores. Para los eventos, un factor determinante es la novedad. La novedad genera sorpresa, preguntas, dudas, miedos, entusiasmos según su naturaleza. Aunque el acontecimiento perdure, la atención mediática siempre decae porque decae la fase de novedad. El impacto en las búsquedas covid coronavirus en la primera ola hay acumulación gigantesca de novedad. Una parte está ligada a los casos y su evolución, pero hay multitud de otros aspectos que generan el seguimiento extraordinario. El fin de la primera ola en junio de 2020 es también el fin de la excepcionalidad en la pandemia. A partir de ese momento ya se entra en segundas y terceras fases de casi todo; es decir, se repiten ciclos ya “conocidos”.

Por la misma razón que “covid y “coronavirus” no son útiles para calibrar la evolución de casos, por la fuerza del componente novedad, por esa misma razón cambian de perfil a partir de junio 2020, al ir desapareciendo paulatinamente el componente de novedad.

Por lo que podemos volver a formular la pregunta sobre la posible relación entre búsquedas en Google y evolución de casos. Y la hay.

“sintomas covid” y “covid” en Google Trends para el seguimiento de la incidencia de casos covid

Mostraré primero los resultados del indicador “sintomas covid” para pasar en un segundo momento a indicar las opciones descartadas por ser menos eficientes. Confirmo lo que se habrá ya percibido, es que lo escribo como falta de ortografía, sin tilde: “sintomas” en vez de “síntomas”. Manda Google, como veremos (más bien nosotros, al buscar).

En el gráfico muestro los resultados para España, desde mediados de junio de 2020 hasta abril 2021. Los resultados de Google son semanales (escala de la izquierda), por lo que he calculado la cifra de casos reportados semanalmente por el Ministerio de Sanidad (escala de la derecha).

El acoplamiento de dinámica de las dos variables se produce a partir de octubre. Falta acompasamiento entre junio y septiembre, porque la atención en Google se dispara mucho más que la velocidad de los casos. La posible explicación es que ese comportamiento inicial refleja todavía un componente fuerte de novedad: la novedad y sorpresa negativa de descubrir que el virus no había sido vencido con el confinamiento, y que después de la primera ola volvía a venir crecimiento sostenido de casos. A partir de octubre ya se entiende y se asume que la pandemia no se controló y resolvió en mayo de 2020.

El coeficiente de correlación entre las dos variables es de 0,6 entre junio 2020 y abril 2021. sube a 0,85 desde inicios de octubre y a 0,92 desde mediados de noviembre.

Sí, las búsquedas en Google sobre síntomas covid está directamente ligada al número de casos en ese momento y por lo tanto a su evolución en el tiempo. Como mostraré a continuación, se trata de un resultado universal.

También es indicador ligado a la evolución de incidencia de casos la búsqueda simple “covid”, en España. como vemos en el gráfico, aunque está menos ajustado en la amplitud de subida y bajada que “sintomas covid”, sí que es también muy fiel en la dinámica, y por eso el coeficiente de correlación entre las dos variables es muy alto, de 0,86 desde junio y de 0,94 desde diciembre.

Por lo tanto, sí, Google Trends sigue siendo una vía real para hacer seguimiento de los casos de covid, como hasta 2020 lo había sido para el seguimiento de la gripe.

Pero la validez del indicador simple “covid” todavía no es tan universal, y el que se acopla bien en todos los países es el indicador “sintomas covid”. Lo mostraré a continuación.

Google Trends, ¿indicador adelantado?

Los datos de los picos de la segunda y tercera ola en España muestran un buen acoplamiento temporal, especialmente en la tercera. Pero parece que Google Trends se adelante para marcar el inicio de las nuevas olas. Es un resultado que entra dentro de lo posible y lógico: puede haber un decalaje temporal a favor de las búsquedas en Google sobre la contabilización de casos como positivos. Las búsquedas sobre síntomas covid en Google pueden provenir de las siguientes motivaciones principales:

  • Por curiosidad y ánimo informativo, desligado de la situación personal. Esta curiosidad puede aumentar si la incidencia aumenta y ese incremento de casos se comunica en los medios y poco a poco va llegando por el conocimiento de conocidos que se contagian. Esta fuente de búsquedas tendría un cierto retraso con respecto a la notificación pública de casos.
  • Porque uno mismo siente algún malestar físico y quiere saber si entra en los síntomas compatibles con covid. En la gran mayoría de los casos no corresponde a covid. En un cierto porcentaje, sí. Esas búsquedas son las que van con más antelación con respecto a la notificación del caso. Es sólo tras la persistencia de síntomas compatibles que se dará el paso a ir a un centro de salud para pedir un test PCR. Pasarán días entre la primera aparición de síntomas, la búsqueda en Google y la confirmación del positivo.
  • Porque alguien en el hogar tiene síntomas. Modelo análogo al anterior.
  • Porque le comunican que ha sido contacto estrecho de una persona con síntomas que se va a hacer la PCR, contacto estrecho de un positivo o contacto estrecho de un contacto estrecho. Para muchos usuarios eso se convierte en una situación en la que se busca recabar información en Google. En este caso las búsquedas también van días por delante de la posible notificación de positivos.
  • Porque ha sido notificado positivo, y tras días de normalidad empiezan a emerger síntomas. Se busca entonces informarse si corresponden o no a covid y cómo manejarlos. Esas búsquedas van con retraso con respecto a la notificación de positivos.

No sé evidentemente cuál es la dinámica que gana. Pero es razonable pensar que sea la de que de media las búsquedas en Google van por delante de la notificación de los positivos. Y esa ventaja temporal para Google puede ser más clara si los propios sistemas de test y notificación de casos sufren plazos largos. Es seguro que era el caso en España en marzo y abril (además de que era muy selectivo). También sufrió retrasos claros en varias comunidades al activarse la segunda ola en agosto-septiembre. Creo que se han corregido lagunas en este sentido desde diciembre.

Puede ser también que Google sea mas sensible en la fase de valle, y que por lo tanto marca antes el cambio de tendencia.

Mostraré en el siguiente apartado es que parece que el decalaje temporal a favor de Google es manifiesto en algunos países de América Latina, que se explicaría por limitación de acceso a las PCR (se puede ver por la alta tasa de positividad), que llevaría a cadencias temporales largas entre la aparición de síntomas y la confirmación de positivo por PCR.

¿Por qué la existencia de decalaje se convierte en relevante? Porque el indicador de Google pasa de tener un papel descriptivo complementario a poder jugar un valioso papel predictivo de muy corto plazo (nowcasting).

El indicador de Google en países de América Latina

He estimado casos y resultados de Google para México, Argentina y Chile.

Muestro primero los gráficos, en los que incluyo la salida de Google tanto para “sintomas covid” como “covid”.

¿Qué podemos extraer de los tres casos nacionales?

  • En los tres países se confirma la relación estrecha entre la evolución de casos declarados y las búsquedas en Google sobre covid
  • En los tres casos la relación entre las dos variables es más estrecha con las búsquedas “sintomas covid” que con las búsquedas “covid”
  • En los tres casos hay un decalaje visible de 71-0 días de adelanto de la variable de Google con respecto a los casos declarados.

Por eso muestro de nuevo los datos tomando ya como referencia de indicador Google únicamente el de “sintomas covid”, que se desdobla en dos. El indicador de base es el adelantado en una semana (las búsquedas de esta semana reflejan los positivos que se van a comunicar la semana que viene), y muestro en línea discontinua las búsquedas sin adelantar.

El comovimiento de las dos series (medido con el coeficiente de correlación) pasa de 0,58 a 0,62 en México (de 0,83 a 0,88 desde noviembre), de 0,77 a 0,85 en Chile (de 0,81 a 0,89 desde noviembre) y en Argentina se mantiene en 0,88 con los dos modelos (y baja de 0,79 a 0,62 desde noviembre). Por lo tanto, hasta el momento hay mejor sintonía entre búsquedas en Google y los casos reportados con una semana de decalaje para el caso de México y Chile, y es ambiguo para Argentina. Google puede ayudar a identificar el movimiento a corto plazo de la incidencia.

Si el poder predictivo del indicador que proponemos es real, deberíamos observar la semana que viene un cambio de tendencia en México, con repunte de nuevo de los casos, también cambio de tendencia en Chile, pero esta vez con caída de los casos y un mantenimiento del fuerte crecimiento en Argentina.

Análisis de comunidades autónomas

Google Trends nos permite acceder a resultados de búsquedas de ámbito subnacional. Analizar los resultados autonómicos nos permite explorar más evidencia empírica para contrastar y validar relaciones.

Muestro en primer lugar el comportamiento de los resultados Google para “sintomas covid” y para “covid”, primero para comunidades con más población. Los resultados principales:

  • Las dos series tienen un comportamiento similar en cuanto a las tendencias
  • Su forma es distinta entre las distintas comunidades autónomas. Como confirmaremos a continuación, es porque las búsquedas están ligadas a las olas epidemiológicas locales más que a la nacional. Es otra confirmación que la búsqueda en Google está ligada verdaderamente a la evolución de la aparición de síntomas, y por tanto de contagios reales.
  • La variación de la serie “sintomas covid” tiene mayor amplitud que “covid”. La segunda nunca toca suelo, a diferencia de la primera. La búsqueda sobre “covid” contiene lógicamente muchos otros elementos además de la información sobre síntomas. Pero como destacamos en el primero de los resultados, eso no impide que su dinámica sí que sea pareja.

En vista a este resultado, al preferencia se va en toda lógica a preferir el indicador “sintomas covid”, como hemos hecho a nivel nacional. Sin embargo, tiene dos limitaciones.

  • Lógicamente el rango de búsquedas es mucho más limitado con “sintomas covid” que con “covid”. Eso parece no ser problema en territorios con población suficiente. Pero no es así en todos los casos. En territorios con menos población parece que el número insuficiente de búsquedas provoca una alta variabilidad que no se corresponde con la variación de casos reales.
  • Además, la búsqueda “covid” tiene la ventaja que es de uso universal. “sintomas covid” es búsqueda en español. Ya afecta a España por las comunidades plurilingües, que entonces sólo captarían una parte de las búsquedas locales.

Lo muestro con el ejemplo de Baleares.

Por lo tanto, para el análisis de la relación entre el indicador Google y los contagios autonómicos usaré “covid2 en vez de “sintomas covid”.

Empiezo con el caso de Madrid, para mostrar su indicador Google comparado con la incidencia de casos en la comunidad y en España. Como se ve, la correlación es mayor con la incidencia de casos autonómicos.

De la selección de casos que muestro a continuación, destaco dos factores:
  • En algunas comunidades hay un retraso claro entre la búsqueda en Google y la comunicación de casos de la comunidad en el registro central en el Ministerio de Sanidad, tal como teníamos con países en América Latina. Es especialmente evidente para la segunda ola, y en algunos casos el retraso se reduce desde diciembre-enero. Es un retraso que coincide con el ya conocido de algunas comunidades autónomas, especialmente C Valenciana y País Vasco. También era el caso en Madrid hasta octubre-noviembre. Es de nuevo resultado que confirma la validez de la fuente de información de los resultados Google.
  • Permite ver la información sobre la nueva fase de crecimiento de casos que puede desembocar en cuarta ola. Google señala crecimiento fuerte de casos en Aragón y en País Vasco. Estabilidad en C Valenciana. Crecimiento moderado en Madrid y Cataluña. Navarra podría estar empezando a retomar control.

Referencias

Carneiro y Mylonakis (2009), Google Trends: A Web-Based Tool for Real-Time Surveillance of Disease Outbreaks, CID, pp. 1557-1564 (acceso pdf)

Eysenbach (2006), Infodemiology: Tracking Flu-Related Searches on the Web for Syndromic Surveillance, AMIA Annual Symposium Proceedings, pp. 244-248. (acceso artículo)

Valdivia, López-Alcalde, Vicente, Pichiule, Ruíz y Ordobas (2010), Monitoring influenza activity in Europe with Google Flu Trends: comparison with the findings of sentinel physician networks – results for 2009-10, Eurosurveillance, Vol. 15, pp. 2-7 (acceso artículo, pdf)

Shaman et al (2013), Real-time influenza forecasts during the 2012–2013 season, Nature Communications 4, Article number: 2837

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s