Epidemiologen auf Signalsuche im Netz

Herr Dr. Velasco (Robert Koch Institut, Berlin), die frühe Erkennung von infektionsepidemiologischen Fällen durch Surveillance-Systeme im Internet wird derzeit intensiv erforscht und teilweise bereits angewendet. Wie funktioniert das „Scannen“ von wertvollen Informationen im Netz (Twitter, Weblogs) und wie hoch schätzen sie das Potenzial dieses Health Monitoring?

Ein direkter Zugriff auf eventbasierte Daten (wie z. B. aus M-Eco) ermöglicht die Überwachung von potenziellen, unbekannten Bedrohungen, wie selten erscheinende oder neue Krankheiten. Online-Medien, Social Media, Weblogs, wissenschaftliche und nicht-wissenschaftliche Diskussionsforen sowie direkte elektronische Kommunikation bieten innovative und direkte Möglichkeiten zu ereignisbasierten Überwachungsaktivitäten. In diesem Licht gehören die Informationen aus Social Media zu einer wertvollen Datenquelle. Zusätzlich ist die Geschwindigkeit, mit der diese „nutzergenerierten“ Inhalte erzeugt werden, möglicherweise viel höher.

Mit M-Eco ist es uns gelungen, Text aus den Social Media in neue Algorithmen, die nutzvolle Daten für eine mögliche Früherkennung von infektionsepidemiologischen Fällen automatisiert erzeugen, einführen zu können. Die Daten werden als „Signale“ dann weiter an Epidemiologen geleitet, um andere Informationen bei der Risikoeinschätzung aufzustocken.

Welche sind die Herausforderungen und Schwierigkeiten im Zusammenhang mit der Entwicklung von Surveillance-Systemen?

Das Problem ist, dass noch nicht lang genug getestet worden ist, wie die Ergebnisse aus den Algorithmen epidemiologisch zu vergleichen und möglicherweise zu bestätigen sind. Eine langfristige Evaluation ist nötig, um mögliche Fälle aus der etablierten Surveillance mit Daten/Signalen aus den neuen Systemen nebeneinander zu vergleichen.

Bisher zeigen Evaluationen, dass M-Eco ähnliche Probleme wie andere Systeme, die Informationen aus Social Media holen, hat. Es ist schwierig, Texte im Netz (wie z.B. Twitter) in einer strikten Reihenfolge in epidemiologisch relevante Attribute zu übertragen, die für die Risikoeinschätzung nötig sind.

Erschwerend hinzu kommt die Tatsache, dass sich nicht nur die Landschaft von Social Media schnell weiter entwickelt sondern auch die Art und Weise wie Benutzer mit diesem Medium interagieren.

Welchem Bereich gilt hier besonders große Aufmerksamkeit?

Ein starker Fokus liegt sicher auf der Linguistik: Die entwickelten Algorithmen müssen sehr intelligent sein, um semantisch und phonetisch ähnliche Wörter oder Formulierungen/Ausdrücke/Phrasen in die Sprache der Nutzer von Social Media (sprich: Umgangssprache) automatisiert übersetzen zu können. Es existiert für das System ein Lernbedarf, weil sich die medizinische und epidemiologische Terminologie ständig verändert und es darum geht, sich an diese Veränderungen laufend anzupassen. Eine ständige Verfeinerung der Technologien wird nötig sein.

Wie groß ist das Potenzial von Surveillance-Systemen im deutschsprachigem Raum im Vergleich zum englischsprachigen?

Noch ist nicht klar – insbesondere im Falle von Twitter – wie wichtig die Social Media für den deutschsprachigen Raum sind. Der Anteil an deutschsprachigen Social Media-Nutzern ist deutlich geringer als der im englischsprachigen Raum. Auch zu diesem Aspekt gibt es einen Bedarf an adäquaten Studien, denn die meisten wissenschaftlichen Studieen zu diesem Thema sind auf englischsprachige Daten fokussiert.

Nichtsdestotrotz ist festzustellen, dass diese neuen Methoden und Daten für die epidemiologische Überwachung von Infektionskrankheiten sinnvoll wären und, dass es ein Potenzial gäbe, die traditionelle Surveillance zu verbessern.