Den Vogelstimmen auf der Spur
TU-Doktorand Stefan Kahl forscht in ESF-gefördertem Projekt zur automatisierten Erkennung von Vogelstimmen mittels neuronaler Netze – Kooperation mit US-Universität
Um wildlebende Tierarten wie Vögel nachhaltig schützen zu können, ist eine stetige Kontrolle und Überwachung unabdingbar. Wildtiere lassen sich aber nur eingeschränkt in freier Wildbahn dauerhaft durch den Menschen beobachten. In aller Regel werden daher Bild- und Tonrekorder eingesetzt, die Langzeitdaten aufzeichnen. Fluch und Segen zugleich: Denn die dabei anfallenden Datenmengen müssen zuerst ausgewertet werden, bevor sie nutzbar sind. Dieser Herausforderung stellt sich Stefan Kahl, Promovend der Stiftungsjuniorprofessur Media Computing an der Fakultät für Informatik der Technischen Universität Chemnitz. Spezialisiert auf Vögel hat er sich der Frage angenommen, wie man die verschiedenen Arten anhand ihrer Vokalisation, also ihrer Stimmen, in Audio-Aufnahmen automatisiert erkennen kann. Der Europäische Sozialfond (ESF) fördert das Projekt über einen Zeitraum von drei Jahren mit insgesamt 57.600 Euro, welches initiativ durch die Professur Medieninformatik (Prof. Dr. Maximilian Eibl) und die Stiftungsjuniorprofessur Media Computing (vertreten durch Dr. Danny Kowerko) der TU Chemnitz sowie ansässigen regionalen Unternehmen unterstützt wird.
Einsatz von künstlichen neuronalen Netzen zur Audioverarbeitung
Kahls Promotions-Thema entsprang einer im Jahr 2015 gestarteten Kooperation zwischen der Stiftungsjuniorprofessur Media Computing (ehemals Prof. Dr. Marc Ritter, jetzt Hochschule Mittweida) der TU Chemnitz mit dem „Bioacustics Research Program“ am Cornell Lab of Ornithology (Cornell University in Ithaca/New York), geleitet von Prof. Dr. Holger Klinck. Die TU-Professuren und die wissenschaftliche Non-profit-Organisation wollen vor allem die Arbeit von Ornithologen und Vogel-Enthusiasten erleichtern. Stefan Kahl entwickelt deshalb eine Software, die Audio-Daten auswertet und automatisch Vogelarten erkennen und klassifizieren kann. Dabei stößt der Medieninformatiker aber auch auf einige Herausforderungen: „Die Verarbeitung von Audio-Rohdaten ist aufgrund der Länge der Signale nicht einfach für die Detektion und Klassifikation von akustischen Events geeignet. Es muss daher eine Repräsentation gefunden werden, die die Signale vereinfacht“, erläutert Kahl.
Der TU-Forscher selbst ist spezialisiert auf den Bereich Bildverarbeitung und macht sich dieses Wissen für die Verarbeitung der Audio-Daten zunutze. „Die entwickelte Software ist darauf geeicht, die Audiosignale in Bilder zu konvertieren, in so genannte Spektrogramme. Diese bildhaften Repräsentationen der Audiosignale haben sich als besonders geeignet für die Detektion und Klassifikation von akustischen Events herausgestellt“, erklärt Kahl. Die in Spektrogramme umgewandelten Tonaufnahmen nimmt Kahl, um damit ein künstliches neuronales Netz zu trainieren, welches möglichst gut auf Vogelgesang angepasst ist. „Künstliche neuronale Netze haben in den vergangen Jahren extreme Fortschritte im Bereich der Objekterkennung und -klassifikation gemacht. Aktuelle Forschungsergebnisse, die diese Methode als sehr effektiv ausweisen, stützen mein Vorgehen“, sagt der TU-Promovend. Allerdings benötigt das künstliche neuronale Netz spezielle Prozessoren, wie sie vor allem auf leistungsstarken (und damit kostspieligen) Grafikkarten zu finden sind. Allein deshalb hat die Professur Medieninformatik 2017 spezialisierte Hardware im Wert von circa 30.000 Euro beschafft.
Erkennung von Vögeln als Basis für weitere Tierarten – Unterstützung durch US-Institut
Ein Vorteil für Kahls Forschungsarbeit: Die Gemeinschaft der Vogel-Enthusiasten ist sehr groß und engagiert, wenn es darum geht, die Geräusche der Tiere mit gerichteten Mikrofonen aufzunehmen und die Audio-Dateien zur Verfügung zu stellen. „Die Arbeit mit der Vokalisation von Vögeln gibt einen sehr guten Startpunkt für die automatisierte Detektion und Klassifikation akustischer Events. Es ist außerdem weniger kompliziert, man kann quasi im eigenen Garten tätig werden“, erklärt Stefan Kahl und betont: „Ohne die Aufnahmen der, mitunter schon semi-professionell agierenden, Vogel-Freunde wäre das Vorhaben kaum zu realisieren.“
Viel Unterstützung erhält das Projekt auch vom Cornell Lab of Ornithology. Der Kooperationspartner liefert stetig Zuarbeiten durch sogenannte „Annotationen“, eine Möglichkeit zur teilautomatisierten Programmierung, sowie durch Tonaufnahmen (Soundscapes) und hochwertige Archiv-Aufnahmen. Damit werden Sets von Trainingsdaten erstellt. Es handelt sich hierbei um Aufnahmen aus ungerichteten Mikrofonen, die zum Beispiel auf dem Gelände des Cornell Lab in großer Stückzahl eingesetzt werden und 24 Stunden am Tag aufzeichnen. Hilfe erhält Kahl außerdem von Forschenden der New York University, in dem sie Zugriff auf die Code-Basis eines ähnlichen Projektes bieten.
Mobile Nutzung für jeden möglich machen
„Seit der Teilnahme am international renommierten wissenschaftlichen Wettbewerb ‚ImageCLEF 2017‘ konnten die Verfahren noch einmal deutlich verbessert werden. Inzwischen ist zum Beispiel die Erkennung von Nord-Amerikanischen Vogelarten mit einer Genauigkeit von 85% in monophonen Aufnahmen möglich“, äußert sich Kahl zum aktuellen Stand. Die Forschungsgruppe um den TU-Mitarbeiter erreichte damals Platz zwei im ImageCLEF-Wettbewerb. Mittlerweile kann die Auswertung von mehreren 10.000 Soundscapes automatisiert erfolgen.
Ein weiteres großes Ziel des Forschungsprojektes ist außerdem die Erkennung und Klassifikation der Vogelarten in Echtzeit direkt durch den Rekorder. Ein äußerst schwieriges Unterfangen – muss das Gerät doch mit leistungsstarker Hardware ausgestattet sein. Immerhin: Erste prototypische Tests mit mobilen Rekordern wurden bereits erfolgreich durchgeführt. Außerdem befindet sich eine Android-App in Entwicklung, mit der es für jeden möglich sein soll, Vögel in freier Wildbahn zu beobachten und anhand ihres Gesangs oder ihrer Rufe zu identifizieren.
Aktuell bereitet sich Stefan Kahl auf die erneute Teilnahme an der „ImageCLEF“ in diesem Jahr vor.
Weitere Informationen erteilt Stefan Kahl (M.Sc.), Tel. 0371 531-32219, E-Mail stefan.kahl@informatik.tu-chemnitz.de
(Autor: Lars Meese)
Matthias Fejes
26.02.2018