Projekt | TU Chemnitz

Projektvorstellung

Das umfangreiche Forschungsprojekt gliedert sich in drei Projektphasen mit jeweils mehreren Arbeitspaketen (AP), die nachfolgend vorgestellt werden.

Projektphase 1: Methoden zur Datenerfassung und grundlegende Konzeptentwicklung

AP 1: Aufbau des sensorischen Systems in abstrahierter Arbeitsumgebung

Durchführende Professur: Graphische Datenverarbeitung und Visualisierung
An einem zu erstellenden 3D-Modell des Messraumes erfolgt die Planung des sensorischen Systems mit dem Ziel, mit einer minimalen Anzahl an Kameras und Mikrofonen eine hinreichend gute Abdeckung des Raumes zu erreichen. Für die Bewegungserfassung ist der Einsatz stereoskopischer Kameras vorgesehen; für die Gesichtserfassung wird auf motorisiert schwenkbare Kameras orientiert, so dass diese den Gesichtern folgen können. Auf der Grundlage der ermittelten Parameter (Anzahl, Positionen, Freiheitsgrade der Bewegung, Zoombereiche der Kameras) wird das benötigte Rechnersystem zur Ansteuerung und Datenaufnahme geplant. Im nächsten Schritt erfolgt der Aufbau einer gegenständlichen Nachbildung des Messraumes mit Attrappen der technischen Geräte. Darin wird das sensorische System integriert, evaluiert und optimiert.

AP 2: Datenanalyse und Sensordatenfusion

Durchführende Professur: Prozessautomatisierung
Es erfolgt die Festsetzung der Eingabe- bzw. Ausgabeparameter für alle Projektpartner und basierend darauf die Erhebung erster Eingabedaten, die per Hand annotiert werden, damit eine unabhängige Entwicklung der Datensensorfusion schon in den ersten Monaten des Projektes stattfinden kann. Anschließend erfolgt die Implementierung der Sensordatenfusion.

AP 3: Vorverarbeitung der stereoskopischen Bilddaten

Durchführende Professur: Graphische Datenverarbeitung und Visualisierung
Die stereoskopischen Kameras liefern 3D-Punkte mit Farbinformationen für die erfassten Oberflächen. Zunächst müssen aus diesen Punktwolken diejenigen Punkte extrahiert werden, die sich auf der Körperoberfläche eines Nutzers befinden. Hierzu sollen Verfahren wie Hintergrundsubtraktion und Segmentierung aufgrund von Farbwerten eingesetzt werden. Ferner können Kohärenzeigenschaften der Aufnahmefolgen ausgenutzt werden. Anschließend werden die Punktwolken aller Perspektiven zu einer Repräsentation der Körperoberfläche vereinigt.

AP 4: Grundlagen der Mimikerfassung

Durchführende Professur: Künstliche Intelligenz
Basierend auf existierenden Verfahren zur Erfassung von Mimikfeatures wird ein Active Appearance Modell implementiert und getestet. Zur Anwendung des Verfahrens auf Bildsequenzen und der Verbesserung der Robustheit bzgl. Körperbewegungen wird es unter Verwendung optischer Fluss-Information erweitert, ohne dass eine manuelle Anpassung der Orte von lokalen Merkmalen erforderlich ist. Mimikfeatures mit zugeordneten emotionalen Annotationen werden für AP2 bereitgestellt. Außerdem wir in diesem AP ein Algorithmus identifiziert, mit dem die Pupillenpositionen in den Gesichtsaufnahmen extrahiert werden können.

AP 5: Erfassung und Analyse von Audiodaten für den Evaluationskorpus

Durchführende Professur: Medieninformatik
Zunächst werden im Schulungszentrum Audiomitschnitte der Sprachsignale der Lotsen während typischer und kritischer Flugsituationen vorgenommen. Die Audiomittschnitte werden mit Hilfe der Annotationswerkzeuge der Professur MI hinsichtlich ihrer Emotionalität annotiert und semiautomatisch transkribiert. Es wird ferner eine Phrasensammlung erstellt, die in kritischen Situationen geäußerte Phrasen (Wörter, Teilsätze, Sätze) enthält. So entsteht ein umfangreicher Evaluationskorpus, an dem die weiteren Verfahren getestet werden können. In Vorbereitung für AP 11 erfolgen die Definition emotionaler Features und Voruntersuchungen zur Detektion dieser Features in den Sprachsignalen.

AP 6: Konzeptionelle Entwicklung des Kommunikationsmoduls

Durchführende Professur: Medienpsychologie
Die Modellentwicklung basiert auf umfangreichen Datenerhebungen: Experteninterviews, Verhaltensbeobachtungen, Videokonfrontationen, experimentellen Bedingungsvariationen bei Simulationsläufen mit Variation des Workloads und Erhebung der emotionalen Befindlichkeit der Teilnehmer. Zur Erhebung psychophysiologischer Daten soll mobiles Messequipment in einem der Simulationslabore der DFS installiert und für das Setting standardisiert werden. Anschließend erfolgt die Konzeption und Erstellung eines abstrakten Modells, welches die möglichen Zustände der Emotionen und des Kommunikations- und Interaktionsverhaltens, die bestimmenden Größen dieser Zustände sowie ihre wechselseitigen Abhängigkeiten beschreibt. Parallel dazu beginnt die Auswertung der Logfiles der Trainingspiloten, die in den Simulationsläufen die Anweisungen der Lotsen umsetzen. Durch geeignete Datenaggregation soll eine Methode zur Rekonstruktion des Lotsenhandelns entwickelt werden, was die erhobenen Sensordaten sinnvoll ergänzt.

AP 7: Konzeption einer emotionsadaptiven Nutzerschnittstelle

Durchführende Professur: Visual Computing
Zunächst erfolgt eine Untersuchung der Nutzerschnittstelle der aktuellen und geplanten Produktivsysteme unter Maßgabe intuitiver Interaktion und effizienter Visualisierung. Danach werden die Arbeits- und Belastungsmuster kategorisiert sowie zu optimalen Bedien- und Visualisierungskonzepten im Rahmen einer adaptiven Nutzerschnittstelle zugewiesen. Beide Analyseschritte werden zum Teil vor Ort bei den tatsächlichen Nutzern und immer in enger Zusammenarbeit mit diesen durchgeführt. Im finalen Entwicklungsschritt wird das Design der adaptiven Nutzerschnittstellen entwickelt und die Verknüpfung zu den jeweiligen Emotions- und Kommunikationszuständen festgelegt. Dies geschieht in einem schrittweisen Prozess unter ständiger Verfeinerung durch Nutzerinput.

Projektphase 2: Methoden zur Verarbeitung der erfassten Daten

AP 8: Implementierung des Kommunikationsmodells

Durchführende Professuren: Prozessautomatisierung und Medienpsychologie
Das Agentenmodell aus AP6 wird in enger Zusammenarbeit mit den anderen Arbeitsgruppen implementiert. Es resultiert ein Simulationsprototyp zur dynamischen Bestimmung der emotionalen Befindlichkeit und des Zustandes des Kommunikationssystems der Lotsendyade. Der Simulationsprototyp erhält als Input empirische Daten aus aufgezeichneten realen Simulationssitzungen bei der DFS inklusive der bearbeiteten Logfiles, die einer Sensordatenfusion unterzogen wurden (AP2). Für die bei der DFS erhobenen Daten werden zusätzlich die emotionale Befindlichkeit und der Zustand des Kommunikationssystems mittels standardisierter psychologischer Instrumente erhoben. Diese Daten dienen als Kriteriumsvariablen (AVs), die durch Läufe des Simulationsmodells vorhergesagt werden sollen. Die Simulation respektive das zugrundeliegende Agentenmodell wird in einer iterativen Test-Entwicklungs-Sequenz verbessert. Zur Optimierung und Anpassung der Modellparameter werden Methoden des maschinellen Lernens ausgewählt und erprobt.

AP 9: Erzeugung von Bewegungsdaten der Teammitglieder

Durchführende Professur: Graphische Datenverarbeitung und Visualisierung
Die in AP3 gewonnenen Körperoberflächen sind repräsentiert als attribuierte Punktdaten, wobei zu den Raumkoordinaten mindestens Farbwerte gespeichert sind. Die Bewegungsdaten werden gewonnen durch die Einpassung kinematischer Skelette in die Oberflächendaten der Teammitglieder. Die formale Beschreibung des Skeletts beruht dabei auf einem Satz von Gelenkpositionen, Abständen und Drehwinkeln. Körperhaltungen und Bewegungen lassen sich durch Animation des Parametersatzes beschreiben. Randbedingungen des Parametersatzes sichern die Konsistenz des Skelettmodells. Weitere Arbeitsaufgaben bestehen in der Algorithmenentwicklung zur Abschätzung von Blickrichtungen unter Annahme einer gegebenen Körperhaltung und den Positionen der Pupillen in den Bilddaten sowie der Erweiterung des Skelettmodells um Blickrichtungsinformationen.

AP 10: Extraktion von emotionsrelevanten Mimikfeatures

Durchführende Professur: Künstliche Intelligenz
Das in AP4 entwickelte und getestete Verfahren wird hinsichtlich der Herstellung von Echtzeitfähigkeit durch eine GPU basierte Parallelisierung der Modellberechnung optimiert. Zur emotionalen Auswertung der Gesichtsausdrücke im Modul „Emotionsmodell“ wird ein Candide Face Modell zur Bestimmung der FACS Action Units verwendet. Die Performanz dieses Modells wird anhand von FACS-Datenbanken überprüft, d. h. anhand von Gesichtsausdrücken, die von einem geschulten FACS Experten klassifiziert wurden.

AP 11: Extraktion emotionaler Features im Sprachsignal

Durchführende Professur: Medieninformatik
Aus dem Audiosignal werden die in AP 5 spezifizierten Features extrahiert, die Aufschluss auf emotionale Erregung liefern können. Basis dieser Feature-Extraktion ist das Analyseframework AMOPA der Professur Medieninformatik und die Open-Source-Lösung „Open Smile“. Die Features werden anhand des Evaluationskorpus auf ihre Genauigkeit hin geprüft, ausgewählt und ihre Analyse verfeinert.

AP 12: Visualisierung des Emotions- und Kommunikationsmodells

Durchführende Professur: Visual Computing
Zunächst wird der Stellenwert und Charakter der einzelnen Ausgabevariablen des Emotions- und Kommunikationsmodells für verschiedene Nutzergruppen (Systembediener, Vorgesetzte, Manager), wieder in enger Zusammenarbeit mit den jeweiligen Gruppen, erarbeitet. Auf Basis dieses Feedbacks werden erste Designs für Visualisierungen und Interaktionsparadigmen im Rahmen der einzelnen Anforderungslevel angefertigt und mit weiterem Nutzerinput schrittweise verfeinert. Nach der Implementierung der finalen Prototypen erfolgt eine Evaluation unter Einbindung der jeweiligen Nutzergruppen.

Projektphase 3: Methoden zur Auswertung der erfassten Daten

AP 13: Auswertung der Bewegungsdaten

Durchführende Professur: Graphische Datenverarbeitung und Visualisierung
Es werden relevante Körperhaltungen sowie mathematische Merkmale zur Erkennung dieser Posen in den Bewegungsdaten definiert. Anschließend erfolgt die Analyse der Bewegungsdaten in Bezug auf die von den Teammitgliedern eingenommen Posen und der zugehörigen Blickrichtungen. Dies beinhaltet die Positionierung und Ausrichtung der Personen zueinander und in Bezug auf die technischen Geräte. Die Auswertung wird um eine Erkennung einfacher deiktischer Gesten erweitert.

AP 14: Dynamische Klassifikation von relevanten FACS Action Units

Durchführende Professur: Künstliche Intelligenz
In diesem Arbeitspaket soll die zeitliche Entwicklung von Gesichtsausdrücken modelliert werden, indem Zeitreihen von Action Units bestimmter Gesichtsausdrücke durch Hidden Markov Modelle gelernt werden. Besonderes Augenmerk wird auf die für das Projekt relevanten Gesichtsausdrücke gelegt. Weiterhin wird die Funktionalität des Moduls „Mimik“ im Gesamtsystem sichergestellt und getestet.

AP 15: Fusion von Signalanalyse und Sprachanalyse

Durchführende Professur: Medieninformatik
Mit Hilfe des Evaluationskorpus wird zunächst eine Software für automatische Spracherkennung (z. B. die Open Source-Lösung „GMU Sphinx“) trainiert. Da der Umfang des von den Lotsen genutzten Wortschatzes vergleichsweise begrenzt ist, wird die Spracherkennung bei entsprechendem Training sehr gute Ergebnisse liefern können. Im nachfolgenden Schritt werden die Daten der Signalanalyse und der Sprachanalyse miteinander fusioniert. Es wird eine Evaluation über die Aussagekraft der einzelnen Analysen sowie ihrer Fusionierung durchgeführt.

AP 16: Feinabstimmung zwischen Sensorfusion und Kommunikationsmodell

Durchführende Professur: Prozessautomatisierung
In diesem Arbeitspaket werden alle Algorithmen mit den in AP2 definierten Ausgabeparametern in die Sensordatenfusion integriert, und es folgt die Evaluation der besten Abstimmung zwischen Sensordatenfusion und Emotionsmodell. Da die Ergebnisse der realen Emotionserkennung in Sprache, Ton und physiologischen Messungen sehr verschieden zu den annotierten Daten sein können, erfolgt in diesem AP die spezifische Anpassung der Sensordatenfusion an die Begebenheiten der realen Sensoren.

AP 17: Implementierung einer adaptiven Schnittstelle

Durchführende Professur: Visual Computing
Maßgebliches Ergebnis des AP7 ist ein praktisch valides, aber noch theoretisches Design der adaptiven Nutzerschnittstelle. Diese wird nun schrittweise in einem Testsystem zu einem funktionsfähigen Prototyp umgesetzt. Dies geschieht wieder schrittweise, wobei Nutzerfeedback von der DFS jederzeit berücksichtigt und in die agile Umsetzung integriert wird. Die Evaluation des Prototyps erfolgt mit echten Nutzern an echten Problemstellungen in enger Abstimmung mit der Professur MP (siehe AP 18). Dabei stehen Fragen der Usability und Akzeptanz im Vordergrund.

AP 18: Evaluierung des Gesamtsystems

Durchführende Professur: Medienpsychologie
Das Agentenmodell kommt bei Simulationsläufen mit Testpiloten bei der DFS unter Echtzeitbedingungen zur Anwendung. Während ausgewählter Simulationen bei der DFS läuft das Agentenmodell im Hintergrund. Das Modell wird empirisch validiert. Ein Gütetest besteht darin, zu überprüfen, ob ein signifikanter diagnostischer Zugewinn an valider Information über die psychische Befindlichkeit von Lotsen gegenüber der Einschätzung eines menschlichen Experten, der die Lotsenteams beobachtet, erzielt werden kann. Darüber hinaus wird die Wirkung der Rückkopplung des Systems auf die Nutzer durch die Adaption der Nutzerschnittstelle evaluiert. Dabei steht die Frage im Vordergrund, welche Auswirkungen die Anpassung der Nutzerschnittstelle auf die Arbeitsweise und das Befinden der Nutzer hat.