Daten & Methodik · Pronunciation Matters

Welche Daten entstehen

Pronunciation Matters arbeitet mit Sprachaufnahmen von Lernenden und Referenzsprecher:innen. Zu jeder Aufnahme gehören Metadaten, die die wissenschaftliche Einordnung ermöglichen, ohne Klardaten in der WebApp offenzulegen. Dazu zählen je nach Sprechergruppe unter anderem Zielsprache, Sprecherstatus, Sprachniveau, Erstsprache, Geschlecht, Aufnahmejahr, Aufnahmekontext, Aufenthalte im Zielsprachenraum oder bei Referenzsprecher:innen Angaben zu Herkunft und Standardvarietät.

Die Daten werden pseudonymisiert geführt. Klardaten, Einwilligungen und organisatorische Dokumente bleiben getrennt von der Forschungsumgebung. Die WebApp arbeitet nicht mit Klarnamen, sondern mit stabilen Personen- und Session-IDs. Diese Trennung ist Grundlage dafür, dass die Daten wissenschaftlich nutzbar sind und zugleich datenschutzgerecht verwaltet werden.

Neben den Audioaufnahmen entstehen strukturierte Begleitdaten: Aufgabenlisten, Item-IDs, Transkripte, Zeitmarken, Alignment-Daten, Interviewsegmente und Materialverweise. Ziel ist nicht eine bloße Sammlung von Audiodateien, sondern ein analysierbares Korpus, in dem Aufnahmen, Aufgaben, Metadaten und WebApp-Funktionen zusammenpassen.

Aufgabenformate

Die Projektkorpora arbeiten mit mehreren Aufgabenformaten. Projektweit wichtig sind Wortliste, Satz- bzw. Textaufgabe und Interview. Die genaue Ausgestaltung kann je nach Sprache variieren und wird in den jeweiligen Korpusbereichen beschrieben.

Die Wortliste dient der kontrollierten Erhebung isolierter Aussprache. Sie ist kein Übungsmaterial, sondern ein Elizitationsinstrument. Die Items werden so ausgewählt, dass relevante Aussprachephänomene mehrfach und unter vergleichbaren Bedingungen auftreten. Dabei stehen Intelligibilität, systematische Realisationen und Kontraste im Vordergrund, nicht eine möglichst große Nähe zu einem einzelnen muttersprachlichen Ideal.

Die Satz- oder Textaufgabe ergänzt die Wortliste. Sie prüft, wie Aussprachemuster unter satzprosodischen oder zusammenhängenden Bedingungen auftreten. Für einzelne Korpora kann dies als Satzliste oder als zusammenhängender Text umgesetzt sein. Entscheidend ist, dass die Aufgabe nicht zufällig aus beliebigen Texten besteht, sondern auf die jeweilige Forschungslogik zugeschnitten wird.

Das Interview ergänzt die kontrollierten Leseaufgaben um eine reflexive und weniger stark gesteuerte Komponente. Lernende können über ihre eigene Aussprache, wahrgenommene Schwierigkeiten und auffällige Stellen im Material sprechen. Dadurch wird nicht nur dokumentiert, wie bestimmte Formen realisiert werden, sondern auch, wie Lernende Aussprache wahrnehmen und beschreiben.

Lernendengerechte Item-Auswahl

Die Aufgabenitems werden nicht nur nach fachlichen Phänomenlisten ausgewählt. Sie müssen auch für Lernende bearbeitbar sein. Ein Item kann phonologisch interessant sein und trotzdem ungeeignet, wenn es unnötig selten, morphologisch komplex, stark kulturgebunden oder für die Zielgruppe kaum lesbar ist.

Eine zentrale Erfahrung aus MAR.ELE war, dass vorhandene Forschungsdesigns und etablierte Materiallisten wichtige Anknüpfungspunkte bieten, aber nicht automatisch zu einem lernendengerechten Aussprachekorpus passen. Pronunciation Matters nutzt diese Erfahrung. Wo vorhandene Projekte, Korpora oder Aufgabenformate tragfähig sind, können sie als Referenz dienen. Wo sie für Lernende zu viele Nebenprobleme erzeugen, werden sie angepasst oder durch eigene, kontrollierte Formate ersetzt.

Für die Wortlisten bedeutet das: Die Itemauswahl ist phonologisch motiviert, aber auf Lesbarkeit und Zielgruppenangemessenheit geprüft. Relevante Phänomene sollen mehrfach vorkommen, ohne dass die Liste offen nach Phänomenen sortiert ist. Dadurch wird strategisches oder metasprachlich gesteuertes Lesen reduziert.

Für Satz- und Textaufgaben bedeutet das: Die Materialien sollen verständlich und formal kontrolliert sein. Bei Satzlisten werden Items aus der Wortliste unter satzprosodischen Bedingungen erneut aufgegriffen, ohne neue Aussprachephänomene ungeprüft einzuführen. Bei zusammenhängenden Texten wird darauf geachtet, dass die Struktur des Materials zur jeweiligen Forschungsfrage passt.

Audioaufbereitung und Annotation

Die zeitliche Struktur der Aufnahmen entsteht bei Wortliste und Satz- bzw. Textaufgaben nicht durch eine pauschale automatische Transkription. Stattdessen wird ein kontrollierter Audio- und Alignment-Workflow verwendet.

Zunächst werden die Audioaufnahmen in einem verlustfreien Arbeitsformat vorbereitet. Relevante Aufnahmen werden gesäubert, und zwischen den Items werden standardisierte Pausen gesetzt. Diese Pausen sind kein nebensächlicher Bearbeitungsschritt. Sie ermöglichen es, die Aufnahmen zuverlässig in Item- oder Satzsegmente zu zerlegen.

Für die Segmentierung wird Praat eingesetzt. Über Praat-Annotationen und Scripts können Itemgrenzen erkannt und mit den festen Masterlisten des jeweiligen Materials verbunden werden. Bei Wortlisten lassen sich die sounding-Intervalle den einzelnen Items zuordnen. Bei Satzlisten und Textsegmenten werden die Segmentgrenzen mit den kanonischen Materialkatalogen abgeglichen.

Für Satz- und Textaufgaben wird zusätzlich Montreal Forced Aligner genutzt. Dabei werden Audio, Transkript bzw. Mastertext, Akustikmodell und Aussprachelexikon zusammengeführt, um Wortgrenzen innerhalb der Segmente zu erzeugen. So entstehen Zeitmarken, die nicht nur ganze Items, sondern bei geeigneten Daten auch einzelne Wörter innerhalb von Sätzen oder Textabschnitten abbilden können.

Die Ergebnisse werden in strukturierte Zielformate überführt. TextGrid-Dateien, Alignment-Daten und kanonische JSON-Strukturen bilden die Grundlage für den späteren Player, für Hervorhebungen im Text und für gezielte Vergleichsfunktionen in der WebApp.

Interviewtranskription

Für Interviews gilt eine andere Logik als für Wortlisten und Satz- bzw. Textaufgaben. Das Interview ist nicht primär ein phonetisches Feinalignment, sondern ein inhaltlich auswertbares Gespräch über Aussprache, Aufgabenwahrnehmung und subjektive Schwierigkeiten.

Die Interviewtranskripte folgen einem einfachen, inhaltsorientierten Transkriptionsschema in Anlehnung an Dresing/Pehl. Ergänzend werden wenige für das Projekt relevante Phänomene standardisiert mitgeführt: Fülllaute, Selbstkorrekturen und Abbrüche, relevante kurze Pausen sowie relevantes Lachen oder Seufzen. Auf eine gesprächsanalytische Feinnotation, detaillierte Prosodiemarkierung oder phonetische Detailtranskription wird bewusst verzichtet.

Für die Interviewbearbeitung kann ein automatisch erzeugtes Rohtranskript als Arbeitsgrundlage genutzt werden. Dieses Rohtranskript wird redaktionell überprüft. Sprecherzuordnung, Segmentierung, Interpunktion, Fülllaute und relevante Materialverweise werden korrigiert oder ergänzt. Anschließend wird der Export per Script in ein kanonisches PROMAT-Interview-JSON transformiert.

Die Interviewdaten sind segmentbasiert. Das heißt: Sprecherwechsel und Gesprächssegmente sind die primäre Struktur. Tokenzeiten können für Anzeige, Suche, Hervorhebung oder spätere Erweiterungen erhalten bleiben, werden aber nicht als phonetisch hochpräzises Feinalignment behauptet.

Intake, Pseudonymisierung und Datenintegration

Vor dem Import in die WebApp durchlaufen die Daten einen Intake-Prozess. Dieser Prozess dient der kontrollierten Erfassung und Prüfung von Teilnehmendendaten, Sessiondaten, Dokumentverweisen und aufnahmebezogenen Informationen. Er ist nicht die Forschungsdatenbank selbst, sondern eine vorbereitende Arbeits- und Prüfschicht.

Klardaten und Einwilligungsdokumente bleiben im Secure-Bereich. Pseudonymisierte Personendaten, Sessiondaten und Exposure-Angaben werden getrennt davon erfasst. Eine stabile person_id verbindet die Ebenen, ohne Klarnamen in die Forschungsdaten zu übernehmen. Die finale session_id wird nicht frei manuell erfunden, sondern aus den geprüften Sessioninformationen erzeugt.

Nach der Erfassung werden Audio-, Annotation- und Metadaten in eine Zielstruktur überführt. Dort liegen Rohdaten, bearbeitete Arbeitsdateien, Alignment-Dateien, Web-Derivate und itembezogene Audiodateien getrennt vor. Scripts integrieren die Daten in die WebApp und in die Forschungsdatenstruktur. Dadurch bleibt nachvollziehbar, welche Dateien ursprüngliche Aufnahmen sind, welche Dateien Bearbeitungsergebnisse darstellen und welche Artefakte für die Webnutzung bereitgestellt werden.

WebApp als Forschungsinstrument

Die WebApp ist nicht nur ein Ablageort für Audiodateien. Sie ist ein Arbeitsinstrument für Forschung und Hochschullehre.

Nutzer:innen können Aufnahmen gezielt aufrufen, Aufgabenformate wechseln und Sprecher:innen vergleichen. Der Player verbindet Audio, Zeitmarken und Materialtexte, sodass Wortlisten, Satzlisten, Texte und Interviews jeweils in einer passenden Darstellung genutzt werden können.

Für vergleichende Analysen bietet die WebApp eigene Forschungsoberflächen. Aufzeichnungen können nach Personen, Sessions, Aufgabenformaten oder phänomenbezogenen Zusammenstellungen untersucht werden. Für die Analyse bestimmter Aussprachephänomene lassen sich Sets von Items vorauswählen, anlegen und modifizieren. Solche Sets können anschließend in Vergleichsansichten oder im Player genutzt werden, ohne dass die zugrunde liegenden Datenstrukturen von Hand bearbeitet werden müssen.

Referenzaufnahmen spielen dabei eine besondere Rolle. Sie bilden in den jeweiligen Sprachen wichtige Standardaussprachen ab und dienen nicht als eigenes Untersuchungsobjekt. Ihre Funktion besteht darin, ein tertium comparationis bereitzustellen: Lernendenaussprache und Zielaussprache können anhand derselben Items akustisch sauber miteinander verglichen werden. Die Referenzaufnahmen sind damit keine einfache Normfolie, sondern eine kontrollierte Vergleichsachse für Forschung, Lehre und Materialentwicklung.

Diese Funktionen sind besonders für die Hochschullehre relevant. Studierende können nicht nur einzelne Beispiele anhören, sondern systematisch mit ausgewählten Daten arbeiten: etwa um segmentale Kontraste, prosodische Muster, typische Lernendenschwierigkeiten oder Unterschiede zwischen Lernenden- und Referenzaufnahmen zu untersuchen.

Zugriff, Schutz und Veröffentlichung

Pronunciation Matters unterscheidet zwischen geschützten Forschungsdaten und öffentlich freigegebenen Materialien.

Geschützte Forschungsdaten umfassen insbesondere Sprachaufnahmen, pseudonymisierte Metadaten, Playerzugänge, detaillierte Vergleichsansichten und Arbeitsflächen zur phänomenbezogenen Auswahl. Diese Bereiche stehen nicht frei im öffentlichen Web, weil Stimme und Metadaten auch in pseudonymisierter Form sensible Forschungsdaten bleiben.

Öffentliche Inhalte sind Projektinformationen, allgemeine Methodenbeschreibungen, sprachspezifische Designinformationen und freigegebene Unterrichtsmaterialien. Unterrichtsmaterialien können aus der Forschungsarbeit hervorgehen, werden aber erst nach fachlicher und rechtlicher Prüfung öffentlich bereitgestellt.

Auf diese Weise verbindet die Plattform Transparenz und Schutz. Das Projekt soll nachvollziehbar sein und Materialien für Lehre und Unterricht verfügbar machen, ohne personenbezogene Forschungsdaten unkontrolliert zu veröffentlichen.