Die Sprachwissenschaft arbeitet mit verschiedenen Forschungsmethoden und stützt sich dabei auf Daten, die sie wissenschaftlich auswertet. In diesem Kapitel werden einige Möglichkeiten des sprachwissenschaftlichen Zugangs kurz vorgestellt. Ausführlichere Darstellungen und Hilfe bei der eigenen Forschungsplanung geben Rothstein (2011), aus der Perspektive des Deutschen als Fremd- und Zweitsprache Settinieri et al. (2014). Speziell den Fremdsprachenunterricht fokussiert Doff (2012).

Auf welche Art und Weise können Sprachdaten gewonnen werden? Der einfachste Zugang ist sicherlich, das eigene Sprachwissen zu reflektieren. Einen solchen Zugang bezeichnet man als „Introspektion“ (Innenschau). Ausgehend von der eigenen Sprachkompetenz lassen sich z. B. verschiedene Möglichkeiten des Satzbaus ausprobieren (Die Linguistin studiert den Satzbau. Den Satzbau studiert die Linguistin. *Linguistin die Satzbau den studiert.) und als grammatikalisch korrekt oder inkorrekt (*) bewerten. Introspektion ist Bestandteil jeder wissenschaftlichen Forschung. Als alleiniger Zugang der Sprachbeschreibung ist sie allerdings nicht hinreichend.

Zum einen können viele sprachwissenschaftliche Fragen nicht durch Introspektion beantwortet werden, z. B. die, welches „r“ für die deutsche Standardsprache charakteristisch ist, ob sich die Sprache verschiedener sozialer Gruppen unterscheidet, welches Modalverb im Deutschen am häufigsten verwendet wird etc. Antworten ergeben sich erst durch den Einbezug einer Vielzahl von Sprachdaten verschiedener Sprecherinnen und Sprecher. Zum anderen ist das Sprachwissen eines Einzelnen stets lückenhaft und durch seine individuellen Spracherfahrungen geprägt. Ein Linguist, der eine Sprachbeschreibung allein auf seine eigene Sprachkompetenz gründet, läuft Gefahr, unzutreffende Beurteilungen vorzunehmen. Ein Abgleich des individuellen Wissens mit dem allgemeinen Sprachgebrauch ist notwendig. Ein Beispiel: Bei der Untersuchung mündlicher Sprache ausgehend von Gesprächsaufnahmen stellte man fest, dass Konjunktionen wie weil oder obwohl in der mündlichen Sprache meist mit Zweitstellung des Verbs auftreten (s. (Ts1) Nee, es ist überhaupt nicht gut. Weil da sitzen viel zu viel Leute drin). [ 1 ] Eine Befragung des eigenen Wissens hätte diese Konstruktion als „ungrammatikalisch“ klassifiziert, da die Grammatikschreibung von einer Verbendstellung in Nebensätzen ausgeht. [ 2 ] Erst der Blick auf zahlreiche authentische Daten gesprochener Sprache setzte neue Überlegungen in Gang. Dem grammatischen Phänomen liegt kein ‚Vergessen‘ der gelernten Regeln, sondern ein Bedürfnis der Sprecher zugrunde, das auf die besonderen Handlungsumstände von Mündlichkeit zurückgeht (s. Kap. 16).

Neben dem Problem der Verallgemeinerbarkeit bringt ein introspektives Vorgehen ein weiteres Problem mit sich, nämlich das der Wahrnehmbarkeit bzw. Bewusstheit bestimmter sprachlicher Erscheinungen und Formen. So werden manche linguistische Phänomene (z. B. Hörerrückmeldungen durch hm) erst dann bemerkt, wenn man weiß, dass es sie gibt. Beide Probleme, Verallgemeinerbarkeit und Bewusstheit, sind nicht trivial, sondern stellen sich als grundsätzliche Forschungsprobleme auch bei alternativen Herangehensweisen, die als empirische Methoden der introspektiven Sprachbetrachtung gegenübergestellt werden können.

Empirie (von griech. empeiria) bedeutet „Erfahrung“. Bei einem empirischen sprachwissenschaftlichen Vorgehen nähert man sich dem Untersuchungsgegenstand ausgehend von Daten, die systematisch durch verschiedene Verfahren erhoben werden können. Grundsätzlich unterscheiden lassen sich hier als Herangehensweisen die Informantenbefragung, das Experiment, die Beobachtung und die Aufzeichnung und Auswertung authentischer Daten. Natürlich spielt Introspektion auch bei diesen Verfahren eine Rolle: In vielen Zusammenhängen ist es hilfreich, wenn Linguisten auf eigene Sprachkenntnisse zurückgreifen oder Sprecher einer Sprache zur Einschätzung von Formen oder Äußerungen befragt werden können.

Die wissenschaftliche Untersuchung entscheidet sich oft für eine der methodischen Herangehensweisen. Manchmal werden aber auch mehrere methodische Verfahren auf einen Gegenstand angewendet und die Ergebnisse der verschiedenen Herangehensweisen zueinander in Beziehung gesetzt. Ein solches Vorgehen bezeichnet man als Triangulation. So kann z. B. einer (mündlichen oder schriftlichen) Spracherhebung in einer alltäglichen Umgebung eine Informantenbefragung vorausgehen. Ein gezieltes Interview mit den Sprechenden oder Schreibern kann folgen; auch können Untersuchungsergebnisse gegebenenfalls mit diesen besprochen und diese Gespräche als weitere Datenquelle genutzt werden. Da das Ergebnis einer solchen Forschung durch mehrere Verfahren abgesichert ist, gelten triangulatorische Verfahren als besonders wertvoll, sind aber entsprechend aufwendig in ihrer Durchführung.

Möchte man, wie in Forschungen zum Spracherwerb, Aussagen über zeitliche Verläufe machen, bieten sich zwei Forschungsdesigns an. Zum einen kann die Methode der Längsschnittstudie (Langzeitstudie) gewählt werden. Bei einer solchen Herangehensweise begleitet man die Probanden, also die Versuchspersonen oder untersuchten Personen, über einen längeren Zeitraum, oft mehrere Jahre oder gar Jahrzehnte hinweg, wobei in bestimmten Abständen Daten erhoben werden. Eine andere Möglichkeit ist die Querschnittstudie. Dabei erhebt man zu einem bestimmten Zeitpunkt Sprachdaten in verschiedenen Altersgruppen und schließt dann auf einen zeitlichen Verlauf. Zwei große Studien zum Erwerb des Deutschen durch ausländische Arbeiter, das „Heidelberger Forschungsprojekt Pidgin-Deutsch“ und das Projekt „ZISA“ (Zweitspracherwerb italienischer und spanischer Arbeiter) (vgl. Kap. 18.1), waren beispielsweise als Querschnittstudien angelegt.

An wissenschaftliche Forschung besteht der Anspruch, auch von anderen nachprüfbar zu sein. Dazu muss nachvollziehbar sein, wie die Ergebnisse gewonnen wurden. Auch das zugrundeliegende Datenmaterial selbst sollte daher – umfassend oder zumindest in Ausschnitten [ 3 ] – für eine Überprüfung und gegebenenfalls erneute Analyse zugänglich sein. So ist es wissenschaftlicher Standard, Ausschnitte aus den Daten (z. B. Fragebögen, Beispieltexte, Transkripte) zu veröffentlichen, die das Vorgehen belegen und die Argumentation nachvollziehbar werden lassen.

4.1.1 Informantenbefragung und Experiment

Die Befragung von Informanten bildet ein Vorgehen, das bei der Beschreibung oraler, d. h. rein mündlich vorkommender Sprachen insbesondere im 18./19. Jahrhundert häufig genutzt wurde. So geht die Beschreibung vieler Indianersprachen auf die Befragung von mehrsprachigen Personen zurück, die den Ethnologen oder Linguisten, die selbst nicht über entsprechende Sprachkenntnisse verfügten, über ihre Erstsprachen Auskunft gaben. [ 4 ] Häufige Verfahren der Informantenbefragung sind die (schriftliche) Fragebogen-Untersuchung und das (mündliche) Interview.

In einer Befragung durch Fragebogen lassen sich, insbesondere in Zeiten des Internet, viele Probanden erreichen. Sie besitzt zudem den großen methodischen Vorteil einer Standardisierung, d. h. einer Vergleichbarkeit der gewonnenen Daten. Je nach Konstruktion der Fragen wird der Untersuchungsgegenstand unter Umständen allerdings auch sehr stark eingeschränkt. Grundsätzlich lassen sich verschiedene Fragetypen unterscheiden. Den am stärksten begrenzten Fragetyp bilden Multiple-choice-Fragen, die in ihrer Formulierung bereits eine bestimmte Sicht auf den Gegenstand bieten und mögliche Antworten vorgeben. Die so gewonnenen Ergebnisse sind daher nur eingeschränkt aussagekräftig. Eine Frage wie „Wie gut sprechen Sie Deutsch?“ mit den Antwortmöglichkeiten „muttersprachlich“, „fließend“, „weniger gut“, „nicht gut“, „schlecht“ gibt z. B. nur Auskunft über die Selbsteinschätzung der Befragten; sie sagt jedoch nichts darüber aus, inwieweit sie zutrifft. Problematisch sind auch die wertenden Kategorien, da darunter Unterschiedliches verstanden werden kann.

So genannte „halboffene“ oder „offene“ Fragen, die selbst formulierte Antworten der Befragten zulassen, sind weniger stark in den Antwortmöglichkeiten eingeschränkt. Sie sind statistisch allerdings wesentlich schwerer auszuwerten. Als Beispiel für eine Frage-bogenuntersuchung durch halboffene Fragen kann die umfangreiche Datenerhebung zu den deutschen Dialekten durch Wenker herangezogen werden, die in den „Deutschen Sprachatlas“ mündete. Angeschrieben wurden die Schullehrer an zahlreichen Schulen im deutschen Sprachgebiet. Sie wurden um die Übertragung von 40 Beispielsätzen in den Ortsdialekt gebeten, wobei gegebenenfalls bei den Schülern nachzufragen sei. Die Sätze, unter ihnen z. B. „Der gute alte Mann ist mit dem Pferd(e) auf dem Eis eingebrochen und in das kalte Wasser gefallen“ (Wenkersatz Nr. 4) waren aufgrund ihrer Lautstruktur ausgewählt worden. [ 5 ] Da die schriftliche Übertragung der dialektalen Lautung ein methodisches Problem bildete, wurden die erhobenen Daten in Folgeuntersuchungen gezielt um Tonaufnahmen ergänzt. [ 6 ]

In Fragebogenuntersuchungen finden sich auch oft offene Fragen, z. B., wenn die Befragten zu Kommentaren aufgefordert werden. Charakteristisch sind offene Fragen für den Untersuchungstyp Interview. So stellte William Labov in einer berühmten Untersuchung zum afroamerikanischen Englisch beispielsweise die Eingangsfrage „Waren Sie schon einmal in Todesgefahr?“ und forderte so zu Erzählungen auf, die er anschließend strukturell untersuchte. Ein Interview, das spezifisch darauf abzielt, die zu untersuchenden Personen zu längeren Ausführungen und Erzählungen zu bewegen, wird als „narratives Interview“ bezeichnet. Die Interviewenden gehen dabei auf die Äußerungen ihrer Gesprächspartner flexibel ein. Nachfragen sind möglich, thematische Abschweifungen erlaubt, das Gespräch soll so „natürlich“ [ 7 ] wie möglich verlaufen. Ist für das Interview hingegen die „Abarbeitung“ einer Liste zu stellender Fragen vorgesehen, spricht man von einem „strukturierten Interview“. Häufig findet sich als Mischform auch das „halbstrukturierte Interview“, das eine situationssensitive Gesprächsführung bei gleichzeitiger Ausrichtung an einem Fraugenkatalog zulässt, wobei die Fragen nicht notwendigerweise in einer bestimmten Reihenfolge angesprochen werden müssen.

Das Hervorrufen sprachlicher Daten durch Aufforderungen oder Fragen der untersuchenden Linguisten bezeichnet man als Elizitierung. Die Elizitierung sprachlicher Daten ist nicht immer leicht. Auch unterliegen elizitierte Daten einer gewissen Einschränkung: Sie werden von den Untersuchten zwar spontan geäußert, es bleibt aber offen, ob das betreffende Phänomen auch ohne Elizitierung im normalen Alltag so produziert werden würde. Gerade im Zusammenhang der Untersuchung von Dialekten oder anderen Varietäten stellt sich als weiteres Problem der Einfluss, den die sprachwissenschaftlichen Interviewer durch ihre eigene Sprechweise unwillentlich auf die Informanten ausüben: Ein nicht dialektkundiger Linguist wird in Interviews nur schwerlich basisdialektale Sprechweisen erheben können.

Auch das sprachwissenschaftliche Experiment ist als Verfahren durch die Elizitierung von Daten gekennzeichnet. Im Experiment werden Versuchspersonen mit Aufgaben oder Situationen konfrontiert, die sie bewältigen müssen. Zum Teil werden dabei ihre sprachlichen Äußerungen aufgezeichnet, zum Teil geht es aber auch um Reaktionszeiten, Augenbewegungen (z. B. beim Lesen) oder neuronale Vorgänge, die apparativ erfasst und gemessen werden (s. Kap. 3.4.3). Für bestimmte linguistische Fragestellungen ist ein experimentelles Vorgehen unumgänglich. Ein großer Vorteil des Experiments ist die Vergleichbarkeit des so gewonnenen Materials. Indem man z. B. untersucht, wie verschiedene Probanden unterschiedlicher Herkunftssprachen die Aufgabe lösen, eine Bildgeschichte oder ein Video nachzuerzählen, lassen sich sprachkontrastiv Einblicke in die Sprachproduktion oder erwerbsbezogene Phänomene gewinnen. [ 8 ] Entsprechende Aufgabenstellungen können auf die Erhebung mündlicher oder schriftlicher Sprachdaten abzielen.

4.1.2 Sammlung und Erhebung authentischer Sprachdaten

Ein grundsätzlich anderer Zugang zum Gegenstand besteht darin, ihn in seinem „natürlichen Umfeld“, d. h. in seinem nicht durch die Forschenden hervorgerufenen Auftreten zu untersuchen. Im Unterschied zu elizitierten Daten spricht man dann von „authentischen“ Sprachdaten. Bei authentischen Sprachdaten handelt es sich um Daten, die direkt dem sprachlichen Alltag entnommen werden. [ 9 ] Dies können schriftliche Texte sein, wie sie z. B. in Zeitungen oder Büchern aufzufinden sind (s. Kap. 4.3.1), es kann sich um mediale Kommunikationsformen wie Werbefilme handeln oder aber um Gespräche im familiären oder beruflichen Umfeld, die mitgeschnitten werden. Authentische Gespräche sind für die Linguistik besonders interessant, gleichzeitig aber am schwierigsten zu erheben.

Sind die Forschenden selbst in den Situationen anwesend, die von ihnen durch eine Ton- oder Videoaufzeichnung erfasst werden, bezeichnet man das als teilnehmende Beobachtung.

Viele der gegenwärtigen linguistischen Forschungen, u. a. die Untersuchung von Unterrichtskommunikation, sind durch teilnehmende Beobachtung gekennzeichnet. Umfangreichere Formen der teilnehmenden Beobachtung liegen vor, wenn die Forschenden längere Zeit in der zu untersuchenden Sprachgemeinschaft verbringen oder zeitweilig mit den untersuchten Personen zusammenleben. Man bezeichnet diese Art von Forschung als Feldforschung. Besonders häufig wird dieses Verfahren in linguistisch-ethnologischen Forschungszusammenhängen verwendet, so bereits bei Boas (vgl. Kap. 3). Die Kontaktaufnahme mit den zu untersuchenden Personen, d. h. der Feldzugang, gestaltet sich je nach Untersuchungsbereich als mehr oder weniger schwer, da der Einblick in sprachliche Gewohnheiten oft Vertrautheit voraussetzt.

Bereits zu Zeiten der Junggrammatiker war Feldforschung in der Dialektologie üblich. Zum Teil mieteten sich die Forschenden z. B. längere Zeit in einem Ort ein, um die lokalen Ortsgrammatiken aufzuzeichnen. Die entsprechende Technologie für Ton- oder gar Filmaufnahmen stand dabei jedoch noch nicht zur Verfügung. Man war daher auf die direkte oder nachträgliche Mitschrift angewiesen.

Die nachträgliche Aufzeichnung eines Sprachereignisses bezeichnet man als „Erinnerungszitat“. Viele frühe Sprachforschungen, insbesondere auch zum Spracherwerb, sind auf Erinnerungszitate gestützt. Da keine Nachprüfbarkeit besteht, gelten Erinnerungszitate heutzutage nicht mehr als verlässliche Quellen; sie hängen von richtiger Wahrnehmung und vom Gedächtnis des einzelnen ab. Gleichwohl greift man auch heute manchmal noch auf Erinnerungszitate zurück, da die Aufnahmetechnik nicht in allen Momenten bereitsteht, in denen man sich eine Aufzeichnung wünscht. Man spricht dann von „quasiauthentischen“ Belegen. Diese können einen Ausgangspunkt für weitere Untersuchungen bilden, die dem betreffenden Phänomen empirisch nachgehen.

Die Erfassung authentischer mündlicher Sprachdaten ist für viele sprachwissenschaftliche Fragen, etwa die, wie der Sprecherwechsel in Gesprächen verläuft, welche Funktionen sprachliche Variation erfüllt u. a., unumgänglich. Sie ist allerdings zeitaufwendig, da der Erhebung weitere Aufbereitungen folgen (s. Kap. 4.2). Dadurch ist die Anzahl der Personen, die erfasst werden, meist geringer als z. B. bei einer Fragebogenuntersuchung. In der Forschung wird hier von qualitativen Untersuchungsverfahren gesprochen, die auf eine hohe Probandenzahl zugunsten einer inhaltlich vertieften Gegenstandsanalyse verzichten.

Den qualitativen Verfahren werden manchmal die quantitativen Verfahren gegenübergestellt. [ 10 ] Dies ist insofern nicht richtig, als auch qualitative Studien quantitative Auswertungen, z. B. von Worthäufigkeiten, Lautabweichungen etc. umfassen können. Die Frage der Repräsentativität der Daten, d. h. ihrer Verallgemeinerbarkeit und Aussagekraft, ist im Rahmen jeder sprachwissenschaftlichen Untersuchung zu stellen und in der Darstellung der Ergebnisse zu reflektieren (s. Kap. 4.3).

Unterkapitel: 4.1 4.2 4.3 4.4

▲

4.2 Aufzeichnung und Verschriftlichung mündlicher Sprachdaten

Während schriftliche Texte einer sprachwissenschaftlichen Beobachtung unmittelbar zugänglich sind, ist dies bei der mündlichen Kommunikation nicht der Fall. Vielmehr gehen der Untersuchung mündlicher Sprache ihre Aufzeichnung (Aufnahme auf Ton- oder Bild-Ton-Träger) und ihre Verschriftlichung voraus. Da zumeist nicht nur Einzelwörter und kurze Äußerungen, sondern oft längere Gespräche erfasst werden, ergeben sich verschiedene Arbeitsschritte, die z. T. mit methodischen Entscheidungen verbunden sind.

4.2.1 Aufzeichnung

Bei der Erhebung mündlicher Sprachdaten stellt sich ein besonderes Problem, das unter dem Stichwort „Natürlichkeit von Sprachdaten“ diskutiert und in der Linguistik seit William Labov als „Beobachterparadox“ bezeichnet wird. Labov selbst beschreibt das Paradox folgendermaßen:

„Ziel der sprachwissenschaftlichen Erforschung der Gemeinschaft muss sein, herauszufinden, wie Menschen sprechen, wenn sie nicht systematisch beobachtet werden; wir können die notwendigen Daten jedoch nur durch systematische Beobachtung erhalten.“ (1972, S. 147)

Für die Untersuchung sprachlichen Handelns spielt es also eine zentrale Rolle, ob und inwieweit die Beobachtung die zu beobachtende Kommunikation mitbestimmt, d. h. ob sich die Beteiligten „anders als sonst“ verhalten. Die teilnehmende Beobachtung hat den Vorteil, dass der anwesende Forscher sich im Nachhinein an bestimmte Ereignisse während der Aufnahme erinnern und Äußerungen, die in Gesprächen fallen, oft besser deuten kann als jemand, der nicht anwesend war (z. B. Äußerungen wie „Stellst‘ des mal hin?“). Da seine eigene Sprechweise aber die Sprachwahl der Aufnahmesituation beeinflussen kann, arbeitet man in der Dialektologie und Regionalsprachenforschung z. T. auch mit Gesprächsaufnahmen, die ohne Anwesenheit der Forschenden durchgeführt wurden (vgl. Schmidt / Herrgen 2014, S. 379 f.). Das Bewusstsein, „beobachtet zu werden“, kann im Verlauf eines Gesprächs in den Hintergrund treten. Das Problem ist aber grundsätzlich vorhanden; manchmal wird auf die Ausnahmesituation auch durch entsprechende Bemerkungen der Beteiligten Bezug genommen.

Das Beobachterparadox tritt insbesondere bei einer offenen Aufnahme deutlich hervor, bei der die Beteiligten um den Mitschnitt wissen. Eine verdeckte Aufnahme (Aufnahme ohne Wissen der Betroffenen) kann das Problem verringern, ist jedoch ethisch und rechtlich problematisch. So ist es notwendig, bei Sprachaufnahmen im Vor- oder Nachhinein die Zustimmung der Beteiligten einzuholen und die Daten andernfalls zu löschen. [ 11 ] Zudem werden die Gesprächsdaten aus Datenschutzgründen üblicherweise anonymisiert (so auch bei uns): Namen von Personen, Orten etc. werden in Transkripten durch ähnlich klingende Namen mit gleicher Silbenzahl (z. B. Meier durch Müller) oder durch Platzhalter (z. B. STRASSE, STADT) ersetzt. In Tonaufnahmen werden persönliche Angaben ggf. durch einen Ton überblendet.

Eine im Blick auf die Datenaufzeichnung wichtige Frage betrifft die Aufnahmetechnik. In sprachwissenschaftlichen Untersuchungen werden soweit möglich [ 12 ] Geräte und Mikrophone genutzt, die eine hohe Qualität der Klangaufzeichnung ermöglichen. Sprachaufnahmen „in der freien Wildbahn“ sind aufgrund der üblichen Nebengeräusche in der Lebensumwelt aber zumeist von wesentlich schlechterer Tonqualität als Radio- oder Fernsehaufzeichnungen. Eine entscheidende Rolle spielen in diesem Zusammenhang auch die Raum- und Gruppengröße. Bei der Untersuchung von Sprache in größeren Gruppen, z. B. einem Klassenzimmer, müssen u. U. mehrere Geräte verwendet werden.[ 13 ] Die Qualitätsanforderungen sind zudem abhängig von den jeweiligen Untersuchungszielen. Besondere Erhebungsprobleme ergeben sich, wenn auch gestisch-mimische Anteile einer Interaktion erfasst werden sollen. Hier stellen sich u. a. die Fragen, mit wie vielen Kameras zu arbeiten ist und welche Personen jeweils aus welcher Entfernung und welchem Blickwinkel im Bild erfasst werden.

Die im Rahmen von Mitschnitten erhobenen Sprachdaten werden meist nicht gänzlich ausgewertet, da der Arbeitsaufwand einer detaillierten linguistischen Verschriftlichung erheblich ist (s. Kap. 4.2.2). Als zweiter Schritt erfolgt daher zunächst die Erstellung einer überblicksartigen Verlaufsübersicht über den Inhalt der Aufnahmen und die exemplarische Auswahl von Gesprächen oder Teilausschnitten, die einer Transkription und anschließenden Auswertung unterzogen werden.

4.2.2 Transkription mündlicher Sprachdaten

Die Verschriftlichung mündlicher audio-visueller Sprachdaten wird als „Transkription“ (Umschrift, von lat. trans – hinüber, scribere – schreiben) bezeichnet. Das weitere Wortfeld umfasst:

transkribieren (Tätigkeit)
der / die Transkribent/in
das Transkript.

Als wissenschaftliche Methode lässt sich „transkribieren“ im weitesten Sinne mit „aufschreiben, was man wahrnimmt“ übersetzen. Eine „Transkription“ ist also eine Verschriftlichung sinnlich wahrgenommener Momente. Neben verschiedenen sprachlichen Einheiten werden bei vielen Transkriptionen auch Pausen, Geräusche und Nichtsprachliches wie Lachen, Niesen etc. festgehalten. Für die Analyse sind solche Phänomene interessant, weil sie zum Beispiel Planungsprozesse der Sprecher widerspiegeln (Abbrüche, Pausen), auf soziale Gegebenheiten Bezug nehmen (Wer spricht wann?), selbst kommunikativ sein können (z. B. Lachen) oder als Bezugspunkte kommunikativ aufgegriffen werden können (Gesundheit!).

Für unterschiedliche Untersuchungszwecke und mit unterschiedlichem Forschungshintergrund sind in der Linguistik verschiedene Transkriptionsverfahren (Transkriptionssysteme) entwickelt worden. Transkriptionsverfahren sind kodifizierte Systeme von Notationsmöglichkeiten, die dem Forscher zur Verschriftlichung zur Verfügung stehen. [ 14 ] Die Wahl des Transkriptionsverfahrens ist abhängig von Gegenstand und Fragestellung der sprachwissenschaftlichen Untersuchung. So lassen sich Transkriptionsverfahren in zwei Typen unterteilen, die für unterschiedliche Zwecke entwickelt worden sind:

diskursorientierte Verfahren, die auf eine phonetische Umschrift verzichten und mit der „normalen“ Orthographie arbeiten
phonetisch orientierte Verfahren, die versuchen, Momente der Artikulation so genau wie möglich zu erfassen.

Bei der Wahl eines Transkriptionsverfahrens sind unter anderem die – sich widersprechenden – Prinzipien „Genauigkeit der Wiedergabe“ und „leichte Lesbarkeit“ zu berücksichtigen. Ein eigenes Feld bildet die Frage der Transkription von visuellen Daten. Hier sind verschiedene Transkriptionsverfahren in Gebrauch, die von kurzen kategorialen Erfassungen bis hin zu abbildenden Verfahren reichen.

Gerade bei der Transkription umfangreicherer Daten greift man heutzutage häufig auf einen Transkriptionseditor zurück, der die Transkriptionsarbeit erleichtert, indem ein Vor- und Zurück„spulen“ von Audio- oder Videodaten bei gleichzeitigem Schreiben ermöglicht wird. Ein sehr bekannter Editor ist das von einem Entwicklerteam um Thomas Schmidt erarbeitete Verbundsystem EXMARaLDA, das neben einem Transkriptions- und Annotationseditor weitere Analysewerkzeuge umfasst.

4.2.3 Diskursorientierte Transkriptionsverfahren

Die Verschriftlichung der Sprachdaten stellt einen zentralen Arbeitsschritt der linguistischen Diskursforschung dar. Sie ist nicht nur ein notwendiger Schritt, um den Untersuchungsgegenstand gesprochene Sprache zu erfassen, sondern bereits Bestandteil der Analyse. Für den Transkribenten stellt sich oft die Frage, wie man „ein gehörtes Etwas“ aufschreiben soll. Zu den derzeit gebräuchlichsten diskursorientierten Transkriptionsverfahren [ 15 ] gehören:

das Verfahren der Halbinterpretativen Arbeitstranskription (HIAT),
das System DIDA (Diskurs-Datenbank), das am IDS verwendet wird,
das im Rahmen ethnomethodologischer Arbeiten verwendete Verfahren CATS (Conversational Analysis Transcription System) bzw.
im deutschsprachigen Raum das Verfahren der Gesprächsanalytischen Transkription (GAT), das an CATS anknüpft,
das Verfahren CHAT (Codes for Human Analysis of Transcripts), das u. a. im Rahmen der Erstspracherwerbsforschung verwendet wird.

Gemeinsame Grundprinzipien und Unterschiede diskursorientierter Transkriptionen betreffen:

a) das Prinzip der literarischen Umschrift
Bei der Verschriftlichung mündlicher Kommunikation verwenden alle diskurs-orientierten Verfahren das Prinzip der literarischen Umschrift. „Literarische Umschrift“ bedeutet, dass im Rahmen der Transkription die Orthographie des Deutschen weitgehend beibehalten wird. Abweichungen in der Aussprache werden allerdings mit notiert, z. B. „Ham Se ma n Moment Zeit?“ statt „Haben Sie mal einen Moment Zeit?“
In einigen diskursorientierten Transkriptionen wird dabei auch auf Groß- und Kleinschreibung und auf die Verwendung von Satzzeichen verzichtet; bei anderen werden dagegen die üblichen Satzzeichen der deutschen Schriftsprache verwendet. Notationen „ohne Punkt und Komma“ sind häufig verbunden mit phonetisch-intonatorischen Fragestellungen und einer Transkription der Äußerungsintonation. Bei durchgängiger Kleinschreibung dient die Schreibung von Äußerungsteilen in Großbuchstaben oft der Kennzeichnung ihrer Akzentuierung.
b) zeilenweise Schreibung versus Partiturschreibung
Ein gleichzeitiges Reden der Gesprächsbeteiligten ist in mündlicher Kommunikation häufig. Einige Transkriptionssysteme verwenden Zeilenschreibung und sehen zur Kennzeichnung von Gleichzeitigkeit und verschiedenen Übergängen Sonderzeichen vor (z. B. „=“ für „schneller Anschluss“). Andere Transkriptionssysteme verwenden statt dessen das Verfahren der Partiturschreibung, das die Gleichzeitigkeit von Äußerungen durchgehend graphisch abbildet (s.u.).
c) Sonderzeichen für Phänomene mündlicher Kommunikation
In allen diskursorientierten Transkriptionsverfahren werden standardisierte Zeichen für charakteristische Phänomene wie Pause, Abbruch, Unverständliches etc. verwendet, die zum Teil sehr ähnlich sind. Manchmal erfordert eine spezielle Untersuchungsfrage auch die Einführung eines eigenen, neuen Zeichens. Der Wiedergabe von Transkripten in Monographien oder Aufsätzen wird daher oft eine Übersicht über die verwendeten Transkriptionssymbole vorangestellt.

Am Beispiel der Halbinterpretativen Arbeitstranskription (HIAT) [ 16 ], einem in der Angewandten Linguistik häufig verwendeten Transkriptionsverfahren, werden im Folgenden einige Transkriptionszeichen und -weisen vorgestellt, die zugleich einen ersten Einblick in den Gegenstandsbereich „mündliche Kommunikation“ geben. Die Bezeichnung „halb-interpretativ“ nimmt auf die in jeder Transkription vorhandene Filterung der Daten durch den Transkribenten Bezug. Bei der Halbinterpretativen Arbeitstranskription werden die üblichen Satzzeichen der deutschen Schriftsprache beibehalten. Da das Verfahren dem Prinzip der leichten Lesbarkeit folgt, kommt man mit relativ wenigen Sonderzeichen aus. Andere Verfahren lassen sich von dieser Basis aus leicht aneignen.

Die Gesprächsausschnitte (Ts1) „Sprachenlernen“, (Ts2) „SZ-Verkäufer“, (Ts3) „Hausarbeit abholen“ und (Ts4) „Film“ vermitteln Höreindrücke authentischer mündlicher Kommunikation. Abb. 1 zeigt ein Beispiel für einen nach HIAT transkribierten Gesprächsausschnitt.

Abb. 1: Nach HIAT transkribierter Transkriptausschnitt (aus (Ts1) „Sprachenlernen“)

┌───────────────────────────────────────────────── │C [ Aber ich hab ja jetzt/ im letzten Semester hab ich 1 └────────────────────────────────────────────────────────────

┌───────────────────────────────────────────────── │C [ diesen ersten Spanischkurs für Nicht-Hispanisten 2 └────────────────────────────────────────────────────────────

┌───────────────────────────────────────────────── │ >┌ \/ │A └ hmhm (Der) ist lustig. ((lacht)) │C ┌ /_1gemacht. 1_/ Und das war der völlige Absturz. │ └ /_1lachend │D ┌ % │ └ % = zieht lachend Luft ein 3 └────────────────────────────────────────────────────────────

Das Grundprinzip der Notation in HIAT ist die Partiturschreibung, die Notationsweisen der Musik aufgreift: In der Transkription erhält jeder Sprecher eine oder mehrere Zeilen, in denen notiert wird, was er sagt bzw. tut. Die Gleichzeitigkeit von Phänomenen wird innerhalb der Partiturklammer graphisch abgebildet. Wie in Musikpartituren werden aus Platzgründen Zeilen für Sprecher weggelassen, wenn sie in dieser Zeit keinen „Einsatz“ haben.

Pro Sprecher werden u. U. mehrere Transkriptionszeilen genutzt. Das eigentlich Gesprochene wird für jeden Sprecher in der so genannten „Verbalzeile“ notiert. Starke Betonung eines Wortes wird durch Unterstreichung erfasst. In einer so genannten „Intonationszeile“ (im obigen Transkript durch „>“ gekennzeichnet) werden Angaben zu prosodischen Phänomenen notiert. Hörvermutungen werden in einfache Klammern gesetzt, z. B. (Der) ist lustig. Für Nicht Verstandenes wird ein der Äußerungslänge entsprechender Leerraum eingeklammert. Geräusche werden in Doppelklammern notiert, z. B. ((lacht)). Phänomene, die sich über einen längeren Zeitraum erstrecken, werden in der Verbalzeile durch Klammerung mittels /_ _/ angezeigt und in einer Kommentarzeile oder am Transkriptrand erklärt. Die Klammern werden bei Bedarf nummeriert. Das Zeichen % wird benutzt, um ein sehr kurzes, punktuelles Phänomen zu notieren, das außerhalb der Verbalzeile erläutert wird.

Verzögerungen, Abbrüche und Pausen kommen in gesprochener Sprache sehr häufig vor (s. Kap. 16). Um das „Langziehen“ eines Lautes zu kennzeichnen, verwendet man in HIAT entweder Mehrfachschreibung (z. B. sooo) oder man setzt Doppelpunkte hinter dem betreffenden Laut (z. B. so::). [ 17 ] Abbrüche und Brüche in der Äußerungskonstruktion werden durch das Zeichen / erfasst (z. B. Aber ich hab ja jetzt / im letzten Semester hab ich diesen ersten Spanischkurs für Nicht-Hispanisten gemacht). Pausen innerhalb von oder zwischen Äußerungen werden durch Punkte verschriftlicht. Ein Punkt entspricht einer kurzen Pause (einem „beat“), mehrere Punkte zeigen eine längere Pause an. [ 18 ] Längere Pausen werden in Sekunden angegeben (z. B. ((6s))).

Die Genauigkeit von Transkripten wird für diskursorientierte Transkriptionen oft als Relation angegeben (Transkriptionsrelation). Man findet hier Angaben wie 1:30, 1:60 oder 1:600. Die Angaben bedeuten, dass pro Minute gesprochener Sprache 30, 60 oder (z. B. bei der Erfassung gestischer und prosodischer Daten) sogar 600 Minuten Transkriptionszeit aufgewendet wurden. Je nach Umfang der Transkription unterscheidet man zwischen „einfachen“ und „erweiterten Transkriptionen“. Erweiterte Transkriptionen sind umfangreicher und erfassen z. B. auch die phonetische Umsetzung oder das gestische Handeln im Detail.

4.2.4 Phonetisch orientierte Transkriptionsverfahren

In einem phonetisch orientierten Verfahren wird die Lautgestalt des Gehörten erfasst. Phonetische Transkriptionen sind daher mit einem sehr hohen Zeitaufwand verbunden. Ein häufig verwendetes Verfahren für phonetisch orientierte Transkriptionen ist das Internationale Phonetische Alphabet (IPA); es wird in Kap. 12 dargestellt.

Ein Vergleich von (B1) und (B2) macht deutlich, welche Informationen durch literarische Umschrift verloren gehen, die durch phonetische Notation erfasst werden können. (B2), ein Auszug aus den Daten des „Heidelberger Forschungsprojekts Pidgin-Deutsch (HPD)“, zeigt zugleich, dass neben IPA in der Linguistik z. T. auch andere Verfahren der phonetischen Verschriftlichung Einsatz finden.

Literarische Transkription von Lernersprache

Heute viel . Kollega . kurzarbeiten, nich arbeiten, spazieren, Arbeitsamt bezahle, Arbeitsamt, achtnzwansi Mark und vierzig Pfenni. Du guck amol, eine . eine . Kollega . vielleicht zwei Kinder Deutschland, . o(der) . nich Kinda, achtnzwanzig Mark bezahle eine Tag. Miete bezahle, Strom bezahle, Wasser bezahle, Vespa bezahle, wo Geld? Egal, . Kollega, egal.

Phonetische Transkription von Lernersprache (HPD 1977, S. 27)

oitc[ 19 ] fiil /colega/ kucdsawáitc, niç arwáic, pasia, acwaisam bcsaalc, awaisám, axwansi marko ficsi fäni. Duu gukc mool, aincainc /colega/, filai czswai kinda doislan, /o/ niç kinda, axwansi marko bcsalc ainc tah.
miitc bcsaalc, cstrom bcsaalc, wasa bcsaalc, wäspa bcsaalc, woo gäl? + (lacht) & & igaal, /colega/, & & igaal.

Je nach Reichweite der Verschriftlichung mündlicher Sprache wird in der phonetischen Forschung zwischen „breiten“ und „engen“ phonetischen Transkriptionen unterschieden.

Eine breite phonetische Transkription ist an den Phonemen der betreffenden Sprache orientiert (s. Kap. 13). Notiert werden lediglich diejenigen Eigenschaften der Aussprache, denen bedeutungsdifferenzierende Qualität zugesprochen wird. Zudem wird eine Segmentierung des Lautstroms durch Spatien (Leerzeichen) sowie durch Interpunktion vorgenommen, die über die wahrnehmbaren Eigenschaften des Gesprochenen hinausgeht. B3 zeigt eine breite Transkription des Textes „Nordwind und Sonne“, der als Beispieltext im Handbuch der International Phonetic Association verwendet wird.

breite phonetische Transkription (Kohler 1999, S. 88)

aɪns ˈʃtʁɪtn zɪç ˈnɔatvɪnt ʊn ˈzɔnə, veɐ fən im ˈbaidn vol dɐ ˈʃtɛɐkəʁə veʁə, als aɪn ˈvandəʁɐ, dɛɐ ɪn aɪn ˈvaɐm ˈmantl gəhʏlt vaɐ, dəs ˈvegəs daˑheɐkaːm

Bei einer engen phonetischen Transkription werden hingegen wesentlich mehr Eigenschaften der sprachlichen Äußerung notiert (s. B4). Erfasst werden u. a. die Realisierung von Knacklauten [Ɂ], Entstimmlichungen und Länge. Die Verwendung von Spatien als Lesehilfe entfällt.

enge phonetische Transkription (Pompino-Marschall 2009, S. 268)

Ɂa͜ɪnsˈʃtʁɪtn̩zɪçˈnɔ͜atvɪntʊnˈzɔnə|ve͜ɐfɔniːm̩ˈba͜ɪdⁿn̩
voˑld̥ɐˈʃtɛ͜ɐkəʁəveˑʁə|Ɂalza͜ɪɱˈvandəʁɐ|d̥ɛɣɪna͜ɪn̩
ˈvaːm̩ˈmantˡl̩gəˌhʏltvaː͜ɐ|dəs ˈveːgəsd̥aˈheː͜ɐkʰaːm ǁ

Will man die Aussprache von Deutschlernenden näher untersuchen, ist eine sehr enge Notation notwendig, in der z. T. noch weitere Merkmale, etwa die vor- und rückverlagerte oder entrundete Umsetzung eines Lautes zu erfassen sind.

Unterkapitel: 4.1 4.2 4.3 4.4

▲

4.3 Korpora des Deutschen

Ein „Korpus“ (Neutrum, Pl.: Korpora) ist eine systematisch aufgebaute Sammlung schriftlicher oder mündlicher Daten.

Die Frage, wie sich der untersuchte Ausschnitt zur Grundgesamtheit aller Sprachdaten dieses Typs verhält, wird unter dem Stichwort „Repräsentativität“ diskutiert. Idealiter sollte ein Korpus repräsentativ, d. h. das verkleinerte Abbild der Grundgesamtheit sein. So wäre es beispielsweise unzulässig, eine Beschreibung der deutschen Aussprache allein auf eine Untersuchung von 20–30-jährigen Sprechern zu stützen, die in München leben. Zwar dürfte eine solche Untersuchung durchaus interessante Ergebnisse erbringen (z. B. mit Blick auf Mehrsprachigkeit in der Stadtregion) und könnte zur Beantwortung der Frage nach Aussprachestandards im Deutschen beitragen. Hinsichtlich der Verallgemeinerbarkeit muss jedoch die Frage gestellt werden, ob die Untersuchung von anderen Altersgruppen und in anderen Regionen dieselben Ergebnisse erbringen würde.

Korpora sind grundsätzlich und aus forschungspraktischen Gründen begrenzt und können den Untersuchungsbereich „Sprache“ niemals vollständig abbilden. So können für eine synchrone Sprachbeschreibung des Deutschen nicht alle mündlichen und schriftlichen Äußerungen seiner gegenwärtigen Sprecher herangezogen werden; auch kann eine diachrone germanistische Beschreibung sich nicht auf alle auf Deutsch verfassten Texte der letzten Jahrhunderte stützen. Untersucht werden können lediglich Ausschnitte – diese sind mittlerweile aber schon sehr umfangreich und umfassen Tausende von Texten und Tonaufnahmen. Eine Übersicht über nationale und internationale Korpusarchive zum Deutschen geben Lemnitzer / Zinsmeister (2006) sowie Kallmeyer / Zifonun (2007). Die umfangreichste Sammlung von Korpora zum gesprochenen und geschriebenen Deutsch verwaltet das Leibniz-Institut für Deutsche Sprache (IDS) in Mannheim.

4.3.1 Korpora geschriebener Sprache

Zum geschriebenen Deutschen gibt es mittlerweile viele digitalisierte Korpora, die elektronisch ausgewertet werden können.

Ein sehr großes Korpus zum geschriebenen Deutschen ist das Deutsche Referenzkorpus (DeReKo), das am IDS verwaltet wird. Das IDS begann Mitte der 1960er Jahre mit dem Aufbau elektronischer Korpora. Das Deutsche Referenzkorpus gilt mit über 29 Milliarden erfasster Wörter als die weltweit größte Datensammlung, die als empirische Basis zur linguistischen Erforschung des Deutschen der Gegenwart und neueren Vergangenheit herangezogen wird. Es enthält belletristische, wissenschaftliche und populärwissenschaftliche Texte sowie verschiedene weitere Textarten und umfasst mehrere Einzelkorpora (u. a. das Bonner Zeitungskorpus, Mannheimer Korpus und das „Wendekorpus“ des Projekts „Gesamtdeutsche Korpusinitiative“ in Zusammenarbeit mit dem Zentralinstitut für Sprachwissenschaft (ehem. DDR)). Zudem ist das Deutsche Referenzkorpus vollständig morphosyntaktisch annotiert (vgl. Kap. 4.4).

Das Schweizer Textkorpus der Universität Basel dokumentiert deutschsprachige Texte aus der Schweiz des 20. Jh. und umfasst rund 20 Millionen Textwörter [ 20 ]; dort befindet sich auch ein internationales Korpus mit deutschsprachigen Texten des 20. Jh. aus Deutschland, Österreich, Südtirol und der Schweiz. Das Austrian Academy Corpus der Österreichischen Akademie der Wissenschaften (ÖAW) bietet eine umfangreiche Sammlung von digitalen Volltexten zur deutschen Sprache und Literatur im Untersuchungszeitraum 1848 bis 1989.

Ein historisches Referenzkorpus für das Deutsche ist das Deutsche Textarchiv (DTA), das einen disziplinübergreifenden Kernbestand deutschsprachiger Texte aus der Zeit von ca. 1650 bis 1900 als digitalisiertes, linguistisch annotiertes Volltextkorpus bereitstellt.

4.3.2 Korpora gesprochener Sprache

Auch die gesprochene deutsche Sprache ist mittlerweile gut dokumentiert. Eine umfangreiche Dokumentation der deutschen Dialekte und Regionalsprachen mit Anbindung an geographische Karten bietet das Archiv Regionalsprache.de (REDE). Neben den bereits angesprochenen Wenker-Sätzen umfassen die Tonaufnahmen Umsetzungen des klassischen phonetischen Vorlesetextes „Nordwind und Sonne“, Interviews mit Exploratoren, Unterhaltungen mit selbst gewählten Gesprächspartnern und polizeiliche Notrufannahmegespräche; zudem sind Daten aus verschiedenen Sprachatlasprojekten integriert.

Das Archiv für Gesprochenes Deutsch am IDS Mannheim verwaltet die größte Sammlung von Korpora. Die Aufnahmen und Transkripte dokumentieren binnen- und auslandsdeutsche Varietäten (Dialekte, regionale Umgangssprachen und das gesprochene Standarddeutsch) sowie verbale Interaktion in verschiedenen sozialen Zusammenhängen, z. B. Konfliktgespräche, Erzählungen und Gerichtsverhandlungen. Dokumentiert wird auch Kindersprache beim Erwerb des Deutschen als Zweitsprache (Saarbrücker Projekt „Gastarbeiterkommunikation“). Das Archiv umfasst zudem Tonaufnahmen, die einzelnen der in der Schriftenreihe „Phonai“ veröffentlichten Monographien und Textbänden zugrunde liegen. Viele der am IDS verfügbaren Korpora sind mittlerweile über die „Datenbank Gesprochenes Deutsch“ (DGD) [ 21 ] auch für externe Nutzer zugänglich. In kontinuierlichem Aufbau befindet sich das „Forschungs- und Lehrkorpus“ (FOLK).

Zu den publizierten Transkriptbänden zum Deutschen gehört das „Freiburger Korpus“, das an der Freiburger Forschungsstelle des IDS erarbeitet und als „Texte gesprochener deutscher Standardsprache“ in den 1970er Jahren in drei Bänden veröffentlicht wurde. Eines der Ziele war es, für den Unterricht des Deutschen als Fremdsprache authentische Beispiele bereitzustellen. Darüber hinaus gibt es Buchpublikationen u. a. zu Beratungs- und Schlichtungsgesprächen (Schröder 1985, 1997), zur Schulkommunikation (Redder 1982), zur Telefonkommunikation (Brons-Albert 1984), zu Gesprächen am Kiosk (Maurer / Schmitt 1994) und Sprechstundengesprächen an der Hochschule (Boettcher et al. 2005). Einen zusammen mit den Audioaufnahmen publizierten Transkriptband bieten Ehlich / Redder (1994).

Weitere Transkriptsammlungen zu verschiedenen Forschungsschwerpunkten werden gegenwärtig über die Webseiten des „Verlags für Gesprächsforschung“ bereitgestellt (s. Internet-Einstiege). Das gesprochene Deutsch ist zudem in vielen Einzelstudien durch Transkripte dokumentiert, die zur eigenen Korpuserstellung und als Belegquellen herangezogen werden können. Eine Übersicht geben Glas / Ehlich (2000). Verschiedene Korpora, die im Rahmen von Projekten entwickelt wurden, finden sich auch an Universitäten.[ 22 ]

Korpora, die speziell für phonetisch-phonologische Analysen aufbereitet wurden, gibt es an der Universität München (Bayerisches Archiv für Sprachsignale – BAS) und an der Universität Kiel (Kiel Corpus). Sie sind, anders als es ihre Benennungen vielleicht vermuten lassen, nicht dialektologisch, sondern überregional ausgerichtet. Die Aufnahmen umfassen vorgelesene und spontane Sprache, z. B. Zahlenreihen („eins, drei, fünf …“), und bilden die Grundlage für verschiedene Projekte zur Signalverarbeitung und Entwicklung automatischer Auskunftssysteme (vgl. Kap. 18).

Unterkapitel: 4.1 4.2 4.3 4.4

▲

4.4 Korpuslinguistik

Der Ausdruck „Korpuslinguistik“ bezeichnet allgemein einen methodologischen Standard, der sich in der gegenwärtigen Sprachwissenschaft etabliert hat. Sowohl in der lexikologischen als auch der semantischen und grammatischen Forschung arbeitet man mit Korpora; die Gesprochene-Sprache-Forschung wäre ohne sie nicht denkbar. Insbesondere komplexe Handlungsstrukturen (z. B. Reklamationen, Arzt-Patienten-Gespräche, Verhandlungen) weisen oft vielfältige Variationsmöglichkeiten auf. Die für bestimmte Institutionen und Diskursarten charakteristischen Handlungsabläufe lassen sich nur durch Analyse einer großen Vielzahl von Gesprächsaufnahmen und Transkripten herausfinden.

In einem etwas engeren Sinn bezeichnet man als „Korpuslinguistik“ eine linguistische Teildisziplin, die sich mit dem systematischen Aufbau, der Verwaltung und der Auswertung von sehr großen Korpora befasst. [ 23 ] Dabei stellen sich einerseits Fragen der Annotation (Auszeichnung) linguistischer Daten. Dazu gehört z. B. die Kennzeichnung von Wort- und Morphemgrenzen, Kasusformen usw. Durch ein sorgfältiges Tagging wird eine statistische Auswertung möglich, die die Häufigkeit von Formen über riesige Mengen von Sprachdaten hinweg ermitteln kann. Dadurch kann man heutzutage sehr genau Auskunft über sprachliche Variation synchroner oder diachroner Art gewinnen. Für die sprachvergleichende Forschung von hohem Interesse sind Parallelkorpora verschiedener Sprachen. Zum anderen bilden auch technische Fragen der Verarbeitung von Sprachdaten einen Schwerpunkt der Korpuslinguistik; sie schließt somit eng an die Computerlinguistik an (vgl. Kap. 18). So dient die Arbeit mit Sprachkorpora auch oft dem Ziel der automatischen Fehlererkennung.

Korpuslinguistisch basierte Informationssysteme zum deutschen Wortschatz sind das „Digitale Wörterbuch der Deutschen Sprache“ (DWDS) der Berlin-Brandenburgischen Akademie der Wissenschaften sowie das am IDS angesiedelte „Online-Wortschatz-Informationssystem“ (OWID) (vgl. Kap. 5). Eine korpusbasierte Auswertung des deutschen Wortschatzes seit 1998 inklusive einer tagesaktuellen Auswertung verschiedener Tageszeitungen und Newsdienste bietet das Deutsche Wortschatz-Portal der Universität Leipzig; dort erhält man auch Zugang zur Suche in über 136 korpusbasierten monolingualen Lexika.

Die Korpuslinguistik versteht sich nicht als reine Hilfswissenschaft, sondern weitergehend als methodologische Bezugswissenschaft und Korrektiv:

„nicht zuletzt ist es nun auch mit einem vertretbaren Aufwand möglich, den gegenwärtigen Stand der Forschung, wie er in Wörterbüchern und Grammatiken kodifiziert ist, auf den Prüfstand zu stellen.“ (Duffner / Näf 2006)

Unterkapitel: 4.1 4.2 4.3 4.4

▲

[ 1 ]„Verbzweitstellung“ bedeutet, dass das finite Verb als zweites Satzglied im Satz auftritt: da (Lokaladverbiale) sitzen … drin (Prädikat) viel zu viel Leute (Subjekt). Konjunktionen wie weil werden nicht als Satzglieder angesehen.

[ 2 ]Bei Verbendstellung würde der Satz lauten: weil da viel zu viele Leute drin sitzen.

[ 3 ]Nicht immer werden die in Projekten erhobenen Sprachdaten vollständig veröffentlicht. Oft erlaubt allein der Umfang der Materialien keine umfassende Publikation, schon wegen der Druckkosten und des Aufwands für die Aufbereitung der Daten.

[ 4 ]Manchmal handelte es sich dabei allerdings nur um ein oder zwei Personen, die über keine linguistischen Kenntnisse verfügten. Entsprechend haben sich einige der Sprachbeschreibungen im Nachhinein z. T. als unzutreffend erwiesen, so etwa die der „sprachlichen Relativitätstheorie“ zugrundeliegenden Beschreibungen des Hopi als „zeitloser“ Sprache durch Whorf (vgl. Kap. 3.4.2).

[ 5 ]Die verschiedenen Sätze und Beispiele für beantwortete Fragebögen sind über das REDE-Portal zugänglich (s. Internet-Einstiege); das Vorgängerprojekt „Digitaler Wenker-Atlas“ wurde in die Plattform integriert.

[ 6 ]Die Tonbeispiele der verschiedenen Wenker-Sätze in ihrer jeweils dialektalen Umsetzung wurden mittlerweile digitalisiert und können über das REDE-Portal heutzutage geographisch punktgenau von Karten abgerufen werden (https://regionalsprache.de/SprachGis/Map.aspx)

[ 7 ]Zur Diskussion um „Natürlichkeit“ s. Kap. 4.1.2.

[ 8 ]Bekannte Beispiele, die von verschiedenen Forschern genutzt werden, sind die „frog story“, eine Bilderbuchgeschichte, und der „Pear story“-Film (Chafe 1980). Zu einem entsprechenden Vorgehen in der Gestikforschung am Beispiel von „Tweety und Sylvester“-Cartoons s. die Arbeiten von McNeill u. a.

[ 9 ]Der Begriff „authentisch“ entspricht hier also nicht der z. T. in fremdsprachendidaktischen Diskussionen feststellbaren Verwendung des Ausdrucks als „von Muttersprachlern produziert“. Auch sind nicht alle „echten“, „spontan gesagten“ Äußerungen in diesem Verständnis „authentisch“.

[ 10 ]S. dazu auch Ehlich (1982) „Quantitativ“ oder „qualitativ“? Bemerkungen zur Methodologiediskussion in der Diskursanalyse. In: Köhle, Karl / Raspe, Hans-Heinrich (Hgg.) Das Gespräch während der ärztlichen Visite. München: Urban & Schwarzenberg, S. 298–312.

[ 11 ]Vorschläge zur Formulierung von Einverständniserklärungen finden sich im Gesprächsanalytischen Informationssystem (GAIS, s. Internet-Einstiege).

[ 12 ]Hier spielt natürlich die finanzielle Frage der Forschungsförderung eine große Rolle.

[ 13 ]S. z. B. Redder (1982) zum Projekt „Kommunikation in der Schule“ (KidS).

[ 14 ]Alphabet- und Silbenschriften sind Transkriptionsverfahren, die gesamtgesellschaftlich verbreitet sind.

[ 15 ]Vgl. für eine Übersicht Redder (2001).

[ 16 ]Einführend s. Ehlich / Rehbein (1976), ausführlicher Ehlich (1993), Ehlich / Rehbein (1979a).

[ 17 ]Diese Notation entspricht der Notation von Länge im Internationalen Phonetischen Alphabet (IPA).

[ 18 ]In neueren Transkriptionen wird das Zeichen „fetter Punkt“ • verwendet, um Pausen zu notieren.

[ 19 ]Das Zeichen <c> steht hier für einen reduzierten Vokal (Schwa-Laut), der sich im Deutschen in unbetonten Nebensilben findet (s. Kap. 12 f.).

[ 20 ]Als „Textwort“ bezeichnet man die fortlaufend auftretenden Wortformen (tokens).

[ 21 ]Einführend Fiehler / Wagener (2006) sowie Schmidt (2014).

[ 22 ]Die Daten sind oft jedoch nur einem eingeschränkten Personenkreis zugänglich.

[ 23 ]Einen Einblick geben Häcki Buhofer (2009a, 2009b), Lüdeling / Kyto (2008, 2009); zu Korpora in der Zweitspracherwerbsforschung s. Skiba (2008).

▲