Kitabı oku: «Deutsche Sprachgeschichte», sayfa 4

Yazı tipi:

Für diese Modellierung nutzen Atkinson & Gray (2003, 2006) komplexe statistische Methoden, die hier nicht ausführlich diskutiert werden können.1 Grob gesagt modelliert der Ansatz von Atkinson und Gray auf Grundlage einer Fülle von Daten unterschiedliche Sprachenstammbäume und vergleicht die so entstandenen Modelle hinsichtlich ihrer Plausibilität. Die Ergebnisse, zu denen sie auf diese Weise gelangen, interpretieren Gray & Atkinson (2003) als Evidenz für die Hypothese, dass sich das Ie. vor etwa 10.000 Jahren im anatolischen Raum auszubreiten begann.

Diese Hypothese und auch die verwendeten Methoden wurden jedoch heftig kritisiert. So kommen Pereltsvaig & Lewis (2015: 53) zu dem Schluss:

Wherever we look, we find that the model produces multiple chains of errors, consistently failing to accord with known facts about the diversification and spread of the Indo-European languages.

Einige der gegen solche phylogenetische Methoden vorgebrachten Einwände laufen darauf hinaus, dass man auf eine Vielzahl an Daten setzt und darüber die Korrektheit der Analysen im Einzelfall vernachlässigt. So lautet eine zentrale Kritik, dass sich trotz aller Bemühungen, LehnwörterLehnwort aus den Daten auszuschließen, letztlich doch relativ viele LehnwörterLehnwort eingeschlichen haben, die somit eigentlich nicht als Kognaten gelten dürften (vgl. Pereltsvaig & Lewis 2015: 81). Einen solchen Balanceakt zwischen großen Datenmengen einerseits und sorgfältiger qualitativer Analyse der einzelnen Datenpunkte andererseits bringt freilich jede empirische Arbeit mit sich. Ein weiterer, möglicherweise schwerwiegenderer Kritikpunkt betrifft die Frage, wie repräsentativ die Swadesh-Listen tatsächlich sind, zumal Swadesh keine klaren Kriterien für die Auswahl genau dieser Wörter bzw. Konzepte formuliert hat (vgl. Pereltsvaig & Lewis 2015: 72).

Aus wissenschaftstheoretischer und wissenschaftssoziologischer Perspektive ist die neu entfachte Debatte um den Ursprung des Ie. hochspannend, da hier in methodischen Fragen Welten aufeinanderprallen, die unterschiedlicher kaum sein könnten: auf der einen Seite die Vertreter der klassischen komparativen Methode, die auf genauer, händischer Analyse durch Experten beruht; auf der anderen Seite die Vertreter quantitativer Methoden, die zwar größere Datenmengen einbeziehen können, dabei aber z.T. auch fehleranfälliger sind. Inwieweit Ungenauigkeiten auf Ebene der einzelnen Datenpunkte durch eine Vielzahl an Daten „aufgefangen“ werden können, ist eine Frage, die sich bei jeder quantitativen Studie stellt und immer wieder neu erörtert werden muss. Was die hier dargestellten phylogenetischen Methoden angeht, so bleibt abzuwarten, ob sie sich eines Tages als Teil des anerkannten Methodenrepertoires der historischen Linguistik werden durchsetzen können.

Infobox 2: Die germanischen Sprachen

Das Deutsche gehört zu den germanischen Sprachen, die sich in nord- und westgermanische Sprachen untergliedern lassen (die ostgermanischen Sprachen, zu denen das Gotische gehörte, sind ausgestorben). Die nordgermanische Sprachfamilie bilden Isländisch, Färöisch, Norwegisch, Schwedisch und Dänisch. Das Deutsche ist eine westgermanische Sprache. Weitere westgermanische Sprachen sind Englisch, Friesisch, Niederländisch, Afrikaans, Luxemburgisch und Jiddisch. Fig. 4 gibt einen Überblick über die germanischen Sprachen und die Regionen, in denen sie gesprochen werden. Auf der Karte ist jede Sprache einer bestimmten Koordinate zugewiesen. Diese Koordinaten wurden aus dem World Atlas of Language Structures (WALS) übernommen und stehen quasi stellvertretend für das Verbreitungsgebiet der jeweiligen Sprache. Das kann relativ groß sein – Deutsch zum Beispiel wird in Deutschland, Österreich und der Schweiz gesprochen, und es gibt Sprachinseln etwa in den USA und Südamerika (vgl. z.B. Glottolog, Hammarström et al. 2017).

Fig. 4: Überblick über die germanischen Sprachen nach dem World Atlas of Language Structures (WALS, Dryer & Haspelmath 2013). Erstellt mit ggmap (Kahle & Wickham 2013).

Zum Weiterlesen

Eine praxisorientierte Hinführung zur Anwendung der komparativen Methode bietet Kapitel 5 von Campbell (2013). Crowley & Bowern (2010) bieten neben einem praxisorientierten Kapitel auch einen Abschnitt zur Geschichte der komparativen Methode und zu ihren Herausforderungen. Zum Einstieg eignen sich auch Kapitel 10 von Bybee (2015) sowie die Handbuchartikel von Rankin (2003) und Weiss (2015).

2.2.2 Authentische Sprachdaten: Korpuslinguistik

Was ist der Gegenstand der Sprachwissenschaft? Natürlich: Sprache. Da jeder und jede von uns eine Sprache spricht, liegt es nahe, sich in der Auseinandersetzung mit Sprache, gerade mit der eigenen Muttersprache, auf die eigene Intuition zu verlassen. Tatsächlich war diese Art, Sprachwissenschaft zu betreiben, gerade in der zweiten Hälfte des 20. Jahrhunderts weit verbreitet: Weitreichende Theorien wurden anhand selbst erdachter Beispielsätze und ad hoc gefällter Grammatikalitätsurteile erarbeitet. In einigen wenigen Bereichen ist diese Vorgehensweise noch heute verbreitet. Im Allgemeinen aber hat sich die Erkenntnis durchgesetzt, dass die eigene Intuition nicht immer ein guter Ratgeber ist (vgl. Gibbs 2006). Wer heute ernsthaft Sprachwissenschaft betreiben will, muss die eigenen Thesen auf empirische Daten stützen.

Für die historische Sprachwissenschaft war die eigene Intuition ohnehin nie eine wirkliche Option – auch wenn manche versierten Kenner des Alt- oder Mittelhochdeutschen sicherlich eine bemerkenswerte Intuition für frühere Sprachstufen entwickelt haben. Die Kenntnis dieser Sprachstufen musste immer mit Hilfe zeitgenössischer Texte erarbeitet werden. Wenn authentische Texte nach wissenschaftlichen Prinzipien ausgewogen zusammengestellt werden, um ein möglichst repräsentatives Bild einer bestimmten Sprache oder Sprachvarietät zu ermöglichen, spricht man von einem Korpus (übrigens im Neutrum: das Korpus, nicht *der Korpus!).

Ein Korpus ist also zunächst eine Sammlung authentischer Sprachdaten (vgl. Lemnitzer & Zinsmeister 2015). Diese Daten können ganz unterschiedlicher Natur sein, ebenso wie die Prinzipien, nach denen sie zusammengestellt wurden, stark variieren. Korpora des 20. und 21. Jahrhunderts umfassen oftmals nicht nur geschriebenen Text, sondern auch gesprochene Sprache oder Videoaufzeichnungen, sodass auch Informationen etwa zu sprachbegleitender Gestik oder zu Gebärdensprachen der wissenschaftlichen Untersuchung zugänglich werden. Für die Forschung zu älteren Sprachstufen sind wir hingegen ganz auf geschriebene Texte angewiesen.

Die sprachhistorischen Korpora, die für das Deutsche derzeit zur Verfügung stehen, sind gerade im Vergleich zu ihren englischen Pendants wenig umfangreich. Immerhin jedoch können wir im Vergleich zu den meisten Sprachen der Welt, die wenig bis gar nicht dokumentiert sind (vgl. z.B. Hammarström & Nordhoff 2011), auf erfreulich umfangreiche und stetig wachsende Ressourcen zurückgreifen. Eine Übersicht über derzeit verfügbare deutschsprachige Korpora findet sich in Infobox 3. Darüber hinaus ist mit „Deutsch Diachron Digital“ seit einiger Zeit eine ganze Reihe sprachhistorischer Korpora in Arbeit (http://www.deutschdiachrondigital.de/). Zur Zeit der Drucklegung dieses Buches war das Projekt jedoch noch nicht abgeschlossen.

Infobox 3: Diachrone deutschsprachige Korpora

Referenzkorpus Altdeutsch und Referenzkorpus Mittelhochdeutsch. Das Referenzkorpus Altdeutsch (REA) enthält alle überlieferten Textzeugnisse des Ahd. und Altsächischen in linguistisch aufbereiteter Form. Im Dezember 2015 wurde mit dem Referenzkorpus Mittelhochdeutsch (REM) eine weitere bedeutende Lücke in der deutschen Korpuslandschaft geschlossen. Das REM umfasst zum einen das Korpus, das der Mittelhochdeutschen Grammatik (Klein et al. 2009; weitere Bände folgen) zugrundeliegt (MiGraKo). Das MiGraKo wird ergänzt durch Zusatztexte, die unter dem etwas irreführenden Namen „Referenzkorpus Mittelhochdeutsch im engeren Sinn“ zusammengefasst sind (eReM). Wer mit einem ausgewogenen Korpus arbeiten möchte, sollte also MiGraKo nutzen, das 102 Texte mit etwa 1 Million Wortformen umfasst (vgl. Klein & Dipper 2016: 3); wer auf größere Datenmengen angewiesen ist und Abstriche bei der Ausgewogenheit machen kann, kann zusätzlich die Ergänzungstexte heranziehen.

Link: https://korpling.german.hu-berlin.de/annis3/ddd (REA)

https://www.linguistics.rub.de/annis/annis3/REM/ (REM)

Bonner Frühneuhochdeutschkorpus. Das Bonner Frühneuhochdeutschkorpus (kurz FnhdC) ist ein vergleichsweise kleines, aber dafür handannotiertes Korpus – die Probleme und Ungenauigkeiten, die mit maschineller Annotation einhergehen, finden sich hier also nicht. Es umfasst vier Zeitschnitte, die jeweils die zweite Hälfte des 14. bis 17. Jahrhunderts abdecken. Das FnhdC kann online über die Schnittstelle ANNIS durchsucht werden. Achtung: Nur ein Teil der Wörter ist lemmatisiert, also mit der Information zur Grundform des jeweiligen Wortes versehen (s.u. im Abschnitt „Anatomie eines Korpus“), daher sollte man sich nicht auf die Lemma-Annotation verlassen.

Link: https://korpora.zim.uni-due.de/Fnhd/

DWDS-Kernkorpus. Über das digitale Wörterbuch der deutschen Sprache (DWDS) sind u.a. die DWDS-Kernkorpora des 20. und des 21. Jahrhunderts sowie ein Korpus mit Texten der Wochenzeitung DIE ZEIT verfügbar. Weiterhin gibt es als Spezialkorpora z.B. ein DDR-Korpus und ein Filmuntertitelkorpus. Tipp: Die Referenz- und Zeitungskorpora lassen sich auch gemeinsam durchsuchen, indem man in der Korpusauswahl die Option „Referenz- und Zeitungskorpora (aggregiert)“ auswählt.

Link: www.dwds.de

GerManC. Das GerManC-Korpus ist so konzipiert, dass es an das Bonner Frühneuhochdeutschkorpus anknüpft, wobei der letzte Zeitschnitt des FnhdC bewusst mit dem ersten Zeitschnitt des GerManC überlappt: Wenn man beide Korpora heranzieht und in diesem Zeitschnitt deutliche Unterschiede zwischen beiden Korpora findet, kann man dann nämlich davon ausgehen, dass die beobachteten Differenzen nicht (nur) auf Sprachwandel zurückzuführen sind, sondern beispielsweise text- oder textsortenspezifisch oder gar idiosynkratisch sind. Das GerManC-Korpus umfasst etwa 600.000 Tokens aus drei Zeitschnitten von 1650 bis 1800. Das Korpus lässt sich über das Oxford Text Archive (http://ota.ox.ac.uk/desc/2544) in verschiedenen Formaten (Rohtexte und annotierte Texte) herunterladen und mit Tools wie z.B. AntConc explorieren, zudem ist es auch über Cosmas II (s.u. „Deutsches Referenzkorpus“) verfügbar.

Link: http://www.llc.manchester.ac.uk/research/projects/germanc/germancplus/

Deutsches Textarchiv. Das deutsche Textarchiv ist eine noch in Arbeit befindliche Sammlung deutschsprachiger Texte aus dem Zeitraum von 1600 bis 1900. Bei der Textauswahl wurde darauf geachtet, Texte auszuwählen, die überregional wirksam waren, um die „Entwicklung einer überregionalen Umgangssprache im hochdeutschen Sprachraum seit dem Ende der frühneuhochdeutschen Sprachperiode“ zu dokumentieren (vgl. http://deutschestextarchiv.de/doku/textauswahl). Die derzeit 2276 Texte sind vier verschiedenen Textsorten zugeordnet. Allerdings sind die Textsorten „Belletristik“ und „Gebrauchsliteratur“ derzeit noch deutlich überrepräsentiert; auch weisen die einzelnen Texte deutliche Unterschiede in ihrer Länge auf. Jedoch gibt es die Rohdaten auch zum Download, sodass sich prinzipiell aus der Textsammlung ein ausgewogenes Korpus zusammenstellen lässt.

Link: http://deutschestextarchiv.de

Deutsches Referenzkorpus (DeReKo). Das über Cosmas II zugängliche DeReKo ist in unterschiedliche sogenannte „Archive“ untergliedert, wobei aus sprachgeschichtlicher Perspektive insbesondere das HIST-Archiv interessant ist. Dieses umfasst Texte von der Mitte des 17. bis zum 20. Jahrhundert, wobei es einige Überschneidungen mit dem Hauptarchiv W gibt. Jedes Archiv besteht aus mehreren Korpora, aus denen sich bei Bedarf auch eigene, benutzerdefinierte Korpora zusammenstellen lassen.

Link: https://cosmas2.ids-mannheim.de/

Vom Korpus zur Konkordanz

Empirische Forschung beginnt immer mit einer spezifischen Fragestellung. Dabei sind der wissenschaftlichen Neugier prinzipiell keine Grenzen gesetzt: Jede Fragestellung ist grundsätzlich denkbar. Jedoch muss eine wissenschaftliche Fragestellung bestimmte Voraussetzungen erfüllen. Erstens sollte sie konkret genug sein, um anhand der vorliegenden Daten überprüft werden zu können. Zweitens sollte sie sich in eine falsifizierbare Hypothese umformulieren lassen. Eine Fragestellung wie „Essen Wissenschaftler viele Pralinen?“ ist beispielsweise sehr unspezifisch und lässt sich nur dann in eine falsifizierbare Hypothese umformulieren, wenn man sie konkreter fasst, indem man beispielsweise eine Vergleichsgruppe hinzuzieht. Die Hypothese könnte dann lauten: „Wissenschaftler essen im Durchschnitt mehr Pralinen als Romanautoren.“

Die Fragestellung bzw. die Hypothese entscheidet dann über die Wahl der Methode. Ob Wissenschaftler Pralinen essen, lässt sich mit korpuslinguistischen Methoden eher nicht klären. Die Hypothese, dass Süßwaren in wissenschaftlichen Texten häufiger erwähnt werden als in belletristischen, ließe sich hingegen durchaus mit Hilfe von Korpora überprüfen. Hierfür brauchen wir zunächst ein Korpus, das belletristische und wissenschaftliche Texte enthält. Ein solches Korpus ist das DWDS-Kernkorpus des 20. Jahrhunderts, das unter www.dwds.de verfügbar ist.

Wie jedes Korpus ist das DWDS-Kernkorpus zunächst eine Materialsammlung. Man kann es mit einer großen Bibliothek vergleichen: Ehe man sie benutzen kann, muss man sich zunächst mit ihrem Aufbau und ihrer Organisation vertraut machen sowie mit Möglichkeiten, unter den zahllosen Büchern diejenigen zu finden, nach denen man sucht. Beispielsweise wird man wenig Erfolg haben, wenn man das medizinische Nachschlagewerk „Psychrembel“ in der Bereichsbibliothek Theologie sucht. Und auch in einer medizinischen Fachbibliothek findet man es deutlich leichter, wenn man zuvor den Bibliothekskatalog zu Rate gezogen hat, als wenn man auf gut Glück drauflosstöbert.

Auf die Korpuslinguistik übertragen bedeutet dies erstens: Ich muss ein Korpus wählen, das für meine Fragestellung geeignet ist. Diesen Schritt haben wir schon getan, denn wir haben gesehen, dass das DWDS-Kernkorpus, wie es unsere Fragestellung erfordert, nach Textsorten untergliedert ist und dass sich unter diesen Textsorten auch die beiden Typen von Texten, die uns interessieren, befinden, nämlich belletristische und wissenschaftliche Texte. Dies führt uns unmittelbar zum zweiten Aspekt: Um entscheiden zu können, ob ein Korpus für unsere Fragestellung geeignet ist, müssen wir uns mit seinem Aufbau und seiner Organisation vertraut machen. Zu jedem guten Korpus gibt es eine Dokumentation, der wir beispielsweise entnehmen können, nach welchen Prinzipien das Korpus zusammengestellt wurde, welche Textsorten vertreten sind, wie groß die Subkorpora für jede Textsorte oder jeden Zeitschnitt sind, und vieles mehr.

Drittens schließlich muss man wissen, wie man ein Korpus durchsucht. Ebenso wie es im Falle der Bibliothek unerlässlich ist, sich in die Nutzung des (heutzutage meist digitalen) Bibliothekskatalogs einzuarbeiten, ist es in der Korpuslinguistik vonnöten, das jeweilige Abfragesystem kennenzulernen. Es gibt eine ganze Reihe von Abfragesystemen, deren Abfragesyntax sich teilweise unterscheidet. Ein Abfragesystem ist beispielsweise das Corpus Search, Management and Analysis System des Instituts für Deutsche Sprache, kurz COSMAS, das derzeit in der zweiten Generation vorliegt. Tatsächlich wird „COSMAS II“ häufig synonym mit dem Deutschen Referenzkorpus (DeReKo) verwendet, das über diese Schnittstelle zugänglich ist. Ein anderes Abfragesystem ist beispielsweise ANNIS, worüber die schon verfügbaren Texte von „Deutsch Diachron Digital“ zugänglich sind.

Auf die meisten Korpora kann man über web-basierte Schnittstellen zugreifen. Einige Korpusabfrageprogramme lassen sich jedoch auch herunterladen und lokal installieren. Zum Durchsuchen einfacher Textdateien eignet sich beispielsweise AntConc (http://www.laurenceanthony.net/software/antconc/). Dies setzt aber voraus, dass Sie die Textdateien auf Ihrem Rechner verfügbar haben. Viele Korpora gibt es jedoch aus urheberrechtlichen Gründen nicht zum Download, sie lassen sich nur online durchsuchen. Bei sprachhistorischen Korpora sind die urheberrechtlichen Hürden zum Glück oft geringer – das Bonner Frühneuhochdeutschkorpus, das GerManC-Korpus und das Deutsche Textarchiv beispielsweise lassen sich (fast) vollständig herunterladen, was in vielen Fällen flexiblere Suchen ermöglicht.

Kommen wir zu unserem Beispiel zurück, den Begriffen für Süßwaren. Um unsere Fragestellung korpuslinguistisch zu operationalisieren, müssen wir zunächst Begriffe auswählen, nach denen wir suchen wollen. Für unser Beispiel benutzen wir fünf Begriffe aus dem Wortfeld „Süßwaren“; für eine echte Recherche wäre natürlich eine umfassendere Suche notwendig, und man könnte z.B. auf ein Synonymlexikon zurückgreifen, um möglichst viele Lexeme zu finden und das Wortfeld so umfassend wie möglich abzudecken.

Die Lexeme, die wir für unser Beispiel verwenden, sind Süßwaren, Praline, Schokolade, Bonbon und Süßigkeit. Im Abfragefenster von DWDS geben wir ein:

$l=Süßwaren || $l=Praline || $l=Bonbon || $l=Schokolade || $l=Süßigkeit

Mit dem Operator $l geben wir an, dass wir nach dem Lemma unabhängig von der Flexionsform suchen, d.h. neben Bonbon auch nach Pluralformen (die Bonbons) oder Genitivformen (des Bonbons). Der horizontale Strich fungiert in fast allen Abfragesystemen als ODER-Operator; dass man ihn hier doppelt setzen muss, ist ein Spezifikum des DWDS-Abfragesystems.

Eine alternative, etwas effizientere Suchabfrage wäre die folgende, in der die Slashes (/) anzeigen, dass sie von sog. regulären Ausdrücken Gebrauch macht, denen wir in den folgenden Kapiteln noch öfter begegnen werden:

$l=/Süßwaren|Praline|Bonbon|Schokolade|Süßigkeit/

Da hier nicht die DWDS-spezifische Syntax verwendet wird, sondern „normale“ reguläre AusdrückeReguläre Ausdrücke, muss man hier den ODER-Operator nur einmal setzen.

Als Ergebnis erhalten wir eine sog. Konkordanz im Key Word in Context-Format, kurz KWiC. Wie der Name schon sagt, wird dabei der gesuchte Begriff – das Keyword – im Kontext angezeigt:

Belletristik	an manchen Tagen nach Haufen verdorbener	Pralinen	, zuckrigem Fett .
Belletristik	» Vanille und	Schokolade	, wie du's immer mochtest
Belletristik	macht sie sich drei verschiedene Sorten	Schokolade	gleichzeitig :
Belletristik	und legten uns in die Badewanne , aßen	Pralinen	von Aldi , tranken Bananenmilch vom Pennymarkt
Belletristik	Elke läßt eine	Praline	in den Kaffee sinken

Solche Konkordanzen kann man in einem Tabellenkalkulationsprogramm wie Excel oder dem kostenlosen Pendant Calc von LibreOffice bearbeiten; nähere Informationen hierzu finden sich in den digitalen Begleitmaterialien. Für unsere Fragestellung jedenfalls zeigt sich, dass Süßwaren in belletristischen Texten deutlich häufiger Erwähnung finden als in wissenschaftlichen (Fig. 5).

Fig. 5: Relative Frequenz von fünf Lexemen aus dem Wortfeld „Süßwaren“ in belletristischen und wissenschaftlichen Texten des DWDS-Kernkorpus des 20. Jahrhunderts.

Anatomie eines Korpus

Die Fragestellungen, die wir mit Hilfe von Korpora untersuchen wollen, gehen jedoch häufig über den einfachen Vergleich von Wortfrequenzen hinaus. Wenn wir beispielsweise syntaktische Fragestellungen untersuchen, kann es hilfreich sein, gezielt nach einzelnen Wortarten zu suchen. Aus diesem Grund sind die meisten Korpora auf Wortarten hin getaggt (Part-of-Speech-Tagging, kurz POS-Tagging). Ebenso wie die Lemmatisierung, der wir in unserem Beispiel im vorigen Abschnitt schon begegnet sind, erfolgt dieses Tagging heutzutage meist automatisch. Wenn wir beispielsweise den ersten Satz dieses Kapitels mit Hilfe des Programms TreeTagger (Schmid 1994) annotieren, erhalten wir Folgendes:

Was	PWS	was
ist	VAFIN	sein
der	ART	die
Gegenstand	NN	Gegenstand
der	ART	die
Sprachwissenschaft	NN	Sprachwissenschaft
?	$.	?

In der linken Spalte ist der ursprüngliche Text zu sehen, der anhand der Leerzeichen in einzelne Tokens, also einzelne Wörter, untergliedert wird. Satzzeichen werden dabei ebenfalls als eigene Tokens behandelt. In der mittleren Spalte sehen wir die Part-of-Speech-Tags, rechts die Lemmata, also die unflektierten Grundformen. Neben dem Part-of-Speech-Tagging und der Lemmatisierung sind natürlich noch viele weitere Annotationen möglich. Viele Korpora sind beispielsweise auch syntaktisch geparst und lassen sich somit zum Beispiel nach Nominalphrasen, Verbalphrasen und anderen Einheiten auf syntaktischer Ebene durchsuchen. Fig. 6 zeigt dies am Beispiel der Nominalphrase der Gegenstand der Sprachwissenschaft, wobei die Knotennamen NK und AG für noun kernel (also: Kernelement einer Nominalphrase) und Attribute, Genitive (also: Genitivattribut) stehen.

Fig. 6: Beispiel für syntaktisches Parsing.

Um die Möglichkeiten und Grenzen eines spezifischen Korpus kennenzulernen, ist es daher unerlässlich, sich zunächst in der Dokumentation zu informieren, auf welche Informationen hin es kodiert ist. Sind die einzelnen Korpusdateien öffentlich zugänglich, kann auch ein Blick auf die Rohdaten Aufschluss darüber geben, welche Möglichkeiten ein Korpus bietet.

Über das Tagging der einzelnen Tokens hinaus bieten Korpora in aller Regel auch Metainformationen zu den einzelnen Texten, beispielsweise zu Textsorte, Entstehungsjahr, Autor/in etc. Die Informationen hierzu finden sich ebenfalls in der Dokumentation.

Von der Konkordanz zur Analyse

Die Konkordanz ist natürlich nur der erste Schritt zur Analyse der Daten. Wenn wir nur Wortfrequenzen vergleichen, ist der nächste Schritt die quantitative Auswertung. In aller Regel geht der Auswertung aber noch ein weiterer Schritt voran: die Annotation. In diesem Schritt werden die Belege in der Konkordanz mit zusätzlichen Informationen versehen. Angenommen beispielsweise, wir wollen herausfinden, ob Frauenbezeichnungen in der vom Bonner Frühneuhochdeutschkorpus abgedeckten Zeitspanne eine Pejorisierung, also eine Abwertung, erfahren. Dass Frauenbezeichnungen im Deutschen dafür sehr anfällig sind, ist bekannt: So bezog sich vrouwe im Mittelhochdeutschen auf eine Edeldame, während wîp die unmarkierte Frauenbezeichnung war; heute hingegen ist Weib eindeutig abwertend, und Frau ist die Standardbezeichnung für Menschen weiblichen Geschlechts. Doch lässt sich diese Entwicklung in den Texten des Bonner Frühneuhochdeutschkorpus nachvollziehen?

Um dies zu überprüfen, suchen wir im Bonner Frühneuhochdeutschkorpus (FnhdC) nach Belegen, die dem Lemma Frau bzw. Weib zugeordnet sind. Weil im FnhdC aber auch Komposita wie Jungfrau dem Lemma Frau zugeordnet sind, entfernen wir diese anschließend manuell aus der Konkordanz. Daraufhin entscheiden wir für jeden Beleg anhand des Kontexts, ob der jeweilige Begriff positiv, neutral oder negativ verwendet wird. So geht aus dem Kontext recht eindeutig hervor, dass Weib in Beispiel (5) eher positiv verwendet wird, in (6) hingegen äußerst negativ, in (7) dagegen neutral.

(5)	Ist das du mir den apphel gebist ich wil dir zu kone geben das schonste unde edilste weip das alle Krichenlandt hat (Johannes Rothe: Chronik, 15. Jh.) ‚Wenn du mir den Apfel gibst, will ich dir die schönste und edelste Frau geben, die es in ganz Griechenland gibt‘
(6)	Schluͤßlich man wird vil narrischer als jennes alte hirnschellige Weib Acco das mit ihrer Bildnuß in dem Spiegel als mit einer Muhmen reden und conversiren wollen (Gotthard Heidegger: Mythoscopia, spätes 17. Jh.)
(7)	daß jederman sehen koͤnne daß kein ander Weib noch Kind darunter sey (Hiob Ludolf: Schaubühne, 17. Jh.)

Bei der Annotation wird allerdings schnell klar, dass nur die wenigsten Fälle so eindeutig sind wie die drei genannten Beispiele. Umso wichtiger ist es, klare Annotationskriterien zu definieren, sich konsequent daran zu halten und sie in der Präsentation der Ergebnisse transparent zu machen. Einige Fragen, die sich im Blick auf die Daten zu Frau/Weib ergeben, sind beispielsweise:

1 Frau kommt häufig in der festen Fügung unsere Frau bzw. unsere liebe Frau vor, die sich auf die Jungfrau Maria bezieht. Werden diese mit einbezogen oder mit der Begründung, dass es sich dabei um stehende Wendungen handelt, die mit der freien Verwendung von Frau nichts zu tun haben, getilgt? Beides ist möglich, doch muss die Entscheidung transparent gemacht und begründet werden. Wenn die Belege berücksichtigt werden, stellt sich die Folgefrage, ob sie grundsätzlich als „positiv“ annotiert werden sollen oder nur dann, wenn ein positives Attribut wie lieb im unmittelbaren Kontext steht.
2 Eine ähnliche Frage stellt sich im Blick auf alle anderen Belege: Kann ein Beleg schon als „positiv“ annotiert werden, wenn über eine Frau gesagt wird, dass sie etwas Gutes, Richtiges, Lobenswertes tut – oder muss im unmittelbaren Kontext eindeutig ein positives Attribut oder Prädikat stehen, z.B. die edle Frau oder diese Frau ist höchst lobenswert? Das gleiche gilt umgekehrt natürlich für die Annotation „negativer“ Verwendungsweisen.
3 Sowohl Frau als auch Weib werden in den Belegen synonym mit ‚Ehefrau‘ verwendet. Sollen diese Belege mit einbezogen, getilgt oder gesondert behandelt werden? Erneut gilt: Alles ist möglich, solange es konsequent umgesetzt, transparent gemacht und gut begründet wird.
4 Was tun mit Belegen, in denen eine eindeutige Interpretation nicht möglich ist – etwa wenn man den Verdacht hat, dass in einem Beleg edles Weib ironisch gebraucht wird, sich aber nicht sicher ist und auch keine Möglichkeit hat, den größeren Kontext zu überprüfen? In solchen Fällen empfiehlt es sich, eine Kategorie „unklar“ einzuführen und ggf. in einer Kommentarspalte zu vermerken, worin die Unklarheit besteht.

Sobald wir Korpusbelege auf semantische Aspekte annotieren, stellen sich solche Fragen immer. Weil hier stets die Gefahr besteht, allzu subjektive Entscheidungen zu treffen, empfiehlt es sich, die Daten nach Möglichkeit von zwei Personen kodieren zu lassen und anschließend die Fälle, in denen keine Übereinstimmung besteht, zu diskutieren (intercoder reliability). Bei Seminar- oder Abschlussarbeiten ist das meist keine Option und wird daher auch in aller Regel nicht erwartet, aber für größer angelegte Studien sollte man, wenn irgend möglich, von dieser Möglichkeit Gebrauch machen. Wenn man die Ergebnisse berichtet, kann man dann angeben, wie hoch die Übereinstimmung war, in wie vielen Fällen nach einer Diskussion der strittigen Punkte Übereinstimmung erzielt wurde und in wie vielen Fällen keine Übereinstimmung erzielt werden konnte; die letztgenannten Fälle sollten in der Analyse nicht berücksichtigt werden.

Zum Weiterlesen

Scherer (2006) bietet eine gut lesbare, knappe Einführung in die Korpuslinguistik. Etwas ausführlicher ist die englischsprachige Einführung von McEnery & Wilson (2001). Lemnitzer & Zinsmeister (2015) gehen in ihrer Einführung auch auf die Geschichte der Korpuslinguistik und auf wissenschaftstheoretische Hintergründe ein. Wie man die Programmiersprache R in der quantitativen Korpuslinguistik fruchtbar einsetzen kann, zeigt Gries (2016).

Wer ernsthaft quantitative Linguistik betreiben möchte, muss sich auch mit Statistik auseinandersetzen. Eine gute deutschsprachige Einführung bietet Meindl (2011). Mit Levshina (2015) liegt eine noch recht neue, gut lesbare Einführung in Grundlagen der Statistik sowie verschiedenste quantitative Methoden vor. Gries (2013) bietet ebenfalls einen guten Einstieg, zumal seine Beispiele zumeist der Korpuslinguistik entstammen; teilweise ist das Buch allerdings etwas unübersichtlich, es gibt keinen Index und die Kapitelüberschriften sind nicht immer aussagekräftig. Das – allerdings recht anspruchsvolle – Standardwerk ist jedoch noch immer Baayen (2008).