Kitabı oku: «Wikipedia und der Wandel der Enzyklopädiesprache», sayfa 13
Insgesamt zeigen die Bemühungen, ein inhaltlich weitestgehend vergleichbares Korpus zu erstellen, dass sich die Enzyklopädien schon allein in ihrer Auswahl an Stichwörtern unterscheiden und zusätzlich unterschiedliche Präferenzen für die Betitelung von Artikeln haben, wobei auffällt, dass die Printenzyklopädien häufig komplexere und präzisere Titel bevorzugen, während insbesondere die französische Wikipedia eher kürzere Titel bevorzugt.
4.3 Korpusaufbereitung
Um die Enzyklopädieartikel computergestützt auswerten zu können, ist es notwendig, dass die Texte in maschinenlesbarer Form vorliegen. Dazu wird für den Text eines jeden Enzyklopädieartikels zunächst eine separate Textdatei erstellt. Die Texte aus den Wikipediaartikeln werden von der Website als pdf gespeichert und später in die Textdatei eingefügt. Ebenso werden vorhandene Scans der Encyclopédie Larousse (LAR 1971) aus der Bibliothèque Nationale de France genutzt. Die Enzyklopädieartikel der anderen Printenzyklopädien werden mit Texterkennung gescannt und in die Textdateien überführt, wobei Scanfehler manuell ausgebessert werden. Die einzelnen Textdateien werden dann durch TreeTaggerTreeTagger (Schmid 1994) tokenisiertTokenisierung, mit WortartenTagging nach dem Stuttgart-Tübingen-TagsetStuttgart-Tübingen-Tagset annotiertAnnotation und mit den zu den Tokenformen zugehörigen Lemmata versehenLemmatisierung. Das Stuttgart-Tübingen-Tagset definiert unterschiedliche Annotationen für Wortarten im Französischen und im Italienischen. Das französische Tagset (Stein 2003) und das italienische Tagset (Stein 2017) enthalten die folgenden Annotationen, die durch die manuelle Annotation des Hilfsverbs bei zusammengesetzten Tempora ergänzt worden sind:
ABR | abréviation | ABR | abbreviazione | |
ADJ | adjectif | ADJ | aggettivo | |
ADV | adverbe | ADV | avverbio | |
DET:ART | article | CON | congiunzione | |
DET:POS | pronom possessif | DET:def | determinante definito | |
INT | interjection | DET:indef | determinante indefinito | |
KON | conjonction | FW | foreign word | |
NAM | nom propre | INT | interiezione | |
NOM | nom | LS | list symbol | |
NUM | numéral | NOM | nome | |
PRO | pronom | NPR | nome proprio | |
PRO:DEM | pronom démonstratif | NUM | numerale | |
PRO:IND | pronom indéfini | PON | puntuazione | |
PRO:PER | pronom personnel | PRE | preposizione | |
PRO:POS | pronom possessif | PRE:det | preposizione più determinante | |
PRO:REL | pronom relatif | PRO | pronome | |
PRP | préposition | PRO:demo | pronome demonstrativo | |
PRP:det | préposition plus article | PRO:indef | pronome indefinito | |
PUN | ponctuation | PRO:inter | pronome interrogativo | |
PUN:cit | ponctuation citation | PRO:pers | pronome personale | |
SENT | sentence tag | PRO:poss | pronome possessivo | |
SYM | symbole | PRO:refl | pronome riflessivo | |
VER:cond | verbe conditionnel | PRO:rela | pronome relativo | |
VER:futu | verbe futur | SENT | sentence marker | |
VER:impe | verbe impératif | SYM | symbole | |
VER:impf | verbe imparfait | VER:cimp | verbo congiuntivo imperfetto | |
VER:infi | verbe infinitif | VER:cond | verbo condizionale | |
VER:pper | verbe participe passé | VER:cpre | verbo congiuntivo presente | |
VER:ppre | verbe participe présent | VER:futu | verbo futuro | |
VER:pres | verbe présent | VER:geru | verbo gerundio | |
VER:simp | verbe passé simple | VER:impe | verbo imperativo | |
VER:subi | verbe subjonctif imparfait | VER:impf | verbo imperfetto | |
VER:subp | verbe subjonctif présent | VER:infi | verbo infinitivo | |
VER:aux.futu | verbe auxiliaire futur; aller+inf | VER:ppre | verbo participio presente | |
VER:aux.futu. pass | allait+Inf, devait+Inf, conditionnel | VER:pres | verbo presente | |
VER:aux.pc | verbe auxiliaire passé composé | VER:refl:infi | verbo riflessivo infinito | |
VER:aux.plqpf | verbe auxiliaire plus que parfait | VER:remo | verbo passato remoto | |
VER:aux.pc | verbo ausiliare passato prossimo | |||
VER:aux.plqpf | verbo ausiliare trapassato prossimo |
Tabelle 4a/b: Annotationen im französischen und im italienischen Korpus (leicht adaptiert nach Stein 2003; 2017)
Die dreispaltigen annotierten Textdateien, die das TokenToken, das zugehörige POS-TagPOS-Tag und das LemmaLemma enthalten, werden so aufbereitet, dass sie in die Korpussoftware CQPwebCQPweb (Hardie et al. 2015) importiert werden können. Dazu werden die Textdateien pro Artikel in eine Textdatei pro Enzyklopädie zusammengeführt, die mit der Angabe der XML-VersionXML-Version und der EnkodierungEnkodierung betitelt wird (Bubenhofer 2017). Als EnkodierungEnkodierung wird UTF-8 gewählt. Der Beginn eines jeden Artikels wird mit einem XML-TagXML-Tag versehen, das den Titel des Artikels enthält (die sogenannte Text-IDText-ID, anhand derer die annotierten Listen den Artikeln im Korpusprogramm später zugeordnet werden können). Das Ende des Artikels wird ebenfalls mit einem XML-TagXML-Tag markiert. Die Korpusdaten sehen nun folgendermaßen aus, wobei der Ausschnitt den Beginn des Artikels Acide aus der französischen Wikipedia zeigt:
Abbildung 6:
Annotierte Korpustexte
Passend zu den Text-IDsText-ID wird für das gesamte französische Korpus und das gesamte italienische Korpus eine MetadatentabelleMetadaten erstellt, die in der ersten Spalte die festgelegten Text-IDsText-ID, in der zweiten Spalte das Medium, in der dritten Spalte das Werk, in der vierten Spalte das Jahr und in der fünften Spalte das Fach angibt:
Text-ID | Medium | Werk | Jahr | Fach |
WPF_acide | digital | WP | 2015 | Chemie |
WPF_Afghanistan | digital | WP | 2015 | Geografie |
WPF_alcaloide | digital | WP | 2015 | Chemie |
WPF_alcool | digital | WP | 2015 | Chemie |
Tabelle 5: Ausschnitt aus der Metadatentabelle des französischen Korpus
Die Korpusdateien und die zugehörigen MetadatentabellenMetadaten werden in CQPweb importiert. Die Übereinstimmung der Text-IDText-ID zwischen den Korpusdateien und der Metadatentabelle ermöglicht es, textinterne Merkmale nach den Kategorien Medium, Werk, Jahr und Fach gesondert zu quantifizieren. Dabei ermöglicht CQPwebCQPweb nicht nur die Abfrage von TokensToken. Mithilfe der CQP-SyntaxCQP-Syntax können komplexe Suchanfragen gestellt werden, bei denen nach TokenToken, POS-TagsPOS-Tag, LemmataLemma oder Kombinationen aus den drei Einheiten gesucht werden kann. Zudem kann nach Buchstabenkombinationen am Anfang, in der Mitte oder am Ende des Wortes gesucht werden. Die Treffer werden entweder als Wortform allein oder als Wortform mit zugehöriger Wortart angezeigt. Zudem erlaubt das Programm die Quantifizierung der Treffer, die Erstellung von FrequenzlistenFrequenzliste und das Errechnen statistisch signifikanter SchlüsselwörterSchlüsselwort, KookkurrenzenKookkurrenz und noch weitere Verfahren, die von den Entwicklern fortlaufend ergänzt werden.
4.4 Korpuslinguistische Analyseverfahren
Um Phänomene aufzuzeigen, die den Wandeldiskurstraditioneller Wandel, aber auch die Konstanz der Diskurstradition EnzyklopädieartikelEnzyklopädieartikel in Wikipedia verdeutlichen, wird eine Kombination aus quantitativen und qualitativen Analysemethoden verwendet.
4.4.1 Definition: Token, Type, Lemma
Um sprachliche Erscheinungen im Korpus zu quantifizieren und die Ergebnisse transparent zu machen, ist es notwendig, diejenigen Einheiten, die gezählt werden, möglichst exakt zu definieren. In CQPwebCQPweb umfassen TokensToken sowohl Wortformen als auch Interpunktionszeichen (cf. Hardie 2012: 389). Die Anzahl der TokensToken in CQPweb entspricht der Anzahl der Zeichenketten in einem Text, die von Leerzeichen umgeben sind. Wenn TokensToken gezählt werden, werden der Reihe nach in einem Text alle TokensToken gezählt, mehrfach auftretende Formen werden dabei auch mehrfach gezählt. Jedoch kann man sich mit der Funktion Frequency breakdown die Frequenz jeweils einer Wortform anzeigen lassen, die das System dann als Type bezeichnet. Somit ergibt die Suchanfrage nach den Wortformen banque und banques insgesamt 2 TypesType und 933 TokensToken im französischen Korpus. Die Berechnung von Lemmata führt dagegen die Wortformen auf eine grammatikalische Grundform zurück. Somit wären banque und banques zwar zwei Types, aber beide Formen werden auf die Grundform banque zurückgeführt und als ein LemmaLemma gezählt. Diese LemmatisierungLemmatisierung nimmt der TreeTaggerTreeTagger bereits bei der Vorverarbeitung vor und CQPwebCQPweb greift dann auf die Informationen in der dritten Spalte der Listen zurück.
4.4.2 Korpusfrequenzen und Dispersion
Da die Korpora ungekürzte Enzyklopädieartikel enthalten und damit unterschiedlich groß sind, wird sowohl mit absolutenFrequenz– absolute als auch mit relativenFrequenz– relative Frequenzen gearbeitet, um die Korpora vergleichen zu können. Relative Frequenzen werden entweder pro hundert Wörter, also in Prozent, oder bei geringeren Frequenzen auch pro Million Wörter (pM) angegeben (cf. Hoffmann et al. 2008: 70ff.). Dabei wird einerseits die Frequenz von einzelnen sprachlichen Formen erhoben, andererseits werden aber auch Wörterlisten zu einzelnen Korpora automatisch erstellt, um beispielsweise einen typischen Wortschatz zu analysieren. Auf der Wortebene können in CQP auch die einzelnen Buchstaben eines Wortes gezählt werden, oder die Anzahl der Wörter pro Satz, was eine Berechnung der durchschnittlichen Wort-Wortlänge und SatzlängeSatzlänge ermöglicht. Zur Berechnung der lexikalischen Vielfaltlexikalische Vielfalt in den Texten wird außerdem das R-Paket koRpusR-Paket koRpus hinzugezogen, in das die für CQP aufbereiteten Dateien ebenfalls importiert werden können.
Jedoch ist zu beachten, dass die für das Korpus erhobenen MittelwerteMittelwert auch täuschen können. Sie repräsentieren die quantitativen Verhältnisse im gesamten Korpus nicht immer gleich gut, wenn sie durch Ausreißer in nur einem Teil zustande kommen, die den Mittelwert verfälschen:
As one learns in every introduction to statistics, “never provide a mean without also providing an index of dispersion.” This rule applies here, too. The overall mean does not reveal that the distribution of y […] is extremely uneven: While y’s overall relative frequency is 28.57%, its relative frequencies across the corpus varies between 0 and 85.71%, and neither of these frequencies is summarized well by the overall mean. Note how q, on the other hand, has a perfectly regular distribution: its overall relative frequency is 14.29%, as is its relative frequency in each corpus part. Situations like these can not only be rather frequent but can also potentially undermine any statistic based on frequencies. If an overall corpus frequency is high, then this will be reflected in whatever other statistic is based on that frequency, but if the high frequency is completely unrepresentative of most of the corpus, the results will be of dubitable value only (Gries 2010: 274).
In CQPweb wird deswegen zusätzlich angezeigt, in wie vielen Enzyklopädieartikeln eines Korpus der gesuchte Ausdruck auftritt. Neben diesem relativ groben Maß der Verteilung der Ergebnisse, das lediglich die Anzahl der Texte, jedoch nicht die Frequenzen des Items in diesen Texten berücksichtigt, existieren eine Reihe weiterer Möglichkeiten, die differenzierter gewichten, hier jedoch nicht verwendet werden (cf. Gries 2008).
4.4.3 Schlüsselwortextraktion
Neben Verfahren der deskriptiven Statistikdeskriptive Statistik, die Korpusfrequenzen und deren Verteilung im Korpus ermitteln, werden auch Verfahren der schließenden Statistikschließende Statistik verwendet, um SchlüsselwörterSchlüsselwort zu extrahieren:
In corpus-based linguistics, “keywords” for a (sub)corpus are words which are more frequent or infrequent in a particular “study corpus” when compared against a “reference corpus”. These words are considered “key” when the difference in textual frequencies is determined to be statistically significant – in other words, if we can say with a sufficient degree of confidence that the observed difference is not due to chance (Hoffmann 2008 et al.: 204).
Zusätzlich zur Analyse statistisch auffälliger SchlüsselwörterSchlüsselwort ist in CQPweb auch die Extraktion signifikanter Lemmata und POS-TagsPOS-Tag mithilfe der Funktion KeywordsKeyword and keytagsKeytag möglich. Ob ein Lexem statistisch signifikant häufiger in einem Korpus als in einem Vergleichskorpus auftritt, wird in CQPweb standardmäßig mit dem Log-Likelihood-AssoziationstestLog-Likelihood-Assoziationstest geprüft. Dabei werden die beobachteten FrequenzenFrequenz– beobachtete in beiden Korpora mit den errechneten erwartetenFrequenz– erwartete Frequenzen in Relation gesetzt. Um anhand der beobachteten Frequenzen die erwarteten Frequenzen zu berechnen, wird mit KontingenztabellenKontingenztabelle gearbeitet:
A rigorous statistical approach to measuring association is based on contingency tables representing the cross-classification of a set of items. Such tables naturally take marginal frequencies into account, unlike a simple comparison of O against E (Evert 2009: 1231).
Die Kontingenztabelle für die beobachtetenFrequenz– beobachtete Häufigkeiten stellt sowohl die Korpusfrequenzen als auch die Randsummen dar und sieht folgendermaßen aus (cf. Evert 2009: 1231):
Korpus 1 | Korpus 2 | Randsumme | |
Suchwort | O11 | O12 | R1 |
Nicht-Suchwort | O21 | O22 | R2 |
gesamt | C1 | C2 | N |
Tabelle 6: Kontingenztabelle für beobachtete Frequenzen
Dabei ist O11 die absolute Frequenz, mit der das betreffende Wort in Korpus 1 auftritt und O12 die absolute Frequenz, mit der das betreffende Wort in Korpus 2 auftritt. O21 ist die Frequenz aller anderen Wörter in Korpus 1 und O22 die Frequenz aller anderen Wörter in Korpus 2. C1 und C2 geben jeweils die Größe von Korpus 1 bzw. Korpus 2 an. Zudem gibt R1 die Frequenz des Suchworts insgesamt und R2 die Frequenz aller anderen Wörter außer der des Suchworts an. N steht für die Gesamtgröße des Korpus. In Kenntnis der Randsummen werden nun diejenigen Häufigkeiten berechnet, die man theoretisch erwartet, wenn kein Zusammenhang zwischen Kategorie und Häufigkeit besteht:
If we employ the null hypothesis that there is no difference between the frequencies found in each category, the first step is to decide what the frequencies would have been if there were no relationship between category and frequency. In such a case, all the frequencies would be the same, and equal to the sum of the frequencies in each cell, divided by the number of categories. This theoretical number of items per cell in the frequency table is called the expected value, E, while the actual number in each cell is called the observed value, O (Oakes 1998: 24).
Die KontingenztabelleKontingenztabelle für die erwarteten FrequenzenFrequenz– erwartete sieht demnach folgendermaßen aus (cf. Evert 2009: 1231):
Korpus 1 | Korpus 2 | |
Suchwort | ![]() | ![]() |
Nicht-Suchwort | ![]() | ![]() |
Tabelle 7: Kontingenztabelle für erwartete Frequenzen
Nun werden die beobachteten Werte zu den erwarteten Werten in Relation gesetzt. Der einfachste Weg wäre, die beobachteten Werte durch die erwarteten Werte zu dividieren. Jedoch kann dieser Wert bei geringen Frequenzen leicht täuschen. Deswegen wird auf ein statistisches Assoziationsmaß, den Log-Likelihood-KoeffizientenLog-Likelihood-Koeffizient, zurückgegriffen, der hier in der in Oakes (1998: 42) angegebenen Form verwendet wird:

Dabei wird pro Wertepaar aus beobachtetem und korrespondierendem erwarteten Wert die folgende Berechnung vorgenommen: Es wird der natürliche Logarithmus des Quotienten aus beobachtetem und erwartetem Wert berechnet und das Ergebnis mit dem beobachteten Wert multipliziert. Diese Berechnung wird für jedes Wertepaar O11-E11, O12-E12, O21-E21 und O22-E22 vorgenommen; die Ergebnisse werden addiert und anschließend mit zwei multipliziert. Das Ergebnis ist ein Log-Likelihood-Wert (LL oder G2). Da die Verteilung der Log-Likelihood-Werte annähernd der Chi-Quadrat-VerteilungChi-Quadrat-Verteilung entspricht (cf. Oakes 1998: 42), wird diese herangezogen, um die kritischen Werte und die damit einhergehenden p-Wertep-Wert zu ermitteln:
Freiheitsgrade | p-Werte | |||||
0,20 | 0,10 | 0,05 | 0,025 | 0,01 | 0,001 | |
1 | 1,64 | 2,71 | 3,84 | 5,02 | 6,64 | 10,83 |
2 | 3,22 | 4,61 | 5,99 | 7,38 | 9,21 | 13,82 |
3 | 4,64 | 6,25 | 7,82 | 9,35 | 11,34 | 16,27 |
Tabelle 8: Chi-Quadrat-Verteilung nach Oakes (1998: 266)
Bei einer Vier-Felder-Tafel mit einem FreiheitsgradFreiheitsgrad von 1 muss der LL-Wert bei mindestens 3,84 liegen, um einen Wert von p ≤ 0,05, bei 6,64 um p ≤ 0,01 und bei 10,83, um p ≤ 0,001 zu erreichen. In der Regel wird ab einem p ≤ 0,05 davon ausgegangen, dass die NullhypotheseNullhypothese mit ausreichender Wahrscheinlichkeit abgelehnt werden kann und die Differenz der Ergebnisse somit statistisch signifikantstatistische Signifikanz ist (cf. Oakes 1998: 43). In CQPweb erlaubt die Funktion KeywordsKeyword, einen Grenzwert für den p-Wert festzulegen. Es werden dann nur diejenigen Wörter angezeigt, deren p-Wert unter dem Grenzwert liegt oder diesem entspricht:
This parameter sets a cut-off point for the display of keywords. For example 0.1% means that the probability that the observed difference in frequency is purely due to chance is 0.1% or lower (Hoffmann et al. 2008: 208).
Zusätzlich lässt sich zu Beginn der Analyse eine Mindestfrequenz der Schlüsselwörter festlegen. In CQPweb ist diese bei fünf pro Korpus voreingestellt, um die Ergebnisse nicht durch niedrigfrequente Wörter zu verfälschen (cf. Hoffmann et al. 2008: 208).
Um nicht nur die Wahrscheinlichkeiten für ein signifikant häufigeres Auftreten eines Items in einem Korpus im Vergleich zu einem anderen Korpus anzugeben, sondern um auch den tatsächlichen Effekt zu messen, wird zusätzlich zu den Log-Likelihood-Werten ein Maß der EffektstärkeEffektstärke, der Log ratioLog ratio, hinzugezogen:
The problem with this accepted procedure is that log-likelihood is a statistical significance measure – it tells us how much evidence we have for a difference between two corpora. However, it doesn’t tell us how big/how important a given difference is (Hardie 2014).
Der Log ratio gibt dabei an, um wie viel Mal häufiger ein Wort im Korpus 1 als im Korpus 2 auftritt. Dazu wird der Quotient aus den relativen Häufigkeiten des Wortes in Korpus 1 und den relativen Häufigkeiten des Wortes in Korpus 2 gebildet. Zur besseren Darstellung bei großen Differenzen wird der Zweierlogarithmus des Quotienten berechnet. Ein Log ratioLog ratio von drei bedeutet demnach, dass die Differenz 23, also achtmal so groß ist:
