Kitabı oku: «Wikipedia und der Wandel der Enzyklopädiesprache», sayfa 14
4.4.4 Kookkurrenzanalyse
Zusätzlich zur schlüsselwortbasierten Analyse eines typischen Vokabulars von Teilkorpora lassen sich mittels CQPwebCQPweb auch typische Zweiworteinheiten extrahieren. Diese geben Aufschluss über kombinatorische Eigenschaften eines TokensToken in grammatikalischer oder semantischer Hinsicht (cf. Evert 2009: 1219) und lassen beispielsweise Rückschlüsse auf das Bedeutungspotenzial eines Lexems zu. Es lassen sich jedoch auch Verweise auf außersprachliche Gegebenheiten herauslesen, die besonders für eine Analyse der Enzyklopädieartikel hinsichtlich der angesprochenen Themen, aber auch hinsichtlich der vorgenommenen Wertungen interessant sein können:
[…] in gewisser Weise zeigt dies auch, welches Wissen oder welche Ansichten zu bestimmten Begriffen sich in Diskursen niederschlagen (Belica/Perkuhn 2015: 223).
Die Extraktion statistisch signifikanter Zweiworteinheiten wird in CQPweb von der Funktion Collocationscollocation durchgeführt, wobei der Kollokationsbegriff des Programms rein statistischer Natur ist. Als KollokationKollokation wird eine Kombination aus zwei Tokens definiert, die statistisch signifikant häufig auftritt:
By interpreting occurrences of words as events, statistical association measures can be used to quantify the attraction between cooccurring words. They thus complete the formal definition of empirical collocations (Evert 2009: 1215).
Eine solche Analyse filtert jedoch nicht nur Kollokationen im traditionellen Sinn heraus, sondern ergibt auch zweiteilige Eigennamen, Komposita, stereotype Phrasen, semantisch ähnliche Ausdrücke (cf. Evert 2009: 1219) oder grammatikalische Muster wie Artikel + Nomen. Aus diesem Grunde bedürfen die gefundenen KookkurrenzenKookkurrenz der linguistischen Analyse, um interessante Zweiworteinheiten herauszufiltern.
Die Extraktion statistisch signifikanter KookkurrenzenKookkurrenz erfolgt in CQPwebCQPweb nach demselben Prinzip wie die Extraktion der Schlüsselwörter. Lediglich die KontingenztabelleKontingenztabelle wird an die veränderte Fragestellung angepasst. Grundlegend sind dabei die Einheiten KollokationsbasisKollokationsbasis (node), KollokatorKollokator (collocate), Spanne (span; Entfernung von der Kollokationsbasis in Tokens; z.B. drei Tokens rechts und drei Tokens links von der Basis) und Fenster (window; Summe der Spannen, die eine Kollokationsbasis umgeben) (cf. Hoffmann 2008 et al.: 144ff). Anstatt zwei Korpora zu vergleichen, wird das Korpus in zwei Teile geteilt, einen Teil innerhalb des Kollokationsfensters und einen Teil außerhalb des Kollokationsfensters:
Each item, i.e. word token, is then classified into the first row of the contingency table if it cooccurs with the node words w1, i.e. if it falls into one of the collocational spans around the instances of w1; it is classified into the second row otherwise. The item is classified into the first column of the table if it is an instance of the targeted collocate w2, and into the second column otherwise (Evert 2009: 1233).
Die KontingenztabelleKontingenztabelle für die beobachteten Werte sieht nach diesem Verfahren folgendermaßen aus:
f (Kollokator) | f (andere Wortformen) | gesamt | |
im Fenster | O 11 | O12 | R 1 |
außerhalb des Fensters | O21 | O22 | R2 |
gesamt | C 1 | C2 | N |
Tabelle 9: Kontingenztabelle für beobachtete Werte bei Kollokationen; gegebene Werte fett gedruckt
Dabei ist O11 die Frequenz, mit der die Basis zusammen mit dem KollokatorKollokator auftritt. R1 ist die Größe des Fensters, die sich errechnet, indem die festgelegte Spanne mit zwei und mit der Frequenz der Basis multipliziert wird. C1 ist des Weiteren die Frequenz des KollokatorsKollokator im Korpus und N die Korpusgröße. Die übrigen Werte in der Tabelle können anhand der vier gegebenen Werte berechnet werden. Nach dem gleichen Prinzip werden nun zu den beobachteten Werten die erwarteten Werte berechnet. Beide Werte werden durch den Log-Likelihood-AssoziationstestLog-Likelihood-Assoziationstest in Beziehung gesetzt. Dabei lässt sich anhand der kritischen Werte bestimmen, mit welcher Wahrscheinlichkeit die KookkurrenzKookkurrenz zufällig ist oder nicht. Zusätzlich zur Auftretenswahrscheinlichkeit wird, wie schon bei der Schlüsselwortanalyse, die EffektstärkeEffektstärke mithilfe des Log ratioLog ratio gemessen. Dabei wird die relative Frequenz des Kollokators im Fenster mit der relativen Frequenz des Kollokators außerhalb des Fensters verglichen. Um zu messen, in welchem Verhältnis die beiden relativen Frequenzen stehen, wird ein Quotient aus der relativen Frequenz des Kollokators im Fenster und der relativen Frequenz des Kollokators außerhalb des Fensters gebildet. Der Quotient wird mit einem Zweierlogarithmus logarithmiert (Hardie et al. 2015).
4.4.5 Kritische Betrachtung
Die vorgestellten korpuslinguistischenKorpuslinguistik Methoden eröffnen die Möglichkeit sowohl quantitativer als auch qualitativer Analyse. In der vorliegenden Studie werden beide Verfahren kombiniert, um die Schwächen der jeweiligen Verfahren auszugleichen. Die Schwäche qualitativer Verfahren, die in einer vermehrten Subjektivität der Erhebung und Interpretation besteht, kann durch die computergestützte und damit objektivere Suche nach Formen kompensiert werden. Eine Schwäche computergestützter Verfahren besteht hingegen in der Beschränkung auf Phänomene der sprachlichen Oberfläche. Mithilfe von KonkordanzwerkzeugenKonkordanzwerkzeug kann zwar zuverlässig die Quantität einer sprachlichen Form erfasst werden, jedoch kann nur schwer nach Funktion oder Bedeutung eines sprachlichen Zeichens differenziert werden, weswegen die einzelnen Treffer manuell sortiert und linguistisch interpretiert werden müssen (cf. auch Reutner im Druck).1
Ein weit schwerwiegenderes Problem liegt in der Anwendung statistischer Hypothesentests auf sprachliche Daten, wie sie bei der SchlüsselwortextraktionSchlüsselwortextraktion oder der KookkurrenzanalyseKookkurrenzanalyse eingesetzt werden:
Es ist kein einziger Fall einer linguistischen Untersuchung bekannt geworden, bei dem die in anderen empirischen Wissenschaften vielfach automatisch als gegeben vorausgesetzten Bedingungen erfüllt gewesen wären. Ebenso ist es unzulässig, in Analogie zum induktiven Schluss von Stichproben auf eine Population von einem (oder mehreren) Text(en) auf ein Korpus zu schließen. Texte sind alles andere als Stichproben aus einem Korpus (Köhler 2005: 10).
Als größte methodologische Herausforderung bei der quantitativen Arbeit mit Sprachdaten führt Köhler die zumeist mangelnde Eignung des Korpus, als Repräsentant seiner Artikel zu dienen, an. Als weitere Schwierigkeiten nennt er die Heterogenität und die hohe Varianz der Daten (starke Streuung um den Mittelwert) und die schiefen HäufigkeitsverteilungenHäufigkeitsverteilung bei Sprachdaten. In diesen Fällen ist die Anwendung statistischer Tests, die eine NormalverteilungNormalverteilung der Daten erfordern, nicht möglich (cf. Köhler 2005: 11). Unabhängig davon, ob die Daten normalverteilt sind oder nicht, besteht weiterhin das Problem, dass ein sprachlicher Text keine zufällige Ansammlung von Wörtern ist. Ein Korpus ist somit keine Zufallsstichprobe und die einzelnen Datenpunkte sind nicht unabhängig voneinander oder wie Kilgarriff in seinem Aufsatz „Language is never ever ever random“ formuliert:
Language users never choose words randomly, and language is essentially non-random. Statistical hypothesis testing uses a null hypothesis, which posits randomness. Hence, when we look at linguistic phenomena in corpora, the null hypothesis will never be true. Moreover, where there is enough data, we shall (almost) always be able to establish that it is not true. In corpus studies, we frequently do have enough data, so the fact that a relation between two phenomena is demonstrably non-random, does not support the inference that it is not arbitrary. We present experimental evidence of how arbitrary associations between word frequencies and corpora are systematically non-random. We review literature in which hypothesis testing has been used, and show how it has often led to unhelpful or misleading results (Kilgarriff 2005: 263).
Bestimmte Wörter oder grammatikalische Strukturen treten in einigen Texten häufiger auf als in anderen, was durch das Thema, Autorenstile, den Kommunikationsbereich, die Diskurstradition oder andere Faktoren bedingt sein kann. Um solche Effekte zu vermeiden, müsste man folgendermaßen vorgehen:
This could only be avoided by sampling at the unit of measurement, i.e. individual words or sentences from the entire library, which is impracticable because it would require each word or sentence to be taken from a different book (Evert 2006: 185).
Trotz dieser Kritikpunkte an statistischen Methoden zur Analyse von Sprache plädiert Evert dafür, diese zu verwenden, denn es handelt sich zwar bei der Sprachprobe um keine Zufallsauswahl, doch bei der Auswahl der Korpustexte aus einer Gesamtheit spielt der Zufall eine Rolle – und auf dieser Ebene kann es sich dann bei einem Korpus doch um eine Zufallsstichprobe handeln:
Even though a sentence is not a random bag of words, and even though a text is not a random sequence of sentences, it is sensible to apply statistical methods based on a random sample model to corpus frequency data. The metaphor of language (defined extensionally) as a gigantic library, with each book corresponding to a language fragment (or corpus), explains how randomness finds its way into any quantitative corpus study. It is not inherent in language itself but is introduced by the choice of a particular corpus for the study, which can be likened to picking a book from one of the shelves in a library (Evert 2006: 188).
Angesichts der Schwierigkeiten, die HäufigkeitsverteilungHäufigkeitsverteilung sprachlicher Daten statistisch zu modellieren, wird empfohlen, zusätzliche Maße wie KonfidenzintervalleKonfidenzintervall oder die EffektstärkenEffektstärke heranzuziehen, um die Ergebnisse abzusichern (cf. Perkuhn/Keibel/Kupietz 2012: 87). Zuletzt ist zu beachten, dass statistische Assoziationsmaßestatistisches Assoziationsmaß in korpuslinguistischen Analysen nicht immer dazu dienen, auf eine Grundgesamtheit zu schließen:
Zumindest in der entdeckenden, datengeleiteten Korpuslinguistik sind solche Signifikanzangaben zu Assoziationswerten aber ohnehin weniger interessant. Hier verwendet man Assoziationsmaße vorwiegend zu dem Zweck, auffällige Verwendungsweisen und andere auffällige Eigenschaften eines Wortes aufzuspüren, die meist nicht direkt auf die Grundgesamtheit bezogen werden (Perkuhn/Keibel/Kupietz 2012: 102).
4.4.6 Zwischenresümee
Insgesamt wird angestrebt, mithilfe korpuslinguistischerKorpuslinguistik Analyseverfahren zu quantitativ informierten Ergebnissen zu gelangen, die qualitativ ausgelegt werden. Dabei werden die absoluten und relativen Frequenzen von sprachlichen Formen und deren Verteilung über Teilkorpora erhoben. Des Weiteren werden Wortlisten mit Frequenzen erstellt, um den typischen Wortschatz eines Fachkorpus sichtbar zu machen. Zudem lässt sich durch die Abfrage mithilfe von regulären Suchausdrückenregular expressions eine HäufigkeitsverteilungHäufigkeitsverteilung der Wort- und Satzlängen ermitteln und daraus der Durchschnitt pro Korpus berechnen. Ergänzend zu CQPweb wird zur Berechnung der lexikalischen Vielfaltlexikalische Vielfalt das R-Paket koRpusR-Paket koRpus herangezogen, in das dieselben Dateien importiert werden wie in CQPwebCQPweb. Neben diesen Verfahren der deskriptiven Statistik werden bei der Extraktion von Schlüsselwörtern und signifikanten Kookkurrenzen auch Verfahren der schließenden Statistikschließende Statistik verwendet, wobei diese jedoch durch andere Maße ergänzt werden sollten, weil sich statistische Tests nicht ohne Weiteres auf Korpora anwenden lassen.
4.5 Resümee
Die vorliegende Studie verfolgt auf der Basis eines elektronischen Korpus von Enzyklopädieartikeln die Frage nach der Veränderung der Diskurstradition Enzyklopädieartikel durch die Wikitechnologie. Die Schichtung des Korpus lässt es zu, den Einfluss der Faktoren Sprache, Medium, Zeit und Fach auf die ausgewählten textinternen Merkmale zu beobachten. Um Merkmale auf der sprachlichen Mikroebene zuverlässig im Korpus zu identifizieren, zu quantifizieren und anschließend zu interpretieren, werden die Enzyklopädieartikel annotiertAnnotation und in die Korpusarchitektur CQPwebCQPweb importiert. Das Korpusprogramm lässt Anfragen nach einzelnen Wortformen (TokensToken), Wortarten (POSPOS-Tag) und Grundformen von Wörtern (LemmaLemma) zu und bietet eine Reihe korpuslinguistischer Funktionalitäten an, mithilfe derer das Korpus quantitativ und qualitativ ausgewertet wird. Die inferenzstatistischen Methoden sind jedoch mit Vorsicht zu gebrauchen, da statistische Analysen nur eingeschränkt den Eigenschaften eines sprachlichen Korpus gerecht werden.
5 Inhaltlicher Vergleich
DiskurstraditionenDiskurstradition werden anhand wiederkehrender Elemente sichtbar, die sowohl auf inhaltlicher als auch auf formaler Ebene angesiedelt sein können. Die vorliegende Untersuchung konzentriert sich zunächst auf die Inhalte, bevor die sprachlichen Formen einer genaueren Untersuchung unterzogen werden. Die Inhalte eines Enzyklopädieartikels werden durch das StichwortStichwort bestimmt, das ein Konzept repräsentiert, dessen Merkmale im Artikel beschrieben werden. Einzelne Artikel sind miteinander vergleichbar, wenn ihre Stichwörter Konzepte repräsentieren, die einem gemeinsamen, übergeordneten KonzeptKonzept zugeordnet werden können. Im vorliegenden Korpus werden jeweils 30 Artikel zu den übergeordneten Konzepten „chemische Substanz“, „Land“, „Krankheit“ und „wirtschaftliches Konzept“ untersucht. Aus sechs Enzyklopädien werden pro Konzept fünf Stichwörter ausgewählt. Das Konzept „chemische Substanz“ wird durch die Stichwörter fr. acide/it. acido, fr. alcaloïde/it. alcaloidi, fr. alcool/it. alcoli, fr. carbone/it. carbonio, fr. chlore/it. cloro repräsentiert, das Konzept „Land“ durch die Stichwörter fr./it. Afghanistan, fr. Albanie/it. Albania, fr./it. Angola, fr. Arabie Saoudite/it. Arabia Saudita, fr. Argentine/it. Argentina, das Konzept „Krankheit“ durch die Stichwörter fr. allergie/it. allergia, fr. anémie/it. anemia, fr. anorexie/it. anoressia, fr. choléra/it. colera, fr./it. coma und ein Konzept aus der Wirtschaft wird anhand der Stichwörter fr. banque/it. banca, fr. bourse/it. borsa, fr. conjoncture/it. congiuntura, fr. capital/it. capitale, fr. crise/it. crisi oder zu diesen äquivalenten Einträgen untersucht. Dabei werden Unterschiede hinsichtlich der behandelten Aspekte, der SchlüsselwörterSchlüsselwort, aber auch hinsichtlich kultureller Bezüge herausgearbeitet und zu den Faktoren Fach, Medium und Kultur in Beziehung gesetzt.
5.1 Behandelte Aspekte eines Konzepts
Die behandelten Aspekte eines Konzepts erscheinen in Enzyklopädieartikeln zumeist in den Kapitelüberschriften, die auch für diese Analyse herangezogen werden. Existiert keine Überschrift, so wird der Inhalt eines Absatzes mittels Interpretation erschlossen. In einem ersten Schritt werden die vorhandenen Aspekte des jeweiligen übergeordneten Konzepts aufgelistet. In einem zweiten Schritt wird prozentual berechnet, in wie vielen aus den insgesamt 30 Artikeln der jeweilige Aspekt erwähnt wird. Ergebnis der Analyse ist eine Aussage darüber, mit welcher Häufigkeit die Aspekte thematisiert werden. Anschließend wird die Verteilung dieser Häufigkeiten im Korpus nach Medium und Sprache untersucht.
5.1.1 „Chemische Substanz“
Im gesamten Enzyklopädiekorpus können in den 30 romanischsprachigen Artikeln mit einem Stichwort zum Konzept „chemische Substanz“, die das Chemiekorpus bilden, 21 verschiedene Aspekte identifiziert werden, die mit den folgenden Frequenzen in diesem Teilkorpus zu finden sind:
Diagramm 3:
Frequenzen der behandelten Aspekte im Chemiekorpus (in Prozent der Artikel)
In etwa 50 % der Artikel werden die chemischen und physikalischen Eigenschaften der Substanzen beschrieben. In etwa 40 % der untersuchten Artikel werden die Herstellung (43,3 %) und die Verwendung (40 %) einer Substanz thematisiert. Zusätzlich werden die natürlichen Vorkommen (33,3 %), die Wirkung (30 %), die Struktur (30 %), die Verbindungen (26,7 %), die Geschichte (23,3 %) und die Klassifikation (23,3 %) einer Substanz behandelt. Seltener werden der Geschmack, Derivate, Überlegungen zum Umweltschutz oder die Erwähnung der Substanz in literarischen Werken thematisiert.
Die Verteilung der 21 identifizierten Aspekte im Gesamtkorpus lässt Unterschiede zwischen den Print- und den Wikipediakorpora, aber auch zwischen den französischen und den italienischen Korpora erkennen:
Diagramm 4:
Frequenzen der behandelten Aspekte im Chemiekorpus nach Medium und Sprache (in Prozent der Artikel)
Innerhalb des französischen Korpus lässt sich feststellen, dass in WPF insgesamt mehr Aspekte als in Print (fr) (17 zu 15) behandelt werden. In 80 % der Wikipediaartikel werden die Verwendung, Wirkung und Geschichte einer Substanz beschrieben, während im Printkorpus lediglich 30 % aller Artikel die Verwendung, 20 % die Wirkung und 10 % die Geschichte einer Substanz präsentieren. Besonders auffällig sind beispielsweise Ausführungen zur Wirkungsweise von Säuren, in denen Handlungsanweisungen für den Notfall angegeben werden:
(1) Les acides concentrés peuvent provoquer des brûlures sur la peau et les muqueuses (yeux, nez, bouche). En cas de brûlure par acide, il faut: protéger: en se protégeant (gants…), fermer le récipient et éviter que l’acide ne se répande (utilisation de papier absorbant), ouvrir les fenêtres pour éviter les dégagements de vapeurs […] (WPF 2015: s.v. acide).
Die etymologische Herleitung der Bezeichnung wird am folgenden Beispiel ersichtlich:
(2) Le nom carbone vient du latin carbo, carbōnis signifiant « charbon » (WPF 2015: s.v. carbone).
In 40 % aller untersuchten französischen Wikipediaartikel werden Klassifikationsmöglichkeiten für einzelne Substanzen der Stoffgruppe angegeben und Unterarten aufgezählt, wohingegen dies nur auf 20 % der PrintartikelPrintartikel zutrifft. Ebenso werden in 40 % der Wikipediaartikel Erscheinungsformen einer Substanz aufgelistet, während dies nur in 10 % der Printartikel der Fall ist. In 20 % der Wikipediaartikel werden die Bestandteile der Nomenklaturbezeichnung erläutert, während dies in 10 % der Printartikel geschieht. Ausschließlich in Wikipediaartikeln werden Isotope angegeben, die Bezeichnung etymologisch hergeleitet und der chemische Nachweis einer Substanz thematisiert. Ausführungen zum Geschmack einer Substanz lassen sich ebenfalls ausschließlich in Wikipediaartikeln finden:
(3) Le goût acide est reconnu grâce à des récepteurs particuliers PKD2L1, qui sont probablement sensibles à la présence des ions H+, ou à certains nucléotides cycliques. Malgré certaines études on sait à présent que sa reconnaissance est indépendante de la reconnaissance du goût salé (WPF 2015: s.v. acide).
Das französische Printkorpus zeichnet sich insbesondere durch die folgenden Aspekte aus: In mehr als der Hälfte der PrintartikelPrintartikel werden die Eigenschaften (Print: 80 %; WPF: 40 %), die natürlichen Vorkommen (Print: 60 %; WPF: 40 %), die Struktur (Print: 50 %; WPF: 20 %) und die Herstellung einer Substanz (Print: 50 %; WPF: 40 %) beschrieben, während dies nicht auf das Wikipediakorpus zutrifft. Ausschließlich in Artikeln der gedruckten Enzyklopädien werden eine zusätzliche Definition und Derivate erwähnt.
Innerhalb des italienischen Korpus werden im Wikipediakorpus mehr Aspekte behandelt als im Printkorpus (15 zu 9). In 60 % der Wikipediaartikel werden die Eigenschaften in einem eigenen Kapitel und die Verwendung einer chemischen Substanz beschrieben, während dies in nur 20 % der Artikel des Printkorpus der Fall ist. Beispielsweise wird im Artikel Alcaloidi die Verwendung der Stoffgruppe in der Krebstherapie erwähnt:
(4) È sin dagli anni ’40 che gli alcaloidi vegetali sono stati oggetto di intenso studio per trovarne un’applicazione nella terapia dei tumori (WPI 2015: s.v. alcaloidi).
In 40 % der Wikipediaartikel wird zusätzlich die Definition thematisiert, wohingegen dies nur auf 20 % der PrintartikelPrintartikel zutrifft. Außerdem werden in 40 % der Wikipediaartikel Verbindungen einer Substanz aufgelistet, was in nur 30 % der Printartikel feststellbar ist. Ausschließlich in Wikipediaartikeln finden sich Kapitel zu natürlichen Vorkommen (40 %), Wirkung (60 %), Geschichte (40 %), Erscheinungsformen (20 %), Isotopen (40 %), Umweltschutz (20 %) und literarischer Verarbeitung (20 %). Besonders auffällig sind im Wikipediakorpus Ausführungen zur Wirkung von Säuren, die in der italienischen Wikipedia jedoch nicht von Handlungsanweisungen begleitet werden:
(5) Il contatto della pelle (o di qualunque altra parte del corpo) con un acido produce generalmente un’irritazione (WPI 2015: s.v. acido).
Ebenso auffällig sind die frequenten historischen Darstellungen sowie die Rezeption einer Substanz in der Literatur:
(6) L’acido cloridrico era già conosciuto nell’800 d.C. dall’alchimista Jābir ibn Hayyān, mentre nel 1400 l’acqua regia, una mistura di acido cloridrico e acido nitrico era usata per sciogliere l’oro (WPI 2015: s.v. cloro).
(7) Al carbonio è dedicato uno dei racconti de "Il sistema periodico" di Primo Levi (WPI 2015: s.v. carbonio).
Die PrintartikelPrintartikel erläutern häufiger die Nomenklaturbezeichnung (Print: 30 %; WPI: 20 %). Ausschließlich in den PrintenzyklopädienEnzyklopädie– Print-~ erscheint ein Kapitel zu den Unterarten der betreffenden Substanz (Print: 20 %). Sprachübergreifend lässt sich feststellen, dass in prozentual mehr Wikipediaartikeln die Verwendung, Wirkung, Geschichte, Erscheinungsformen und Isotope eines Stoffs behandelt werden. Aus diesem Befund lässt sich einerseits ablesen, dass Wikipediaartikel in stärkerem Maße die anwendungsbezogenen Interessen eines Laienpublikums bedienen. Zum anderen ist die Tendenz der Auflistung von Stoffen nach verschiedenen Klassifikationskriterien festzustellen, was ein Inventar zum schnellen Nachschlagen bereitstellt.
Zudem lassen sich Unterschiede zwischen dem französischen und dem italienischen Korpus feststellen. Im französischen Korpus werden mehr Aspekte behandelt als im italienischen (19 zu 16 Aspekte), was auch mit der Tatsache zusammenhängt, dass französische Artikel zu vergleichbaren Stichwörtern häufig länger sind. In mehr französischen Artikeln werden die Eigenschaften, die Herstellung, die Verwendung, die natürlichen Vorkommen, die Wirkung, die Struktur, die Geschichte, Klassifikationsmöglichkeiten, Unterarten und Erscheinungsformen einer Substanz dargestellt. Ausschließlich in französischen Artikeln werden die Entdeckung, die Etymologie der Bezeichnung, der Geschmack, Derivate und der chemische Nachweis einer Substanz behandelt. In prozentual mehr italienischen Artikeln werden Verbindungen einer Substanz, eine Definition und die Nomenklaturbezeichnung angegeben. Ausschließlich im italienischen Korpus sind Informationen zum Umweltschutz und zur Rezeption einer Substanz in der Literatur zu finden. Es ergibt sich somit das Bild, dass die Artikel des französischen Korpus im Vergleich zu den italienischen Artikeln mehr Aspekte beschreiben, die sowohl in den Printenzyklopädien als auch in Wikipedia über die rein chemische Beschreibung eines Stoffes hinausgehen, während sich die italienischen Enzyklopädien (mit Ausnahme der Aspekte Umweltschutz und literarische Verarbeitung in WPI) in kürzeren Artikeln auf die Darstellung der chemischen Eigenschaften konzentrieren. Die Diskrepanz zwischen der thematischen Vielfalt der französischen Enzyklopädien und der Konzentration auf wenige Punkte in den italienischen Enzyklopädien wird in den beiden Wikipediaversionen etwas nivelliert (WPF: 17 Aspekte; WPI: 15 Aspekte). Aufgrund des größeren Umfangs französischer Wikipediaartikel werden die meisten Aspekte in prozentual mehr französischen als italienischen Wikipediaartikeln angesprochen. In mehr französischen Wikipediaartikeln finden sich Ausführungen zu den Aspekten Verwendung, Wirkung, Geschichte, Klassifikation und Erscheinungsformen. Ausschließlich in französischen Wikipediaartikeln werden die Aspekte Unterarten, Entdeckung, Etymologie, Geschmack und chemischer Nachweis genannt. Trotz des größeren Umfangs französischer Wikipediaartikel werden die Aspekte Eigenschaften und Verbindungen in mehr italienischen Artikeln genannt. Ausschließlich im italienischen Wikipediakorpus werden die Aspekte Definition, Umweltschutz und literarische Verarbeitung genannt.