Kitabı oku: «Deskriptive Statistik verstehen», sayfa 3
2 Ein Heimspiel: Grundlagen der deskriptiven Statistik
„Fußball ist einfach, deshalb ist es ja so kompliziert.“
Berti Vogts
„Der Fußball ist einer der am weitesten verbreiteten religiösen Aberglauben unserer Zeit. Er ist heute das wirkliche Opium des Volkes.“
Umberto Eco
„The best thing about being a statistician is that you get to play in everyone else’s backyard.“
John Tukey, Bell Labs, Princeton University
Mit einem Heimspiel ist gemeint: Man spielt mit dem eigenen Team im eigenen Stadion vor eigenem Publikum. Man kennt sich bestens aus. Die Grundlagen der deskriptiven Statistik sind bekannt, man ist bestens vorbereitet. Heimspiel bedeutet also auch: Durch eine gute Vorbereitung hat man es selbst in der Hand, auch ein anspruchsvolles Auswärtsspiel in die Kontrollierbarkeit und Niveau eines Heimspiels zu wandeln.
Der Fokus von Kapitel 2 beschränkt sich daher auf Informationen in einer Datentabelle. Informationen, die man nicht notwendigerweise durch das Analysieren einer Datentabelle erfährt, also den Kontext von Daten, beschreibt dagegen Kapitel 3. Abschnitt 2.1 beginnt daher mit einer der an Wochenenden wohl am häufigsten gesehenen Tabellen im deutschen Fernsehen, nämlich einer Bundesligatabelle. Das Ziel ist, anhand dieser Tabelle die wichtigsten Grundbegriffe der deskriptiven Statistik zu erläutern. Fußball erklärt also die deskriptive Statistik. Abschnitt 2.2 beginnt mit dem Erläutern des Inhalts von Datentabellen und erläutert Begriffe wie z.B. Zahlen, Ziffern und Werte an Beispielen aus dem Fußball. Anschließend geht Abschnitt 2.3 mit der Frage: „Was hat Messen mit meinen Daten zu tun?“ auf das sog. Messniveau einer Variablen ein. Anhand der Bundesligatabelle werden Messniveaus und ihre grundlegende Bedeutung für jede (nicht nur deskriptive) Statistik erläutert. Abschnitt 2.4 hebt die Konsequenzen des Messniveaus für die praktische Arbeit mit Daten hervor. Begriffe wie z.B. Genauigkeit, Reliabilität und Validität sowie Objektivität werden z.B. mittels Torjägern veranschaulicht.
2.1 Fußball erklärt die deskriptive Statistik. Oder umgekehrt …?
„Fussball ist ding, dang, dong. Es gibt nicht nur ding.“
Giovanni Trappatoni
Man darf wahrscheinlich mit einiger Berechtigung annehmen, dass Fußball, zumindest jedes Wochenende, deutlich beliebter als Mathematik und Statistik sein könnte. Was liegt da näher, als die Faszination am Fußball auch ein wenig auf die deskriptive Statistik scheinen zu lassen? Im Folgenden wird die Abschlusstabelle der Bundesligasaison 2011/2012 wiedergegeben. Die Tabelle enthält die Spalten „Platz“, „Verein“, „Spiele“, „S“, „U“, und „N“ (jeweils für Sieg, Unentschieden oder Niederlage), „Tore“ sowie „Diff“ und „Pkt“.
Abb. 2: Abschlusstabelle der Bundesligasaison 2011/2012
Das Ziel ist, anhand dieser Tabelle die wichtigsten Grundbegriffe der deskriptiven Statistik zu erläutern. Mit bestimmten Rängen gehen besondere Regelungen für sportliche Erfolge bzw. Misserfolge ein: Die ersten drei Mannschaften qualifizieren sich direkt für die Champions League. Die Mannschaft auf Platz 4 nimmt an der Champions-League-Qualifikation teil. Die Mannschaften auf Platz 5 bis 7 qualifizieren sich für die Europa League. Die Mannschaft auf Platz 16 kommt in die Relegation zur 2. Liga. Die beiden letzten Mannschaften steigen in die 2. Liga ab.
2.2 Zahlen, Ziffern und Werte: Grundbegriffe
„Ich bin jetzt seit 34 Jahren Trainer, da habe ich gelernt, dass zwei und zwei niemals vier ist.“
Leon Beenhakker
Der Inhalt von Datentabellen besteht überwiegend aus Zahlen, Ziffern und Werten.
Zahlen
Die Menge der Zahlen wird, vereinfacht ausgedrückt, in Ganzzahlen und Bruchzahlen unterteilt. Ganz- und Bruchzahlen können jeweils als Quotienten Q = p / q (wobei p und q Ganzzahlen, und q ≠ 0) ausgedrückt werden. Der Unterschied zwischen Ganzzahlen und Bruchzahlen wird i. Allg. anhand zweier Aspekte beschreiben:
■ Der Quotient Q von Ganzzahlen besitzt keinen Rest, hat also keine Nachkommastellen. Der Quotient Q von Bruchzahlen hat dagegen einen Rest.
■ Von Bruchzahlen wird gesagt, dass sie nicht in der Natur vorkommen. Ganzzahlen werden daher auch als „natürliche“ Zahlen bezeichnet.
Ganzzahl
Die ganzen Zahlen (Quotienten ohne Nachkommastellen) umfassen alle Zahlen: …, -3, -2, -1, 0, 1, 2, 3, … Alternative Bezeichnungen für Ganzzahl sind „Natürliche Zahl“, „Zählzahl“ oder „Integer“.
Menge | Bezeichnung |
…, -3, -2, -1, 0, 1, 2, 3, … | Ganzzahlen |
1, 2, 3, … | Positive Ganzzahlen |
…, -3, -2, -1 | Negative Ganzzahlen |
0, 1, 2, 3, … | Nonnegative Ganzzahlen |
…, -3, -2, -1, 0 | Nonpositive Ganzzahlen |
Ganze Zahlen sind eindeutig geordnet. Ganze Zahlen können dadurch eindeutig untereinander verglichen werden. Der Wert 0 weist dabei mehrere Besonderheiten auf. 0 ist die einzige Ganzzahl, die weder positiv noch negativ ist. Gemäß dieser Auffassung ist 0 ein Element der Ganzzahlen; Einigkeit besteht in diesem Punkt in der Mathematik jedoch nicht. Als Zählwert bedeutet 0, dass keine Elemente (z.B. innerhalb einer Menge) vorhanden sind. Eine Zahl, die daher ungleich 0 ist, wird daher auch als non-null bezeichnet. Ein 0 kann zugleich nonpositiv wie auch nonnegativ sein (s.u.).
Die oben wiedergegebene Abschlusstabelle der Bundesligasaison 2011/2012 enthält ausschließlich Ganzzahlen als Daten. Die obigen Ausführungen sollten ausreichen, den Typ der dargestellten Ganzzahlen interpretieren zu können. Die Spalte „Platz“ ist z.B. eine positive Ganzzahl; es gibt theoretisch keinen Platz 0 (einen negativen Wert gibt es in dieser Spalte ebenfalls nicht). Vergleichbar sieht es bei der Spalte „Spiele“ aus; am letzten Spieltag scheint „Spiele“ eine positive Ganzzahl zu sein. Betrachtet man jedoch den ersten Spieltag, ändert sich die Sichtweise: Werden Spiele, wie in der Bundesliga meist üblich, auf Freitag, Samstag und Sonntag verteilt, so steht bei manchen Mannschaften bis zum letzten Spiel unter „Spiele“ der Wert 0. Die Spalte „Spiele“ ist z.B. eine nonnegative Ganzzahl; es gibt theoretisch einen Platz 0 (einen negativen Wert gibt es in dieser Spalte nicht). Dasselbe gilt für die Spalten „S“, „U“, und „N“ (jeweils für Sieg, Unentschieden oder Niederlage): Mannschaften können (zumindest für eine Weile) keine Siege, Unentschieden oder auch Niederlagen erleben. Die Spalte „Tore“ enthält, von einem Doppelpunkt getrennt, die Anzahl der geschossenen bzw. kassierten Tore. Wir überspringen der Einfachheit halber diese Spalte und schauen uns die abgeleitete Spalte „Diff“ an, die Differenz aus den geschossenen bzw. kassierten Toren. Die Abschlusstabelle der Bundesligasaison 2011/2012 zeigt in der Spalte „Diff“ positive wie auch negative Werte. Theoretisch ist damit auch eine Differenz von 0 möglich; „Diff“ enthält daher Daten vom Typ Ganzzahlen. Die verbleibende Spalte „Pkt“ ist vom Typ her eine nonnegative Ganzzahl; es kann theoretisch Mannschaften geben, die eine Zeitlang nur verlieren und keine Punkte mitnehmen. An dieser Stelle klammern wir der Einfachheit halber Spezialregelungen aus, wie z.B. Punktabzüge. Unser Ziel ist das Erklären der Grundlagen der deskriptiven Statistik (und weniger des professionellen Fußballs als Wissenschaft, vgl. z.B. Jütting, 2004). Je nach Umständen können Punktabzüge als drastische Sanktionsmaßnahme durchaus zu negativen Punkteständen führen.
Bruchzahl
Eine Bruchzahl ist eine Zahl, deren Quotient Q = p / q einen Rest ungleich 0 aufweist. Ein Bruch ist genau dann gleich Null, wenn p = 0 und q ≠ 0. Solange die Länge der Nachkommastellen nicht unendlich oder nichtperiodisch ist, werden diese Bruchzahlen zu den rationalen Zahlen gezählt. Besitzt der Quotient Q = p / q einen Rest mit unendlichen (z.B. bei der Eulerschen Zahl, e oder Pi, µ) oder periodischen (z.B. 2/3 = 0,67) Nachkommastellen, so wird diese Bruchzahl zu den sog. irrationalen Zahlen gezählt. Ein Bruch wird in der sog. Inline-Schreibweise z.B. als Q = p / q, klassisch dagegen als
geschrieben. p ist dabei der Zähler, q der Nenner.
Die Tabelle zur Bundesligasaison 2011/2012 enthält ausschließlich Ganzzahlen. Bruchzahlen im Zusammenhang mit Bundesligaspielen findet man häufig im Zusammenhang mit Performanzstatistiken, z.B. zur Torgefährlichkeit, Passgenauigkeit, Zweikampfstärke usw. Aus der Bundesligatabelle lassen sich allerdings unkompliziert beispielhafte Bruchzahlen herleiten. Werden z.B. für Borussia Dortmund die durchschnittliche Anzahl der geschossenen Tore pro Spiel ermittelt, so ergibt sich über
■ Q = 80 / 34 als Bruchzahl
■ der Wert 2,353 (gekürzt),
■ 2,35294117647059 (weniger gekürzt) bzw.
■ 2,352941176470588235294117647059 (noch weniger gekürzt).
Solche scheinbaren „Präzisions exzesse“ können im Analysealltag durchaus ein Thema sein. Daher gleich ein paar Hinweise dazu:
Bei Brüchen werden die Konzepte von Genauigkeit und Präzision relevant. Die Genauigkeit (accuracy) einer Zahl ist durch die Anzahl von signifikanten Ziffern rechts von der Dezimalinterpunktion definiert. Die Präzision (precision) einer Zahl ist durch die Anzahl von signifikanten Ziffern insgesamt definiert. Bei der Addition bzw. Subtraktion wird die Anzahl der signifikanten Ziffern im Ergebnis durch den Wert mit der kleinsten Anzahl an signifikanten Ziffern bestimmt.
Beispiele
Die Summe aus 1,2 + 1,24 + 1,248 ergibt theoretisch im Ergebnis den Wert 3,688. Dieser Wert ist jedoch scheinbar auf vier Stellen genau. Aufgrund der kleinsten Anzahl an signifikanten Ziffern beschränkt der Wert 1,2 die Anzahl von signifikanten Ziffern im Ergebnis auf eine Stelle nach dem Komma. Die Summe 1,2 + 1,24 + 1,248 sollte daher nur auf eine Stelle nach dem Komma gerundet als 3,7 ausgedrückt werden. Bei der Multiplikation und Division gilt Ähnliches. Die Genauigkeit des Produkts aus zwei oder mehr Zahlen hängt von der Anzahl signifikanter Ziffern rechts von der Dezimalinterpunktion im kleinsten Wert ab. Das Produkt aus 1,2 x 1,24 sollte daher auf eine Stelle nach dem Komma gerundet als 1,5 und nicht als 1, 488 angegeben werden.
Zu den Ziffern nach dem Interpunktionszeichen bei numerischen Werten sollte vielleicht noch ergänzend gesagt werden, dass mittels sog. Formate eingestellt werden kann, mit wie vielen Nachkommastellen die Zahlen angezeigt werden sollen. Standardmäßig werden Zahlen von -9999,99 bis 99999,99 dargestellt. Die Einstellung der Anzahl von Dezimalzellen bezieht sich dabei nur auf die Anzeige. Numerische Werte werden von der Software so präzise wie möglich, mit derzeit bis zu 32 Nachkommastellen, gespeichert.
Ziffern
Im letzten Abschnitt zu Bruchzahlen war von Ziffern die Rede. Was sind Ziffern? Ziffern stellen Zahlen dar. Die Dezimalziffern 1, 4 und 8 stellen z.B. zusammen die Zahl 1,488 aus dem vorangehenden Abschnitt dar. Die Ziffern 1, 4 und 8 wurden deshalb präzisierend als Dezimalziffern bezeichnet, weil sie und die im Beispiel beschriebene Zahl aus dem Dezimalsystem (Zehnersystem) stammen. Dieses Zahlensystem heißt Dezimalsystem, weil es zehn Ziffern (0 bis 9) umfasst bzw. die Zahl 10 zur Basis hat. Dieselbe Zahl kann, weil es neben dem Dezimalsystem weitere Zahlensysteme gibt, durchaus durch verschiedene Ziffern dargestellt werden. Die Bundesligatabelle ist, mit Ausnahme des Alphabets (für die Vereinsnamen), ausschließlich im Dezimalsystem. Wir werden daher auf andere Beispiele ausweichen müssen. Die folgende Tabelle stellt bspw. die Ziffernfolgen „1000“ und „10“ in ausgewählten Zahlensystemen dar (Dezimal, Hexadezimal, Dual-Binär, Wissenschaftliche Notation, Römisch). Darüber hinaus gibt es diverse weitere Zahlensysteme, z.B. Oktal.
Beispiel
Darstellung der Ziffernfolge „1000“ und „10“ in verschiedenen Zahlensystemen:
Zahlensystem | „1000“ | „10“ |
Dezimal | 1000 | 10 |
Hexadezimal (ASCII) | 3E8 | A |
Dual-Binär | 1111101000 | 1010 |
Wissenschaftliche Notation | 1,00E+03 | 1,00E+01 |
Römisch | M | X |
Umgekehrt stellen dieselben Ziffernfolgen in verschiedenen Zahlensystemen meist verschiedene Zahlen dar. „1000“ im dual-binären System bedeutet z.B. 8 im Dezimalsystem. Im Zweifel lohnt es sich nachzufragen, in welchem Zahlensystem die Daten abgelegt sind. Dass Daten ausschließlich im Dezimalsystem abgelegt sind, ist nicht selbstverständlich, z.B. in der Informatik. (Lateinische) Buchstaben können demnach durchaus auch für Zahlen im Dezimalsystem stehen.
Was sind nun Buchstaben? Mehrere Buchstaben (oder auch nur einer) stellen Texte (allgemeiner: Zeichen, Codes) dar, um Bedeutungen bzw. Information zu vermitteln. Die Gesamtheit aller Buchstaben bildet wiederum ein Alphabet einer Sprache; eine Menge an Buchstaben bildet (in zunehmender Länge geordnet) Zeichen, Zeichenketten oder auch Texte. Mehrere Zeichen können Zeichenketten bilden, mehrere Zeichenketten wiederum Texte. Der Einfachheit halber wird in diesem Buch der Begriff „String“ für einzelne oder mehrere Zeichen, also für Zeichen oder Zeichenketten verwendet. Wie an den Zeichen im Hexadezimalsystem zu erkennen, können Strings ausschließlich aus Buchstaben bestehen, z.B. der Code „A“ für 10 oder auch aus Buchstaben mit Ziffern gemischten Zeichenfolgen bestehen, z.B. „3E8“ für 1000. Strings können i. Allg. annähernd beliebige Zeichen (einschließlich Zahlen) enthalten. Groß- und Kleinbuchstaben („X“ vs. „x“) werden dabei als verschiedene Buchstaben interpretiert, was bei bestimmten Operationen, z.B. dem Sortieren, dazu führen kann, dass Groß- und Kleinbuchstaben unterschiedlich verarbeitet werden. Beim Sortieren können (z.B. je nach Sortierschlüssel) kleingeschriebene Strings (z.B. „string“) je nach Software vor oder auch hinter großgeschriebene Strings (z.B. „STRING“) sortiert werden. Strings werden je nach Software als eigener Datentyp interpretiert und auch als alphanumerisch, „Character“ oder „Text“ bezeichnet.
Werte
Werte unterscheiden sich von Zahlen dadurch, dass bei ihnen ein Referenzsystem hinzukommt, in anderen Worten: ein Messvorgang und eine Maßeinheit. Zahlen können für sich alleine stehen, z.B. bei rein mathematischen Operationen. Bei reinen Additionen, wie z.B. 1 + 1 = 2, kann ohne Weiteres auf eine Maßeinheit verzichtet werden. Werte sind dagegen das Ergebnis einer in Zahlen („quantitativ“) gemessenen bzw. zugeschriebenen Eigenschaft einer definierten Entität. Nicht Zahlen, sondern erst Werte erlauben Zustände, Unterschiede oder auch Veränderungen innerhalb eines Referenzsystems zu beschreiben. Erst die Beziehung Referenzsystem-Messung-Messwert ermöglicht es, Zahlen nicht nur auszuwerten, sondern als (Mess-)Werte auch zu verstehen. Eine der ersten Fragen, die sich ein Data Analyst bei der Beschreibung von Daten stellen sollte, ist: In welcher Einheit sind diese Zahlen und wie sind sie zu interpretieren? Die Einheiten und Hinweise zur korrekten Interpretation sollten in Metadaten, Projektdokumentation oder zumindest in Spaltenüberschriften von Datentabellen hinterlegt sein. Man stelle sich z.B. die Bundesligatabelle ohne Überschriften vor. Data Analysten, die keine Erfahrung mit Fußballkenn werten haben, werden vermutlich erst einmal fluchen: Sie verlieren Zeit, da sie sich auf die Suche nach einer Dokumentation, anstelle der eigentliche Analyse der Daten machen müssen. Etwas extremer wäre es übrigens bei Tabellen der englischen Premier League, hier sind diese Daten (z.B. Tore, Punkte usw.) zusätzlich nach Heim- und Auswärtsspiel unterteilt. Eine Tabelle sollte eigentlich selbsterklärend sein, ist es aber leider nicht immer.
Beispiele, bei denen eine deskriptive Statistik von Daten ohne Einheiten (also reine Zahlen) geradezu hochgradig riskant sein kann, sind z.B. Währungen, KPIs, medizinische Dosierungen, oder auch psychometrische Skalenwerte (z.B. IQ). Bei dosiskritischen Medikamenten ist z.B. die genaue Einheit einer Zahl unbedingt zu beachten. Dieselbe Zahl kann bei unterschiedlichen Einheiten völlig verschiedene Dosen bedeuten, z.B. 15 mg (=1,5ml) im Vergleich zu 15 ml (150 mg) (vgl. Schendera, 2007, 212). Erst wenn Maßeinheit, Messvorgang und Referenzsystem geklärt sind, können Werte beschrieben und interpretiert werden.
Beispiel
Werte in verschiedenen Referenzsystemen:
Beispiel | Referenzsystem | Maßeinheit und Beispiele für Werte |
Physik | Gewicht | kg, gr |
Länge | km, m, mm | |
Zeit | yyyy, mm, dd; h, m, s; Kalendertage. | |
Finance | Währungen:Euro, Dollar | €, $ |
Ratings: | ||
Moody’s, Fitch, S&P | Caa1, CCC+, CCC (long-term, „substantial risks“). | |
Psychometrie | Stanford-Binet: IQ Intelligenz-Struktur-Test: für 15–60-Jährige: I-S-T 2000R, für 15–25-Jährige: I-S-T 2000 Schweizer Version: IST 2000R CH | Testwerte pro Modul bzw. Skala. Beispiel: 60 ist das Maximum der Skala „Numerische Intelligenz“. |
Medizin | Body-Mass-Index | BMI |
Blutdruck (systolisch, diastolisch) | mm Hg | |
Dosierungen, z.B. Insulin | IE bzw. i.e. (Internationale Einheit). |
Anders ausgedrückt: Erst wenn Maßeinheit, Messvorgang und Referenzsystem geklärt sind, können Zahlen anhand von Ziffern beschrieben und als Werte interpretiert werden. Was als selbstverständlich erscheint, ist es nicht: Die NASA verlor z.B. sogar einen Satelliten, weil die einen Ingenieure mit metrischen Einheiten arbeitete, die anderen jedoch mit englischen Einheiten. Dazu später mehr.
Gerade bei der Analyse von Daten internationaler Unternehmen ist auch auf das korrekte Format von Kalenderdaten zu achten. Es gibt derzeit mindestens drei, die europäische (TT.MM.JJJJ), die internationale (JJJJ.MM.TT) und die amerikanische Datumskonvention (MM.TT.JJJJ). Berechnungen (z.B. Differenzen) auf der Basis nicht korrekt interpretierter Kalenderdaten führen zwangsläufig zu fehlerhaften Ergebnissen. Diese Konvention ist dabei nicht der einzige Fallstrick; dazu kommen die Stellen der Jahresangabe, der Interpunktion, eine uneinheitliche zeitliche Granularität und natürlich auch allgemeine Datenfehler (z.B. Schendera, 2007, 62–66).
2.3 Messniveau einer Variablen: oder: Was hat Messen mit meinen Daten zu tun?
„Wir müssen jetzt mit dem Boden auf den Füßen bleiben.“
Jürgen Röber
Der Inhalt von Datentabellen besteht nicht nur aus Zahlen, Ziffern und Werten, die Daten besitzen auch ein Messniveau. Was bedeutet das für mich? Daten sind immer das Resultat von Messungen. Messungen können auf unterschiedlichen Niveaus vorgenommen werden. Das Messniveau ist wichtig. Das Messniveau sagt mir,
■ wie viel und welche Information (z.B. anhand welcher Maße) ich aus den Daten herausholen kann,
■ welche Aussagen ich mittels der deskriptiven Statistik treffen kann (und welche nicht),
■ welche Grafiken und Tabellen zur Visualisierung infrage kommen (und welche weniger geeignet sind) und zu guter Letzt,
■ welches inferenzstatistische Verfahren für meine gewählte Hypothese zulässig ist.
Nochmals: Das Messniveau ist wichtig! Wozu?
Kenne ich das Messniveau der auszuwertenden Daten, weiß ich, mit welchen passenden Maßen und Verfahren ich sie auswerten kann. Kenne ich das zugrunde liegende Messniveau der Maße und Verfahren, weiß ich, welche Daten ich damit auswerten kann. Die Kenntnis des Messniveaus ist wichtig für die Passung zwischen Daten und Maß bzw. Verfahren.
Für eine souveräne deskriptive Statistik schadet es also ganz und gar nicht, wenn das Messniveau der Daten selbst und die Grundlagen des Messens (zumindest in Grundzügen) bekannt sind. Was nun „Messen“ ist, versucht die Messtheorie als eine Art „Brücke“ zwischen der „wirklichen“ Welt und der Welt der „Zahlen“ zu definieren.
■ Messen ist demnach das Zuweisen von Zahlen zu Gegenständen, die eine bestimmte, empirisch beobachtbare Eigenschaft aufweisen. Eine gemessene Temperatur erhält z.B. eine bestimmte Gradzahl, eine bestimmte Laufstrecke erhält eine bestimmte Längenzahl.
■ Jedem Element aus dem empirischen Relativ wird dabei genau ein Element aus der Menge aller Zahlen (numerisches Relativ) zugeordnet. Die Laufstrecke A bekommt nur die Zahl A zugewiesen, aber nicht B oder C.
■ Zahlen (im sog. numerischen Relativ) müssen dabei dieselben Eigenschaften ausdrücken wie die beobachtbaren Gegenstände (im sog. empirischen Relativ). Wenn also die Laufstrecke A kleiner als Laufstrecke B ist, dann hat auch die zugewiesene Zahl für A kleiner als die für B zu sein.
Das Ziel ist, dass ein numerisches Relativ ein empirisches Relativ strukturgetreu abbildet. Sobald ein empirisches System auf ein numerisches System in der Weise eindeutig abgebildet wird, dass die empirischen Relationen innerhalb des empirischen Systems in den numerischen Relationen des numerischen Systems erhalten bleiben, liegt eine sog. Skala vor. Messen ist also die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-)Objekts und die regelgeleitete Zuordnung von Zahlen zu Messobjekten. Liegt eine Skala vor, kann sie verschiedenen Messniveaus (Skalentypen) zugeordnet werden. Ein Messniveau kann anhand von Metadaten, Projektdokumentation oder, falls nicht vorhanden, anhand messtheoretischer Grundlagen mittels eines gesunden Menschenverstands in Erfahrung gebracht werden. Die Kenntnis der Skaleneigenschaften ist entscheidend. Jedes Skalenniveau macht erst bestimmte Maßzahlen, Grafiken oder auch statistische Verfahren sinnvoll. Auch Maße und Verfahren der deskriptiven Statistik setzen jeweils ein bestimmtes Messniveau voraus.
Abb. 3: Eine Systematisierung von Skalen- bzw. Messniveaus
In der Abbildung steigt das Skalenniveau von links („nominal“) nach rechts („verhältnis“) an. „verhältnis“ ist darin das höchste Skalenniveau, „nominal“ das niedrigste Skalenniveau. Jedes höhere Skalenniveau enthält auch die Merkmale der jeweils niedrigeren Niveaus. Je höher also das Skalenniveau, umso mehr Information bzw. komplexere Aussagen lassen sich mit einem geeigneten Maß bzw. Verfahren (z.B. der deskriptiven Statistik) „herausholen“. Welche, werden die Abschnitte 2.3.1 bis 2.3.6 erläutern.
Risiken: Informationsverlust, Unsinn und Klassierungen
Bei der Passung der Skalenniveaus der Daten und der Maße bzw. Verfahren sind u.a. drei Risiken zu vermeiden: der Informationsverlust, der errechnete Unfug und versteckte Klassierungen.
■ Informationsverlust: Für „niedrige“ Skalen konzipierte Maße (z.B. Modus) oder Verfahren (z.B. Häufigkeitsanalyse) können zwar auch auf höher skalierte Daten (z.B. Intervallniveau) angewendet werden, eben weil diese auch die Eigenschaften der niedrigeren Variablenniveaus (z.B. Nominalniveau) mit enthalten. Man muss sich aber klar sein, dass dies mit einem Informationsverlust verbunden ist: Der Informationsverlust besteht darin, dass „niedrigere“ Maße oder Verfahren außer Häufigkeit und Modus keine Aussagen über (je nachdem) größer / kleiner, Differenzen oder auch Verhältnisse erlauben, obwohl dies mit den vorliegenden Daten (z.B. auf Intervallniveau) möglich wäre, jedenfalls mit Maßen und Verfahren ab dem Intervallniveau.
■ „Errechneter Unfug“: Umgekehrt darf ich z.B. aus Daten auf Nominalniveau keinen Mittelwert bilden, weil dazu u.a. mindestens das Intervallniveau erforderlich ist. Abschnitt 2.3.1 wird anhand von Rückennummern veranschaulichen, warum das Berechnen eines Mittelwerts aus Trikotnummern zwar mathematisch möglich, aber konzeptionell sinnfrei ist.
■ Gemeinerweise können ausgerechnet in Intervalldaten klassierte Extremwerte enthalten sein, z.B. anstelle der Werte 95, 96, 97 und 98 einfach die Information „>94“. Hier sollten die Aufmerksamkeitsglocken Alarm schlagen: Diese Kategorisierung hebt die Gleichheit der Abstände auf; es handelt sich also nicht mehr um ein Intervall-, sondern um ein Ordinalniveau. Ist dieser Hinweis sogar noch als Text hinterlegt, handelt es sich womöglich sogar nur noch um ein Nominalniveau.
Liegt also eine Skala vor, kann sie verschiedenen Niveaus (Skalentypen) zugeordnet werden. Das Bestimmen des Typs einer Skala, und die Zuordnung der Art und Menge der zulässigen Transformationen wird als „Eindeutigkeitsproblem“ bezeichnet. Als die am wenigsten eindeutige Skala gilt die Nominalskala (nur die eindeutige Zuordnung von Zahlen bzw. Namen zu Entitäten ist zulässig). Weitere Skalen sind die Ordinalskala (zstzl. größer-kleiner-Relation), Intervallskala (zstzl. Äquidistanz der Ränge) und die Verhältnisskala (zstzl. mit Nullpunkt).
Es gibt prinzipiell unendlich viele zulässige Transformationen und daher Möglichkeiten, weitere Skalenniveaus zu definieren. Je spezieller die zulässigen Transformationen sind, desto kleiner ist die Klasse gleichwertiger Skalen und desto größer ist die Eindeutigkeit einer Skala. Man sollte das Skalenniveau der vorliegenden Daten rechtzeitig vor einer deskriptiven Statistik abklären. In dieser Einführung werden einzelne grundlegende Konzepte (z.B. Messung und Skalierung, vgl. z.B. Nachtigall & Wirtz, 2008; Velleman & Wilkinson, 1993; Gigerenzer, 1981; Orth, 1974) nur gestreift, daraus soll jedoch keinesfalls nicht der Schluss abgeleitet werden, dass diese weniger relevant seien.
2.3.1 Nominalskala
Die Nominalskala gilt als die am wenigsten eindeutige Skala. Ihr Vorteil ist jedoch: Alle Daten besitzen auf jeden Fall das Nominalniveau, seien sie auch vom Format String/Text, Datum/Uhrzeit, oder auch beliebige Zahlen.
■ Definition: Messungen auf einer Nominalskala liegen dann vor, wenn die Ausprägungen von Merkmalen (1) gleichwertig, (2) Unterschiede oder Gemeinsamkeiten in den Ausprägungen der Merkmale feststellbar sind und wenn sich diese Ausprägungen zugleich (3) nicht in eine natürliche Rangfolge bringen lassen. Ein Merkmal kann anhand des Urteils „gleich“ oder „ungleich“ diskreten, exklusiv-disjunkten Ausprägungen (syn.: Klassen, Kategorien) zugeteilt werden. Ein Wert kann in eine und nur in eine Kategorie fallen.
■ Mögliche Aussagen: Gleichheit / Verschiedenheit: Zwei (oder mehr) einzelne (oder auch Gruppen von) Merkmalsträger(n) haben entweder das gleiche oder ein verschiedenes Merkmal.
■ Beispiele: Merkmal: Fußballverein, Werte: BVB, FCB, HSV, S04, usw.; Merkmal: Rückennummer im Fußball, Werte: 1, 7, 13 usw.; Merkmal: Trikotfarbe, Werte: Schwarzrot, schwarzgelb, blauweiß usw.
■ Transformation: eindeutige 1:1-Zuordnung („eineindeutig“), Umbenennung
■ Mögliche Maße: Modus: Der Modus (Lagemaß) gibt die Häufigkeiten in der jew. Klasse, und auch ihre Lage an. Bei vielen gleich oder ähnlich besetzten Klassen ist der Modus oft wenig hilfreich. Mengen, Anzahl, Häufigkeiten, Prozente (absolut, relativ). Für Nominaldaten gibt es kein Streumaß.
■ Zulässige Rechenoperation: Zählung (N/n, h/H, f/F; Anzahl, Häufigkeit (absolut/relativ) bzw. Prozentanteile.
Welche Spalten aus der Bundesligatabelle enthalten Daten auf Nominalniveau? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind (sich aber nicht in eine Rangreihe bringen lassen). Einfach ist dies bei der Spalte „Verein“. Die Spalte „Verein“ besitzt das Nominalniveau. Es ist die Aussage möglich: Alle 16 Vereine haben unterschiedliche Namen. Wie sieht es mit der Spalte „Platz“ aus? Hier lässt sich die Aussage treffen: Alle 16 Vereine befinden sich auf unterschiedlichen Plätzen. Die Spalte „Platz“ besitzt (mindestens!) das Nominalniveau (dass Daten das Nominalniveau besitzen, schließt nicht aus, dass sie noch andere Skalenniveaus vorweisen können). Die Spalte „Spiele“ ist ebenfalls auf dem Nominalniveau (mindestens!); es ist die Aussage möglich: Alle 16 Vereine besitzen dieselbe Anzahl an Spielen. Die Spalte „Tore“ ist ebenfalls auf dem Nominalniveau, weil sie die Aussage erlaubt, die Torverhältnisse aller 16 Vereine sind verschieden. Wie steht es z.B. mit den Spalten „S“, „U“, und „N“? Jede der drei Spalten lässt die Aussage zu, dass die sechzehn Vereine teils dieselbe, teils eine unterschiedliche Anzahl an Siegen, Unentschieden oder Niederlagen aufweisen. Die Spalten „S“, „U“ und „N“ sind jeweils (mindestens!) auf dem Nominalniveau. Um es kurz zu machen: Jede Datenspalte besitzt auf jeden Fall das Nominalniveau. Spannend wird es an der Stelle: Welches andere Messniveau besitzt eine Datenspalte noch?
► Exkurs Mathematik mit Rückennummern: Sinn und Unsinn
Bei nominalskalierten Daten werden für die Kategorien eines Merkmals oft Namen, Abkürzungen oder Zahlen vergeben. Ein oben genanntes Beispiel war z.B. das der Fußballvereine. Fußballvereine können z.B. ganz ausgeschrieben angegeben werden, z.B. als „Hamburger SV“, als „HSV“ (Textkode) oder auch als Zahlenkode, z.B. 12 (hier willkürlich gewählt). Ein analoges Beispiel wären die üblicherweise maximal zweistelligen Rückennummern von u.a. auch Fußballspielern. Die Rückennummern sind auf den Trikots angebracht, damit sie von Schiedsrichtern, Zuschauern und Spielern besser auseinandergehalten werden können.
Früher war eine Rückennummer an eine bestimmte Position in der Mannschaft gebunden. Ein klassisches Beispiel ist der Torhüter, der typischerweise die Nummer 1 trägt. Gegenwärtig ist eine Rückennummer frei wählbar, sofern sie nicht bereits vergeben oder aus anderen Gründen nicht vergeben werden kann. Beim 1. FC Köln wird z.B. Lukas Podolskis Rückennummer 10 nicht mehr vergeben (es sei denn, er kehrt eines Tages zurück); bei Arsenal trägt Podolski derzeit die Nummer 9. Der BVB vergibt derzeit nicht die Rückennummer 17, die BVB-Legende Leonardo Dedé getragen hatte. Bei Hannover 96 wird die 1 zum Gedenken an Robert Enke nicht mehr vergeben. Bei vielen Clubs, z.B. dem 1. FC Kaiserslautern, ist das Trikot mit der Rückennummer 12 für die Fans des Vereins reserviert. Die einmal gewählte Nummer ist immer dem gleichen Spieler zugeordnet, solange er im Verein spielt. Spieler, die in einen anderen Verein wechseln, erhalten dort eher selten dieselbe, sondern i. Allg. eher eine andere Rückennummer. Kommen sie jedoch in ihren Verein zurück, erhalten sie oft wieder die gleiche Nummer wie vor ihrem Weggang. Ein aktuelles Beispiel ist Claudio Pizarro vom FC Bayern, der nach seiner Rückkehr von Werder Bremen wieder die Nummer 14 wie vor seinem Wechsel nach Bremen trägt.
Rückennummern von außergewöhnlichen Spielern werden z.T. gesperrt und nicht mehr vergeben. Der argentinische Verband stellte z.B. bei der FIFA erfolgreich den Antrag, die Nummer 10 zur Erinnerung an ihren Star Diego Maradona nicht mehr vergeben zu dürfen.