Kitabı oku: «Deskriptive Statistik verstehen», sayfa 4

Yazı tipi:

Rückennummern sind typische Nominaldaten: Verschiedene Nummern bedeuten verschiedene Spieler. Damit Spieler auseinandergehalten werden können, werden in einer Mannschaft weder zweimal dieselben Rückennummern vergeben, noch darf ein Spieler mit mehreren Rückennummern auflaufen. Die Rückennummern bei Bayern München in der Saison 2011/2012 waren z.B. folgendermaßen vergeben.

Tabelle: Rückennummern beim Bayern München

Tor: 1 Manuel Neuer, 22 Tom Starke, 24 Maximilian Riedmüller, 32 Lukas Raeder

Abwehr: 4 Dante, 5 Daniel van Buyten, 13 Rafinha, 17 Jérôme Boateng, 21 Philipp Lahm, 26 Diego Contento, 28 Holger Badstuber.

Mittelfeld: 7 Franck Ribéry, 8 Javier Martinez, 10 Arjen Robben, 11 Xherdan Shaqiri, 23 Mitchell Weiser, 27 David Alaba, 30 Luiz Gustavo, 31 Bastian Schweinsteiger, 36 Emre Can, 39 Toni Kroos, 44 Anatoli Timoschtschuk

Angriff: 9 Mario Mandzukic, 14 Claudio Pizarro, 20 Patrick Weihrauch, 25 Thomas Müller, 33 Mario Gomez

Keine Rückennummer ist zweimal vergeben und kein Spieler besitzt mehrere Rückennummern. Nominalskalierte Daten werden auch als qualitative Daten bezeichnet, weil sich die Werte nur in einer Qualität (z.B. „rot“) unterscheiden können. Keine Ausprägung nominal gestufter Daten kann als größer, höher oder kleiner als eine andere bezeichnet werden. Nominale Kodes, wie z.B. Rückennummern, drücken damit nur den Unterschied in einer Qualität (dem Spielernamen) aus, aber keine quantitativen Unterschiede zwischen ihnen.

Die einzelnen Qualitäten (Abstufungen) in nominalskalierten Daten sind gleich relevant. Die Abstufungen nominal skalierter Daten brauchen damit auch nicht „lückenlos“ sein. In den Rückennummern der Saison 2011/2012 „fehlen“ u.a. die Nummern 2, 6 oder 12. Das darf so sein. Die einzige Anforderung an nominalskalierte Daten ist, dass sie als verschieden oder gleich zu identifizieren erlauben; sie brauchen nicht die Anforderung „lückenlos“ erfüllen. Die einzige zulässige mathematische Operation ist das Zählen, wie häufig die jeweilige Qualität in den Daten vorkommt. Bei Rückennummern wäre das Ergebnis für jeden Bayern-Spieler dasselbe, nämlich f = 1. Ginge man nach den Vornamen, wäre das Ergebnis für „Mario“ f =2. Der Modus liegt bei „Mario“ (Mandzukic bzw. Gomez), alle anderen Vornamen haben den Wert f = 1. Einen Mittelwert aus Trikotnummern (z.B. des 1. FC Bayern München) zu berechnen, wäre zwar mathematisch möglich, jedoch ziemlich sinnfrei, weil es dem Berechnen eines Durchschnittswerts aus Spielernamen entspräche.

Exkurs ◄

2.3.2 Ordinalskala

Wie lässt sich am besten in einen Abschnitt zum Ordinalniveau einführen? Man macht es spannend! Wie lautete die zentrale Aussage zum Nominalniveau? Jede Datenspalte besitzt auf jeden Fall das Nominalniveau. Spannend ist also an dieser Stelle: Welches andere Messniveau besitzt eine Datenspalte noch? Der nächstmögliche „Kandidat“ wäre das Ordinalniveau. Ist das wirklich so einfach…?

Definition: Messungen auf einer Ordinalskala liegen dann vor, wenn neben Gleichheit / Verschiedenheit (Eigenschaft der Nominalskala) zusätzlich größer / kleiner-Relationen feststellbar sind. Sobald Werte in einer Rangfolge angeordnet werden können, z.B. nach Erfolgen, Geschwindigkeit, Mengen, Größe, Stärke usw., handelt es sich um ordinalskalierte Daten. Die Abstände zwischen den einzelnen Rängen müssen nicht notwendigerweise gleich sein (Äquidistanz). Der absolute Abstand zwischen den Rängen ist für die Definition nicht wichtig, oft aber für die Analyse und Interpretation.

Mögliche Aussagen: Größer-/kleiner-Relation: Zwei (oder mehr) einzelne (Gruppen von) Merkmalsträger(n) haben ein größeres, kleineres oder auch ein gleich großes Merkmal.

Beispiele: Merkmal: Bundesligen, Werte: 1. Liga, 2. Liga, 3. Liga usw.; Merkmal: Bundesliga, Werte: 1. Rang, 2. Rang, 3. Rang usw.; Merkmal: Sportliche (Miss-)Erfolge, Werte: Champions League (CL) Teilnahme, CL Qualifikation, UEFA Cup, „Mittelfeld“, Relegation, Abstieg.

Transformation: streng monoton steigend.

Mögliche Maße: Lagemaße: Minimum, Maximum, Median (bei einer ungeraden Zahl an Abstufungen beobachtet), Quantile, Modus. Streumaße: Spannweite ohne R, Interquartils ab stand, Quantildifferenzen.

Zulässige Rechenoperation: f (Anzahl, frequency) bzw. Prozentanteile. Es wird besonders auf die ausführlichen Hinweise unter „Mathematische Transformationen“ und „Kodierungen“ verwiesen.

Besonderes: Ranking Scales: Ranking von Ligen, Teams, Spielern (MVP); Rating Scales: Rating von Finanzprodukten („AAA“, „AA+“, „AA“ usw. (z.B. S&P), Bonität von Schuldnern, Schulnoten („sehr gut“, „gut“ etc.), Zustimmung („sehr“, „überwiegend“ usw.).

Welche Spalten aus der Bundesligatabelle enthalten Daten auf Ordinalniveau? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind und sich in eine Rangreihe bringen lassen. Einfach ist es bei der Spalte „Platz“. Anhand der möglichen Aussage lässt sich der Schluss ziehen: Jeder der Plätze nimmt im Vergleich zu allen anderen einen besseren und/oder auch einen schlechteren Rang in der Tabelle ein. Der 1. Platz ist z.B. besser als der 2. Platz und 3. Platz usw., der 2. Platz ist z.B. besser als der 3. und 4. Platz usw. (jedoch schlechter als der 1. Platz) usw. Die Spalte „Platz“ besitzt auch ein Ordinalniveau. Wie sieht es mit der Spalte „Verein“ aus? Die Qualität der Vereinsnamen ist unterschiedlich („1. FC Köln“ ist nun einmal ein anderer Vereinsname als z.B. „Borussia Mönchengladbach“), sie lässt sich aber nicht in eine Rangfolge bringen (die unterschiedlichen Ränge der Vereine werden durch die Spalte „Platz“ ausgedrückt). Die Spalte „Verein“ besitzt also nur das Nominalniveau, aber nicht das Ordinalniveau. Ob die Spalte „Platz“ auch das Intervallniveau besitzt, wird im nächsten Abschnitt diskutiert. Die Spalten „Spiele“, „S“, „U“, „N“, „Diff“ und „Pkt“ sind jeweils auf dem Ordinalniveau (mindestens!); es ist die Aussage möglich: Jeder der 16 Werte über Spiele, Siege, Unentschieden, Niederlagen, Tordifferenz oder Punkte ist im Vergleich zu den jeweils anderen Werten größer, kleiner oder z.T. auch gleich. Interessant ist nun die Spalte „Tore“, sie beschreibt genau betrachtet das Verhältnis aus den geschossenen bzw. kassierten Toren. Um uns die Arbeit zu erleichtern, betrachten wir einfach zwei gleiche Differenzwerte, nämlich die Tordifferenz von -4 bei Hannover 96 und Mainz 05, und bewegen uns von dort zu den Torverhältnissen. Bei Hannover 96 finden wir 41:45 Tore, bei Mainz 05 dagegen 47:51. Die Torverhältnisse sind also verschieden, so gesehen können wir keine eindeutige größer/kleiner-Relation für die Spalte „Tore“ festhalten. Man könnte sich jetzt umständlich mit Zusatzannahmen behelfen, dass die Anzahl der geschossenen Tore wichtiger sei usw. Wir aber machen es unkompliziert: Die Spalte „Tore“ enthält keine „richtigen“ Zahlen, sondern Zahlenpaare, die wir weiterhin auf das Nominalniveau beschränken. Mit der Aussage „ungleich“ sind 41:45 bzw. 47:51 eindeutig differenziert, nämlich als ungleiche Abfolge von Zeichen („gleich“ i.S.e. Ergebnisses einer Rechenoperation haben wir per definitionem ausgeschlossen). An dieser Stelle können wir ein Zwischenfazit treffen: „Verein“ und „Tore“ beschränken sich auf das Nominalniveau. Spannend wird es nun für die übrigen Daten: Welche Spalte besitzt auch das Intervallniveau?

► Exkurs: Besondere Hinweise

Rating / Ranking Scales: Bei Ordinalskalen wird zwischen Rating und Ranking Scales unterschieden (Lorenz, 1992, 12ff.). Bei Ranking Scales wird eine diskrete Anzahl von Objekten anhand eines Kriteriums bzw. der Intensität eines Merkmals in eine Rangfolge gebracht. Beispiele für Ranking Scales sind z.B. Ligen (1. Liga, 2. Liga, 3. Liga usw.), Teams (1. Platz, 2. Platz usw.), Spieler (wichtigster Spieler, MVP). Bei Rating Scales wird anhand einer Berechnungsvorschrift eine Prüfung und Bewertung („Rating“) vorgenommen und ein Punktwert vergeben, der letztlich über den Rang entscheidet. Beispiele für Rating Scales sind z.B. Ratings von Finanzprodukten („AAA“, „AA+“, „AA“ usw. (z.B. Standard & Poor’s), Bonität von Schuldnern („uneingeschränkt kreditwürdig“, „eingeschränkt kreditwürdig“, „nicht kreditwürdig“, Schulnoten („sehr gut“, „gut“ etc.), Zustimmung („sehr“, „überwiegend“ usw.).

Mathematische Transformationen I: Differenzen? Bei Ordinalskalen ist man oft bereits versucht, mathematische Operationen, wie z.B. Differenzen, zu bilden. Nehmen wir der Plakativität halber an, wir wollen zwischen den Rängen „Champions League (CL) Teilnahme“ und „UEFA Cup“ eine mathematische Differenz gemäß der Logik B – A = C bilden? Ja! wird jemand rufen, in der CL geht es um mehr Geld! Die Differenz ist sozusagen der Unterschied im (auch!) materiellen Anreiz. Leider nein, muss man dem entgegenhalten: Denn: Mit diesem Einwand wurde flugs die Einheit der Differenz gewechselt: Waren es in der ursprünglichen Formulierung unterschiedlich bedeutsame sportliche Erfolge, wechselt der Einwand auf eine monetäre Einheit, z.B. Euro, und diese sind mindestens auf dem Intervallniveau (auf denen tatsächliche Differenzen zulässig sind). Eine Differenz aus zwei ordinalen, qualitativ verschiedenen Rängen zu bilden, ist üblicherweise sehr sehr schwierig herzuleiten bzw. zu interpretieren. Ein Sinn einer mathematischen Differenz aus den ordinalen Rängen „Champions League (CL) Teilnahme“ und „UEFA Cup“ erschließt sich z.B. nicht.

Mathematische Transformationen II: Quotienten? Zulässige Operationen sind f (Anzahl, frequency) bzw. Prozentanteile. Aus mathematischer Sicht sind bei der Ordinalskala nur mathematische Transformationen zulässig, die nicht die Abfolge der bezeichneten Objekte ändern. Die Bildung von Differenzen, Quotienten, Summen oder Mittelwerten mittels Ordinalskalen ist methodisch gesehen nicht sinnvoll und kann u.U. sogar irreführend sein. Dazu ein kleines Beispiel mit Schulnoten (ja, Schulnoten sind auf der Ordinalskala!) von vier Schüler-Innen A, B, C und D: Haben A und D dieselbe Schulnote, z.B. „1“ [„sehr gut“], so haben sie auch dieselbe Leistung gezeigt (gleiche Zahl = gleiche Qualität [auf derselben Stufe]). Hat B z.B. „2“ [„gut“], eine kleinere Schulnote wie C, „3“ [„befriedigend“], so hat B eine bessere als C gezeigt (ungleiche Zahlen = Qualität in unterschiedlichen Abstufungen; je kleiner die Zahl, desto besser die Qualität). Wird versucht, aus den qualitativen Rangurteilen eine Differenz zu bilden, z.B. „sehr gut“ – „gut“ bzw. „gut“ – „befriedigend“, so ist es nicht möglich, eine Aussage über den präzisen Leistungsunterschied abzuleiten (keine Differenz möglich; dies würde Äquidistanz voraussetzen). Daraus folgt, dass auch nicht gesagt werden kann, dass ein „sehr gut“ doppelt so gut ist wie ein „gut“ oder sogar dreimal so gut wie ein „befriedigend“ (kein Quotient möglich). Werden für A, B, C und D anhand von Kodes die Leistungsunterschiede ermittelt, so beging man oft eine unzulässige Informationsanreicherung der Messskala. Diese Diskussion wird bei den „Kodes“ fortgesetzt.

Kodierungen I: Numerisch: Für die Kodierung der Ausprägungen von Ratingskalen, z.B. Schulnoten („sehr gut“, „gut“, usw.), Zustimmung („sehr“, „überwiegend“, usw.) oder Zutreffen („trifft sehr zu“, „trifft zu“ usw.), werden üblicherweise Zahlen vergeben (meist 1 bis 4 bzw. 6, je nach Rangskala). Das Problem der zugewiesenen numerischen Skala ist, dass sie meist über regelmäßige Abstände verfügt. Das gilt auch für scheinbar alternative Kodierungen, wie z.B. 2, 4, 6 usw., 10, 20, 30 usw. oder auch 11, 12, 13 usw. In allen Fällen wurde die original „qualitative“ Ordinalskala unzulässigerweise um die Information der Äquidistanz angereichert. Das Problem ist: Diese Kodierungen suggerieren, dass die Abstände zwischen den quantitativen Stufen (1, 2, 3, usw.) exakt gleich sind, obwohl sie es faktisch nicht sind („sehr gut“, „gut“, „befriedigend“ usw.). Die Methodenforschung bemüht sich zwar um den Nachweis, dass sich Skalen mit wenigen qualitativen Rängen in etwa den Abständen zwischen den quantitativen Stufen annähern. Als eine echte Lösung des Problems von Ordinalskalen erschließt sich dies jedoch nicht. Unkonventionellere Kodierungen (wie z.B. 1, 8, 13, 27) zu wählen, ist ebenfalls keine befriedigende Lösung, weil die jeweils gewählte quantitative Kodierung außerdem einen Einfluss auf die erzielten Statistiken haben kann. Wenn Mittelwerte unbedingt mit Ordinaldaten berechnet werden müssen (was z.B. oft Auswertungsmanuale psychometrischer Skalen verlangen), so sollte zumindest der Effekt verschiedener Kodierungen überprüft und ausgeschlossen werden.

Kodierungen II: String / Text: Ränge können auch direkt, alphanumerisch, als Text an die Software übergeben werden. In diesem Falle sollten Text-Rangfolgen auf mögliche Sortierfehler geprüft werden. Korrekt und konsistent wäre z.B. eine Text-Rangfolge wie z.B. „klein“, „mittel“ oder „riesig“ (konsistente Rangreihe: k < m < r). Inkorrekt, weil inkonsistent, wäre z.B. eine Text-Rangfolge wie z.B. „schwach“, „mittel“ oder „stark“ (inkonsistente Rangreihe: s > m < s).

Exkurs ◄

Tipp!

Vermeiden Sie alphanumerische Kodierungen, z.B. von Bewertungen („schwach“, „mittel“, „stark“ oder „high“, „average“ und „low“) oder z.B. von Monaten (z.B. „Jan“, „Feb“, „Mar“ usw.) oder Jahreszeiten („Frühling“, „Sommer“ usw.). Alphanumerisch sortiert würde z.B. „mittel“ zwischen „schwach“ und „stark“, „high“ zwischen „average“ und „low“, „Apr“ vor „Feb“ oder auch der „Herbst“ vor „Sommer“ usw. sortiert werden.

Ordinalskalierte Variablen erlauben im Gegensatz zu nominal skalierten Variablen schon Aussagen i.S.v. größer oder kleiner, aber das um wie viel besser, größer, stärker oder intensiver kann erst ab dem Intervallskalenniveau numerisch, also quantitativ, ausgedrückt wiedergegeben werden.

Ordinaldaten sind heikel für die deskriptive Statistik (und nicht nur dort). Die Empfehlung ist, sofern möglich, Daten für u.a. Differenz- oder Mittelwerte nur ab Intervallskalenniveau zu erheben (damit wäre eine Mittelwertbildung zulässig).

2.3.3 Intervallskala

Während die Abstände der einzelnen Ränge also bei Ordinalskalen noch nicht gleich sind, unterscheidet sich die Intervallskala darin, dass die Ränge auf ihrer Skala gleiche Abstände aufweisen (Äquidistanz). Gleiche Abstände bedeuten, dass ab nun Differenzen gemessen werden können. Daher kann erst ab dem Intervallskalenniveau das um wie viel besser, größer, stärker oder intensiver usw. in Zahlen ausgedrückt werden.

Definition: Messungen auf einer Intervallskala liegen dann vor, wenn neben Gleichheit/Verschiedenheit (Eigenschaft der Nominalskala), größer/kleiner-Relationen (Eigenschaft der Ordinalskala) auch die Größe von Unterschieden feststellbar ist.

Mögliche Aussagen: Äquidistanz: Die Differenzen von zwei (oder mehr) einzelner (oder auch Gruppen von) Merkmalsträgern sind gleich (oder auch ungleich).

Beispiele: Merkmal: Temperatur. Ein Unterschied zwischen 4 und 8 Grad Celsius ist gleich groß wie zwischen 20 und 24 °C; Merkmal: Uhrzeiten (Zeitmessungen): Die Differenz zwischen 20:15 und 21:45 ist genauso groß wie zwischen 18:00 und 19:30; Merkmal: Bundesligapunkte: Der Unterschied zwischen 81 und 73 Punkten ist genau so groß wie zwischen 48 und 40.

Transformation: linear.

Mögliche Maße: Lagemaße: Mittelwert, Minimum, Maximum, Median (auch berechnet), Quantile, Modus. Streumaße: Standardabweichung, Varianz, Spannweite R, Interquartilsabstand, Quantildifferenzen.

Zulässige Rechenoperation: numerische Differenzen, Mittelwert; f (Anzahl, frequency) bzw. Prozentanteile.

Welche Spalten aus der Bundesligatabelle enthalten Daten auf Intervallniveau? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind, sich in eine Rangreihe bringen lassen und deren Abstände genau gemessen werden können. Tricky ist es bei der Spalte „Platz“. Einerseits ließe sich argumentieren: Der Abstand zwischen den Rangwerten 1 und 3 erscheint genauso groß wie zwischen den Rangwerten 5 und 7 bzw. größer als zwischen den Rangwerten 5 und 6. Damit besäße die Spalte „Platz“ also auch ein Intervallniveau. Andererseits wäre es nicht weniger plausibel zu argumentieren: Die Rangwerte sind in Wirklichkeit nur „Kodes“, deren Abstände in Wirklichkeit auch unterschiedliche Punktzahlen aufweisen können (vgl. „Pkt“). Der Abstand zwischen den Plätzen 1 und 2 (8 Punkte) ist größer als zwischen den Plätzen 4 und 5 (4 Punkte) bzw. größer als zwischen den Plätzen 5 und 6 (1 Punkt). Damit besäße die Spalte „Platz“ weiterhin „nur“ ein Ordinalniveau. Der Unterschied zwischen Ordinalniveau (auf der Basis von Kodes) und Intervallniveau (auf der Basis von Werten) lässt sich über den Rückgriff auf Informationen „außerhalb“ der betreffenden Ordinaldaten differenzieren. Die Spalte „Platz“ hat damit zwei Gesichter: Die numerischen Kodes haben (selbstverständlich) Intervallniveau. Die Ränge, die diese Kodes repräsentieren, weisen jedoch keine äquidistanten Abstände auf, sind also (weiterhin) Ordinalniveau. Für welche Interpretation man sich nun entscheidet, liegt im Ermessen des Anwenders. Für uns, so legen wir jetzt fest, besitzt die Spalte „Platz“ weiterhin „nur“ Ordinalniveau. Die Spalte „Verein“ besitzt, wie wir wissen, nur das Nominalniveau. Wie sieht es mit den Spalten „Spiele“, „S“, „U“, „N“, „Diff“ und „Pkt“ aus? Nehmen wir zunächst die Spalte „Spiele“. Der Unterschied zwischen 34 und 34 Punkten ist jeweils exakt gleich groß. Springen wir gleich zur Spalte „Pkt“. Der Unterschied zwischen 81 und 73 Punkten ist genau so groß wie zwischen 48 und 40 Punkten, aber größer als zwischen 31 und 30 Punkten. Die Spalten „Spiele“ und „Pkt“ besitzen also auch ein Intervallniveau. Die Spalte „Tore“ besitzt, nach unserem Dafürhalten, nur das Nominalniveau. Wie es mit den Spalten „S“, „U“, „N“ und „Diff“ aussieht, überlassen wir bis zum nächsten Abschnitt vertrauensvoll der Kompetenz der werten Leserinnen und Leser. Das Zwischenfazit an dieser Stelle lautet: „Verein“ und „Tore“ beschränken sich auf das Nominalniveau. Alle anderen Spalten besitzen neben dem Ordinalniveau auch das Intervallniveau.

Während das Ordinalniveau nur aus sagt, dass etwas besser oder schlechter sei, erlaubt ein Intervallniveau auch auszusagen, um wie viel besser ein Wert ist. Gemeinsam von Ordinal- und Intervallniveau ist die Aussage, dass etwas gleich bzw. nicht verschieden ist. Ein Intervallniveau wird nicht mehr als diskret, sondern als kontinuierlich bezeichnet. Ab intervallskalierten Variablen wird auch von quantitativen Variablen gesprochen.

2.3.4 Verhältnisskala

Definition: Messungen auf einer Verhältnisskala liegen dann vor, wenn neben Gleichheit / Verschiedenheit (aus: Nominalskala), größer / kleiner-Relationen (aus: Ordinalskala), die Größe von Unterschieden (aus: Intervallskala) auch ein eindeutiger Nullpunkt vorliegt. Weiter unten finden sich weitere Hinweise zum Nullpunkt.

Mögliche Aussagen: Gleichheit von Verhältnissen: Die Verhältnisse von zwei (oder mehr) einzelnen (oder auch Gruppen von) Merkmalsträgern sind gleich (oder auch ungleich).

Beispiele: Merkmal: Nährwert in der Ausprägung kJoule: Ein Gericht mit 2400 kJ hat doppelt so viele kJoule wie ein Gericht mit 1200kJ; Merkmal: Gewässertiefe ab NN (Normalnull) in Metern: 40 m ist doppelt so tief wie 20 m; Merkmal: Ein Spielereinsatz von 30 Minuten ist halb so lang wie der Einsatz eines Spielers von 60 Minuten.

Transformation: proportional.

Mögliche Maße: Lagemaße: Geometrisches Mittel, Mittelwert, Minimum, Maximum, Median (auch berechnet), Quantile, Modus. Streumaße: Variationskoeffizient, Standardabweichung, Varianz, Spannweite R, Interquartilsabstand, Quantildifferenzen.

Zulässige Rechenoperation: Quotienten; Multiplikation mit einer Konstanten ungleich Null; numerische Differenzen, Mittelwert; f (Anzahl, frequency) bzw. Prozentanteile.

Besonderes: Nullpunkte, Temperaturen.

Besondere Hinweise

Nullpunkt

Der eindeutige Nullpunkt kann von einem willkürlich festgesetzten Nullpunkt dadurch unterschieden werden, dass es keine Werte geben kann, die unter diesem Nullpunkt liegen.

Beispiele für absolute Nullpunkte:

■ Ein Mittagessen kann nicht minus kJ aufweisen.

■ Ein Mensch kann kein negatives Gewicht aufweisen (auch wenn ein Blick auf die Badezimmerwaage einen anderen Eindruck vermitteln sollte).

■ Ein Fußballspiel kann nicht weniger als 0 Minuten dauern (eigentlich auch nicht weniger als 90 Minuten).

Beispiele für willkürlich gesetzte Nullpunkte:

■ Eine Fußballmannschaft sollte keinen negativen Punktestand aufweisen; wegen Sanktionsmaßnahmen kann dies trotzdem passieren. „Punktes tand“ besitzt daher einen willkürlichen Nullpunkt.

■ Ein explizit eingerichtetes Überziehungslimit sorgt dafür, dass ein Konto nicht in die „roten Zahlen“ gerät. Ist dieses Limit deaktiviert, könnte das Konto evtl. überzogen werden. „Kontostand“ besitzt daher einen willkürlichen Nullpunkt.

Temperaturen

Es gibt Temperatureinheiten mit und ohne Nullpunkt:

■ Kelvin: Kelvin besitzt einen Nullpunkt. Kelvin besitzt daher eine Verhältnisskala. Die Aussage „400 Kelvin ist doppelt so warm wie 200 Kelvin“ ist sinnvoll, da keine Werte unter 0 Kelvin vorkommen können.

■ Celsius / Fahrenheit: Celsius bzw. Fahrenheit besitzen keinen Nullpunkt. Celsius bzw. Fahrenheit besitzen daher „nur“ eine Intervallskala. Die Aussage „24 °C ist doppelt so warm wie 12 °C“ ist nicht sinnvoll, weil Temperaturen in Celsius auch unter Null vorkommen können.

Welche Spalten aus der Bundesligatabelle enthalten Daten auf Verhältnisskalenniveau? Diese Frage lässt sich einfach beantworten, indem sie umformuliert wird: Welche Spalten aus der Bundesligatabelle auf Intervallniveau enthalten einen Nullpunkt? Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind, sich in eine Rangreihe bringen lassen, Abstände genau messbar sind und die einen Nullpunkt aufweisen. Die Spalte „Verein“ besitzt, wie wir wissen, nur das Nominalniveau; für „Platz“ haben wir uns für das Ordinalniveau entschieden, für „Tore“ für Nominalniveau. Wie sieht es mit den Spalten „Spiele“, „S“, „U“, „N“, „Diff“ und „Pkt“ aus? Nehmen wir zunächst die Spalte „Spiele“. Die Spalte „Spiele“ besitzt z.B. einen Nullpunkt, enthält also auch das Verhältnisskalenniveau. Der Unterschied zwischen 34 und 34 Punkten ist jeweils exakt gleich groß. Springen wir gleich zur Spalte „Pkt“. Der Unterschied zwischen 81 (Dortmund) und 73 (Bayern) Punkten (8 Punkte) ist genau doppelt so groß wie zwischen 64 (Schalke) und 60 (Gladbach) Punkten (4 Punkte), und mehr als doppelt so groß wie so groß wie zwischen 42 (Wolfsburg) und 40 (Bremen) Punkten (2 Punkte). Die Spalten „Spiele“ und „Pkt“ besitzen also auch ein Verhältnisniveau. Die Spalte „Tore“ besitzt, nach unserem Dafürhalten, nur das Nominalniveau. Die Spalten „S“, „U“, und „N“ besitzen einen Nullpunkt, sind daher mindestens auf Verhältnis niveau. Die Spalte „Diff“ hat keinen Nullpunkt und besitzt damit „nur“ das Intervallniveau. Das Zwischenfazit an dieser Stelle lautet: „Verein“ und „Tore beschränken sich auf das Nominalniveau, „Platz“ auf das Ordinalniveau. Die Spalten „Diff“ besitzt das Intervallniveau. Alle anderen Spalten („Spiele“, „S“, „U“, „N“ und „Pkt“) besitzen mindestens auch das Verhältnisniveau.

Zur Erinnerung: Erst verhältnisskalierte Daten (mit Nullpunkt) erlauben die Aussage, dass ein Wert doppelt so groß sei wie ein anderer Wert. Intervall- und verhältnisskalierte Variablen bilden zusammen mit der Absolutskala die höchste Variablengruppe, die der metrischen Variablen.

2.3.5 Absolutskala

Definition: Messungen auf einer Absolutskala liegen dann vor, wenn ein Nullpunkt und eine natürliche Maßeinheit gegeben sind.

Mögliche Aussagen: Gleichheit / Ungleichheit von Häufigkeiten (Zähldaten).

Beispiele: Merkmal: Bundesligapunkte: Schalke 04 (64) hat mehr als doppelt so viele Punkte wie Herta BSC (31); Merkmal: Aufstellungen: Die Aufstellung des SC Freiburg umfasst genauso viele Spieler wie die von Hannover 96 (11); Merkmal: Unentschieden: Borussia Dortmund hat in der Saison 2011/2012 mehr Unentschieden (6) als der VfL Wolfsburg (5).

Transformation: keine.

Mögliche Maße: Häufigkeit (Zähldaten).

Zulässige Rechenoption: Ermittlung von Häufigkeiten.

Welche Spalten aus der Bundesligatabelle enthalten Daten auf Absolutskalenniveau? Von allen Spalten aus der Bundesligatabelle müssen nur noch „Spiele“, „S“, „U“, „N“ und „Pkt“ festgelegt werden. „Verein“ und „Tore“ besitzen Nominalniveau, „Platz“ Ordinalniveau, und „Diff“ Intervallniveau. Das Kriterium, das zu erfüllen ist, lautet: Kategorien, die verschieden sind, sich in eine Rangreihe bringen lassen, deren Abstände genau gemessen werden können, einen Nullpunkt und eine natürliche Maßeinheit besitzen. Eine Absolutskala liegt also dann vor, wenn ein Nullpunkt und eine natürliche Maßeinheit gegeben sind. Eine natürliche Maßeinheit weisen z.B. Zähldaten auf, z.B. Seitenzahlen in einem Buch oder Anzahl von Zuschauern in einem Stadion. So gesehen ist es bei „Spiele“, „S“, „U“, „N“ und „Pkt“ insgesamt einfach: Alle fünf verbleibenden Spalten zählen etwas ab Null: „Spiele“ zählt die Anzahl der Spiele bis Saisonende. „S“, „U“, und „N“ zählen die Anzahl der Siege, Unentschieden und Niederlagen bis zum Saisonabschluss. „Pkt“ zählt die Anzahl der erzielten Punkte. Das abschließende Fazit lautet: „Verein“ und „Tore beschränken sich auf das Nominalniveau, „Platz“ auf das Ordinalniveau. Die Spalten „Diff“ besitzt das Intervallniveau. Die Spalten „Spiele“, „S“, „U“, „N“ und „Pkt“ besitzen auch das Absolutniveau.

Merkhilfe Mit „Nein“ sagen weniger mit Skalen plagen:


[1]Lässt sich das Merkmal in eine von Daten beschriebene Rangfolge bringen? Nein: Nominalskala
[2]
[3]Hat die Skala einen eindeutigen Nullpunkt (darf man also u.a. Mittelwerte bilden)? Nein: Intervallskala
[4]Hat die Skala keinen Nullpunkt (darf man also u.a. Proportionen bilden)? Nein: Verhältnisskala
[5]Hat die Skala Einheiten, z.B. €, PS, Kilometer? Nein: Absolutskala

2.3.6 Weitere Skalenbegriffe

Neben den vorgestellten gibt es viele weitere Skalen, z.B. die Hype rordinalskalen (Rangordnung der Objektdifferenz), oder auch logarithmische Intervallskalen. Es gibt auch zahlreiche Oberbegriffe für Skalen, die hier kurz stichwortartig abgehandelt werden sollen; dazu gehören z.B. binäre (zweistufige Skalen), dicho- bzw. polytome (zwei- bzw. mehrstufige Skalen), diskrete (diskontinuierliche) vs. stetige (kontinuierliche) Skalen (vgl. anschließende Erläuterungen), kategoriale Skalen (zwei- bis mehrstufige Skalen), metrische Skalen (ab einschl. Intervallskala), qualitative / quantitative Skalen (vgl. anschließende Erläuterungen). Oft wird die Eigenschaft der Skala auf die betreffende Datenspalte bzw. Variable sprachlich verallgemeinert. Wurde z.B. eingangs gesagt, die Spalte „Verein“ besitze das Nominalniveau, so wird häufig stattdessen kürzer gesagt, z.B. die nominalskalierte bzw. Nominalvariable „Verein“. Die nachfolgenden Erläuterungen drücken nun genau dasselbe aus; sie beziehen sich in ihrer Formulierungen nicht auf die Skala, sondern auf die Datenspalte (Variable) mit dieser Skala.

Qualitative und quantitative Variablen: Art der Ausprägungen

Qualitative Variablen

Qualitative Variablen lassen sich in ihren Ausprägungen nur durch ihre Art oder ihren Rang unterscheiden. Qualitative Variablen sind nominal- oder ordinalskalierte Variablen, da diese nur in einer Qualität oder ihrem Rang unterschieden werden können.

Beispiele

Spielart: „Auswärtsspiel“, „Heimspiel“, „Freundschaftsspiel“, „Geisterspiel“ usw.

Schulnoten: „sehr gut“, „gut“ etc.

Quantitative Variablen

Quantitative Variablen sind Variablen ab dem Intervallniveau, die auf der Basis einer numerischen Skala mit einem einheitlichen Abstandsmaß genau geordnet werden können.

Beispiele

Punktestand (z.B. zur Winterpause).

Alter (z.B. in Jahren).

Temperaturen (z.B. in C).

Diskrete und stetige Variablen: Anzahl theoretisch möglicher Ausprägungen

Diskrete Variablen sind Variablen, die nur eine überschaubare, begrenzte Anzahl von Werten aufweisen. Stetige Variablen sind dagegen Variablen, die eine unübersehbare, unbegrenzte Anzahl von Werten aufweisen. Zu den diskreten Skalen werden üblicherweise Nominal- und Ordinalvariablen gezählt. Diskrete Skalen werden oft als Klassifikationsvariablen verwendet. Diskrete Skalen werden auch als topologische Skalen bezeichnet.

Intervall-, Verhältnis- und Absolutvariablen werden üblicherweise zu den stetigen Skalen gezählt (können jedoch auch als stetig skaliert definiert werden). Stetige Skalen werden bevorzugt als abhängige Variablen in Kausalmodellierungen verwendet. In der Praxis können stetige Variablen auch wie diskrete Variablen behandelt werden, z.B. eine Altersangabe in Jahren als Klassifikationsvariable (bei einer überschaubaren Anzahl an Werteausprägungen). Stetige Skalen werden auch als kontinuierliche bzw. Kardinalsskalen bezeichnet.

Diskrete Variablen

Diskrete Variablen sind Variablen, die nur eine überschaubare, begrenzte Anzahl von Werten aufweisen. Diskrete Variablen können nur bestimmte Werte annehmen, aber nicht jeden beliebigen. Es handelt sich damit um abzählbar viele Werte.

► Beispiele

Fußballmannschaft: Anzahl von Spielern pro Team: Die Anzahl der Spieler ist auf 11 begrenzt und kann als diskret gelten.

Ticketkauf: Am Ticketschalter enthält man immer nur diskrete Stückzahlen, z.B. 3 oder 4 Tickets, aber z.B. niemals 3,43 Tickets.

Anzahl der Tore in einem Spiel: Die Anzahl der Tore in einem Fußballspiel (zumindest der Gegenwart) gilt generell als überschaubar und damit als diskret.

₺596,94

Türler ve etiketler

Yaş sınırı:
0+
Hacim:
479 s. 100 illüstrasyon
ISBN:
9783846339695
Yayıncı:
Telif hakkı:
Bookwire
İndirme biçimi:
Metin
Ortalama puan 0, 0 oylamaya göre
Metin
Ortalama puan 0, 0 oylamaya göre