Kitabı oku: «Einführung in die sonderpädagogische Diagnostik», sayfa 8

Yazı tipi:

Erwartung: Die Vorhersage erfüllt sich.

Probleme: Trotz Aufnahmeprüfungen und -tests scheitern später viele Schüler in weiterführenden Schulen. Der aufgrund einer Überprüfung mit validen Tests in eine Förderschule aufgenommene Schüler wird – weil sich die Vorhersage „erfüllt“ – in der Sonderschule bleiben – Rückführung? – Festschreibung! Im ersten Fall (weiterführende Schulen) erfüllt sich die Prognose nicht, im zweiten Fall (Förderschule)scheint sie sich eher zu erfüllen. Bei absoluter Reliabilitäts- und Validitätsgläubigkeit wäre der Gedanke an eine Förderdiagnostik überflüssig, weil die Testergebnisse immer gleich schlecht ausfallen müssten, sonst wäre der Test weder reliabel noch valide!

4.2.3.4 Konstruktvalidität (theoretische Gültigkeit)

Bestimmung: Es geht um die Frage, wie gut ein Test mit der Theorie übereinstimmt, von der seine Testkonstruktion ausging. Es geht um den Nachweis, dass die theoretischen Annahmen über das, was ein Test messen soll, gültig sind. Lienert drückt dies so aus: „Aufgrund theoretischer – sachlogischer und begrifflicher – Erwägungen und anhand von sich daran anschließenden empirischen Untersuchungen wird entschieden, ob ein Test ein bestimmtes Konstrukt zu erfassen vermag“ (1998, 11). Konstrukte sind z. B. Intelligenz, Angst, Motivation.

Man wird also erst nach der Konstruktion eines Tests versuchen, die im Rahmen der Theorie verankerten Aussagen zu überprüfen.

Die Persönlichkeitsmerkmale, die der entsprechende Test erfasst, müssen einer genauen psychologischen Analyse unterzogen werden. Soll z. B. ein Test Angst oder Aggression messen, so muss nachgewiesen sein, dass die vom Test erfassten Merkmale tatsächlich mit den Konstrukten Angst oder Aggression übereinstimmen.

Nachweis der Konstruktvalidität erfolgt nicht durch einen Korrelationskoeffizienten, vielmehr zeigt der Testautor die Untersuchungen auf, die er durchgeführt hat, zum Nachweis der Konstruktvalidität.

Probleme: Prinzip der Bestimmung der Konstruktvalidität ist für den Nichtfachmann oft schwer zu verstehen.

Zusammenfassung

1. Ein Test ist valide (gültig), wenn er wirklich das misst, was er zu messen beansprucht.

2. Hohe Validität kann nur eintreten bei hoher Objektivität und hoher Reliabilität.

(Es kann jedoch möglich sein, dass die Reliabilität sehr hoch und die Validität = null ist.)

Das zu messende Merkmal bedarf einer präzisen Beschreibung; die im Test vorkommenden Items und Aufgaben müssen das zu messende Merkmal repräsentieren.

3. Im Zusammenhang mit der Validität soll aufgrund des Testverhaltens auf ein Verhalten außerhalb der Testsituation oder auf bestimmte Fähigkeiten, allgemein auf Merkmale und Eigenschaften einer Person geschlossen werden (wenn z. B. ein Proband in einem Rechentest Addition und Subtraktion gut beherrscht, wird er diese Leistungen auch außerhalb der Testsituation erbringen). Ergeben sich in einem Angsttest hohe Angstwerte, so ist zu erwarten, dass das Verhalten des Probanden in hohem Maße von Angst mitbestimmt wird, dass etwa Prüfungsleistungen aufgrund von Angst herabgesetzt sind.

4. Nachdem bei der Inhalts- und Konstruktvalidität nicht immer Korrelationskoeffizienten angegeben sind und der Gültigkeitskoeffizient nur als relativer Maßstab gilt, wird es jeweils nötig sein, sich in den Testhandbüchern zu informieren, wie der jeweilige Autor zu seinen Aussagen über Validität gekommen ist.

Empfohlen wird grundsätzlich die Lektüre kritischer Ausführungen über die in Frage kommenden Testverfahren.

5. Gerade das Gütekriterium Validität enthält manchmal so viele mathematische und statistische Implikationen, dass es für den im Hinblick auf die Testkonstruktion relativen Laien kaum noch durchschaut werden kann.

4.2.4 Normierung

4.2.4.1 Notwendigkeit

Die Normierung nimmt einen wichtigen Platz unter den vier wichtigsten Gütekriterien ein. Der diagnostizierende Pädagoge wird nahezu ständig mit Normen konfrontiert.

Das Vorliegen eines individuellen Testergebnisses alleine nützt nichts, es ist nur interpretierbar in Bezug auf vergleichbares Datenmaterial von anderen Individuen. Über einen Test sollen also Angaben verfügbar sein, die eine Einordnung des individuellen Testergebnisses in ein größeres Bezugssystem ermöglichen, nämlich Normen.

Im Zusammenhang mit der Ermittlung von Normdaten spricht man auch von Eichung. Unter Eichung wird also die Gewinnung von Normdaten verstanden. Ein Test, der zwar die Gütekriterien Objektivität, Reliabilität und Validität erfüllen würde, aber nicht normiert wäre, hätte keine oder kaum diagnostische Bedeutung. Die Verwendung von Normskalen bringt im Wesentlichen drei Vorteile:

1. Bei der Verwendung von Tests kann sich der Testleiter zumeist leicht und rasch mit den Normskalen vertraut machen. Es wäre umständlich und nicht gemäß der Forderung nach Objektivität, wenn der Testleiter die Normen selbst festlegen müsste. (Bei informellen Tests wie z. B. Klassenarbeiten ist dies gewöhnlich Aufgabe des Lehrers.)

2. Indem ein weitgehend einheitlicher Maßstab zur Anwendung kommt, können die Testergebnisse eines Probanden bei verschiedenen Tests direkt miteinander verglichen werden.

3. Wird es möglich, Testergebnisse verschiedener Probanden unmittelbar zu vergleichen.

Die Normierung eines Tests bezieht sich stets auf eine bestimmte Population, also auf eine Vergleichsgruppe. Solche Vergleichsgruppen können nach Merkmalen aufgestellt werden, wie z. B. Alter, Geschlecht, sozialer Status, spezifische Behinderungen, Stadt – Land, Schulklassen …

Es ist wohl einsichtig, dass ein für Kinder mit Förderbedarf geistige Entwicklung – traditionell „geistige Behinderung“ – konstruierter und an der Gruppe von Kindern mit Förderbedarf geistige Entwicklung normierter Test nicht für die Untersuchung von Kindern ohne Förderbedarf bzw. Behinderung nützlich sein kann (Beispiel: Testbatterie für geistig behinderte Kinder von Bondy et al.; für Lernbehinderte: Schulleistungsprüfung lernbehinderter Schüler von Reinartz). Ebenso wäre es unsinnig, einen an körperlich nicht behinderten Kindern geeichten Motoriktest bei Kindern mit Förderbedarf Bewegung / Motorik einsetzen zu wollen. (Beispiel: Lincoln-Oseretzky-Test-Kurzform 18). Man kann also von einem Test nicht mehr erwarten, als dass er das misst, was er messen soll oder zu messen beabsichtigt.

Wie geht nun eine Testeichung vor sich? Ein Test wird zunächst konstruiert und verschiedentlich erprobt. Die Eichung beginnt gewöhnlich im Endstadium. Eine große Anzahl von Personen (etwa 1.400–1.500), die die Personengruppe widerspiegelt (repräsentiert), für die der Test gedacht ist, soll die Testaufgabe lösen. Aus dieser „Eichstichprobe“ (es können nicht alle Personen erfasst werden, die ein bestimmtes Merkmal repräsentieren) wird dann die Leistungsnorm, also der Vergleichsmaßstab auf rechnerischem Wege ermittelt. Es kommt dabei vor, dass sich die Leistungen bei der Eichstichprobe unterscheiden. So könnten spezielle Normen gebildet werden für männliche und weibliche Personen, für Altersgruppen, Schularten …

Nach dieser kurzen Einführung in den Vorgang der Eichung wird neben der Information – auch für das Verständnis der weiteren Ausführungen – eine Darstellung des historischen Ansatzes der Normierung notwendig.

4.2.4.2 Der historische Ansatz zur Gewinnung von Normen

Bereits in den Ausführungen über die Entstehung der Psychodiagnostik wurden die Namen Gauß und Galton erwähnt. Auf Gauß lässt sich der Gedanke der „Normalverteilung“ zurückführen, der sich anschaulich an der „Gaußschen Kurve“ darstellen lässt.

Anhand des sogenannten „Galtonschen Brettes“ (ein Zufallsapparat, der von dem englischen Statistiker Francis Galton gebaut wurde) kann das Prinzip dieser Gaußschen Kurve erklärt werden.


Abb. 5: Verteilung von Kugeln in einem Zufallsapparat (Galtonsches Brett; Kleber 1973, 58; Kramer 1972, 42; Menge gleichmäßig verteilter Metallstifte, darüber ein Trichter, unterhalb der Metallstifte ein Behälter)

Fällt nun durch den Trichter eine große Anzahl (einige hundert) gleich großer Kugeln, so kann man beobachten, dass nur ganz wenige Kugeln in die äußersten Bereiche der Auffangbehälter fallen, sich im mittleren Bereich viele Kugeln vorfinden und die größte Anzahl in der Mitte liegt.

Zahlreiche theoretische und experimentelle Forschungen ergaben, dass es eine ganz typische Erfahrungs-Verteilung gibt, die man mathematisch ausdrücken kann. Diese Verteilung nennt man Wahrscheinlichkeitsverteilung oder Normalverteilung. Die zugehörige Kurve heißt „Glockenkurve“. Die Glockenkurve (manchmal auch „Gaußsche Kurve“ genannt) weist die folgenden Merkmale auf: gleichmäßiges Ansteigen von beiden Seiten, Symmetrie, ein Gipfelpunkt.

Diese Verteilung hat man nun auch auf biologische und psychische Bereiche übertragen. Man könnte z. B. die Körpergrößen einer sehr großen Anzahl von Personen feststellen und dann eine Aussage darüber treffen, wie viele Personen bezüglich ihrer Körpergröße in den mittleren Bereich, wie viele in den Bereich für sehr große und sehr kleine Personen fallen. Damit hätte man zunächst eine Möglichkeit zu einer Grobeinteilung oder Grobnormierung. Ähnlich kann man vorgehen, wenn es um Leistungen, um die Lösung von Aufgaben geht.

Überträgt man dieses Modell auf den Intelligenzbereich, so würde man feststellen, dass der mittlere Intelligenzbereich zahlenmäßig („normale“ oder „durchschn.“ Intelligenz) am stärksten repräsentiert wird. Weit rechts müsste man sich den hochintelligenten Menschen („Genie“) und weit links den mit schwerster geistiger Behinderung („Imbezillität“ – „Idiotie“) denken.

An der Übertragung des genannten Modells auf psychische Bereiche wurde viel Kritik geübt, z. B. weil doch sehr leicht mit dieser Einteilung auch eine Wertung einhergehen könnte und weil die Frage der Intelligenz eines Menschen in hohem Maße von Intelligenzbegriff und auch vom benutzten Intelligenztest abhängt.

Auch wenn die Kritik am Modell der Normalverteilung und den damit verbundenen Implikationen in der Gegenwart sehr heftig geführt wird, muss bemerkt werden, dass die Gaußsche Kurve oder die Normalverteilungskurve eine der bedeutsamsten mathematischen Grundlagen der gesamten Testpsychologie darstellt. Vor allem der Gedanke der Eichung oder Normierung von Tests (wie weit weicht ein Individuum mit seiner Leistung, mit Meinungen, Einstellungen … vom Durchschnitt ab) geht von dieser Basis aus.

Die Urteilsbildung zu der Frage, ob man Normensysteme ablehnen oder akzeptieren soll, kann dem Leser nicht erspart bleiben. Man kann sagen, dass der Interpretationswert statistischer Normen vor allem unter Berücksichtigung des Messfehlers ohnehin begrenzt ist.

Im Rahmen förderdiagnostischen Denkens dürften im Allgemeinen nicht mehr die sozialen und leistungsmäßigen Bezugsnormen dominieren, denn sie sagen nichts über Förderung aus, vielmehr gilt als Basis die individuelle bzw. intraindividuelle „Norm“, d. h., das einzelne Kind, das Individuum ist „Träger dieses Maßstabes“, der Ausgangspunkt schlechthin (Bundschuh 2008, 233 ff.; 2019). Damit soll Diagnostik bei Kindern mit Beeinträchtigungen (besonderen Entwicklungs- und Erziehungsbedürfnissen, special needs) nicht mehr Defizitdiagnostik sein, die sich primär aus dem Vergleich mit anderen Kindern ergibt.

4.2.4.3 Mathematisch-statistische Voraussetzungen für das Verständnis von Normen

Man kann sicherlich nicht verständlich in gebräuchliche Normierungen oder Normen einführen, ohne über einige grundlegende Voraussetzungen zu informieren. Im Zusammenhang mit dieser Information kann es jedoch nicht etwa um Ableitungen von Formeln gehen (dies sind Probleme von Statistikbüchern), vielmehr steht die Kenntnis einiger notwendiger Fakten im Mittelpunkt.

a) Das arithmetische Mittel (der Mittelwert)

Begriffsklärung: Der Mittelwert (Durchschnitt oder arithmetisches Mittel) ist die Zahl, die errechnet wird, wenn man alle Werte addiert und durch die Anzahl der Beobachtungen dividiert.

Liegen Zahlenwerte, z. B. Noten vor, kann man auch wie folgt formulieren: Der Mittelwert ist die Summe aller Einzelwerte dividiert durch die Anzahl der Zahlenwerte.

Erklärung:

x1, x2, x3, … xN = Zahlenwerte

x = Mittelwert

N = Anzahl der Zahlenwerte


Beispiel:

9 Zahlenwerte liegen vor (etwa Noten einer Klassenarbeit): 2, 3, 4, 3, 4, 5, 4, 5, 6;


Bedeutung des Mittelwertes: Möglichkeit der Einschätzung, ob sich ein individuelles Messergebnis (hier: ein individueller Zahlenwert) über oder unter dem Durchschnitt befindet.

Mit dem Mittelwert ist noch nichts darüber ausgesagt, wie weit die Einzelwerte um diesen Mittelwert gestreut sind. Auskunft über die Nähe oder Entfernung zum Mittelwert gibt die Standardabweichung.

b) Die Standardabweichung oder Streuung

Mit Hilfe der Standardabweichung kann die relative Position einzelner Messwerte im Vergleich zur Gesamtverteilung der Messwerte um den Mittelwert besser eingeschätzt werden. Streuen die einzelnen Werte sehr weit um den Mittelwert, wird demnach auch die Standardabweichung größer sein.

Begriffserklärung: Die Standardabweichung (meist mit σ = Sigma oder s bezeichnet) ist gleich der Wurzel aus dem Mittel der Quadrate aller gemeinsamen Abweichungen (= die Wurzel aus dem Durchschnitt der quadrierten Abstände vom Mittelwert).

Es werden also die Abweichungen der einzelnen Werte vom Mittelwert quadriert und dann – ähnlich wie bei der Berechnung des Mittelwertes – gemittelt.

Beispiel:

S. 9 Zahlenwerte oben

(2, 3, 4, 3, 4, 5, 4, 5, 6)


Aus mathematischen Gründen benutzen Statistiker häufig die folgende Formel:


x = 4

(x – x): +2, +1, 0, +1, 0, –1, 0, –1, –2;

(x – x)2: 4, 1, 0, 1, 0, 1, 0, 1, 4;

∑ (x – x)2 = 12


Wenn das Modell der Normalverteilung zutrifft, verteilt sich der Anteil der Zahlenwerte etwa nach den in Abb. 6 aufgeführten Prozentsätzen.

Abb. 6: Normalverteilungskurve mit Standardskala und Flächenanteilen (Kleber 1973, 60)

Einfache Streuung (± 1 σ): 68,28 %

Doppelte Streuung (± 2 σ): 95,46 %

Dreifache Streuung (± 3 σ): 99,74 %

Die fehlenden 0,3 % können das Gesamtbild kaum noch verändern, bleiben damit unberücksichtigt.

Man kann also sagen: zwischen x und x – 1 σ bzw. zwischen x und x + 1 σ liegen je 34,14 %, in dem zweiten Intervall x – σ und x – 2 σ bzw. x + σ und x + 2 σ liegen je 13,59 %; in dem dritten Intervall zwischen x – 2 σ und x – 3 σ bzw. x + 2 σ und x + 3 σ 1iegen je 2,14 % der Verteilung. Wenn wir nicht den Mittelwert x = 0 haben und wenn die Streuung σ nicht = 1 ist, dann sind die Verhältnisse ähnlich.

Bezogen auf Leistungsbereiche bedeutet dies: Der Durchschnittsbereich, der sich auf die Streuungseinheit – 1 σ bis + 1 σ bezieht, hebt die mittleren 68,28 % der Leistungsbreite hervor und bezeichnet damit jede Leistung, die in diesen Bereich fällt, als durchschnittlich, darüber bzw. darunter liegende Leistung als über- bzw. unterdurchschnittlich.

Im Zusammenhang mit der später notwendigen Einschätzung von Testergebnissen anhand von Normenskalen wird noch eine weitere Besonderheit der Normalverteilungskurve (Gaußschen Glockenkurve) bedeutsam. Geht man von den jeweiligen Flächenanteilen aus, so liegen zwischen x + 1,96 σ 95 % aller Anteile (übertragen auf unser Beispiel: aller Messwerte).

In jedem Endstück der Kurve, also außerhalb M ± 1,96 σ liegen je 2,5 % der Werte.

Zwischen M ± 2,58 σ sind 99 % der Werte eingeschlossen. Nur 1 % aller Messwerte weicht vom Mittelwert stärker als M ± 2,58 σ ab. (Da die Messwerte nur ein ungefähres Bild ergeben, stimmt die Aussage nur ungefähr auch für große Stichproben!)

Wie bereits angedeutet, erhalten die Werte 1,96 σ und 2,58 σ für die an anderer Stelle (Kap. 4.2.4.5) folgenden Deutungen statistischer Aussagen eine besondere Wichtigkeit. Diese Beziehungen zeigt die folgende Abbildung auf.


Abb. 7: Normalverteilung und Gaußsche Glockenkurve

c) Die Transformation von Werten

Wir haben bisher gesehen, dass man von verschiedenen Messwerten den Durchschnittswert und die Streuung berechnen kann. Damit hat man zwar ein grobes Maß, um die Messwerte einzuordnen. Diese Durchschnittswerte und Streuungswerte ändern sich jedoch, wenn bei neuen Aufgabenstellungen neue Messwerte vorkommen. Um nun Messwerte und Leistungen vergleichbar zu machen, wurden bestimmte Normenskalen geschaffen, d. h., man kann Mittelwert und Streuungswert festlegen, Leistungen auf diese neuen Werte transponieren und dann die Leistung des jeweiligen Probanden anhand der Leistung der Gruppe, an der der Test normiert wurde, einordnen.

Mit Hilfe einer Formel können wir, falls Normalverteilung vorliegt, jeden Rohwert in einen Standardwert transponieren. Diese Formel lautet:


z = der Standardwert, der bestimmt werden muss

x = der Rohwert (jeweiliger Messwert)

M = das Mittel der Verteilung der Rohwerte (Messwerte) (= x)

s = die Standardabweichung der Verteilung

Merkmale des Standardwertes (z): Er kann definiert werden als der Quotient aus der Differenz der individuellen Abweichung vom Mittelwert, dividiert durch die Standardabweichung (s).

Der Standardwert gibt an, um wie viele Standardabweichungen der Rohwert vom Mittelwert abweicht. Gewöhnlich liegt der Standardwert zwischen –3 und +3. Man kann erwarten, dass etwa 99,9 % aller Werte zwischen –3 und +3 liegen. Liegt ein Rohwert unter dem Mittelwert, wird der Standardwert negativ, liegt er darüber, wird er positiv.

Beispiel für die Funktion des Standardwertes: Erreicht ein Schüler bei einem Schulleistungstest im Fach Deutsch (Rechtschreiben) einen Wert von 60 und in Mathematik einen Wert von 9, so kann man diese beiden Ergebnisse nicht ohne ein gemeinsames Maß vergleichen. Wenn man die Werte in Einheiten der Standardabweichung umgewandelt hat, kann die Standardabweichung zum gemeinsamen Maß werden und einen Vergleich ermöglichen. Beträgt das Mittel der Ergebnisse im Rechtschreiben 55 und die Standardabweichung 5, so ergibt sich der folgende z-Wert von + 1.


Geht man im Mathematiktest von einem Mittelwert von 6 und einer Standardabweichung von 1,5 aus, so ergibt sich mit dem Rohwert von 9 ein z-Wert von +2.


Jetzt kann man sagen, dass der Schüler die mittlere Leistung seiner Klasse im Rechtschreibtest um 1 Standardabweichung und die mittlere Mathematikleistung um 2 Standardabweichungen übertrifft. Im Gegensatz zu den numerischen Rohwerten in beiden Untertests ist die Überlegenheit des Schülers im Vergleich zu den übrigen Schülern seiner Klasse im Fach Mathematik größer.

Übungsbeispiele: Bestimmen Sie den z-Wert dieser beiden Fälle! Welcher Schüler war innerhalb seiner eigenen Gruppe besser?


RohwerteMsz
Horst756510____
Otto706007____

4.2.4.4 Gebräuchliche Normenskalen

Es wurde bereits dargestellt, dass ein Individualergebnis nur dann sinnvoll wird, wenn es mit den Testergebnissen der Population, welcher der Proband angehört, verglichen werden kann.

Rohwerte oder Messwerte können transponiert werden in verschiedene Normenskalen. Hierzu bedarf es der Kenntnis des neuen Mittelwertes und der jeweiligen Standardabweichung.

Mit Hilfe der Formel wird die Umrechnung möglich.

Die gebräuchlichsten Normenskalen sind:

1. Standardnormen: Diese Normen gehen auf die z-Werte der sogenannten Standardnormalverteilung zurück.

z-Skala definiert durch M = 0 und Streuung von s = 1; Werte zwischen –3 und +3 treten in der Regel auf.


Diese z-Werte werden in der Regel wegen ihrer Unhandlichkeit (man muss mit positiven und negativen Dezimalzahlen arbeiten) nur als Zwischenmaße verwendet.

Durch eine lineare Transformation (d. h. die Verteilungsform bleibt an sich unverändert) erhält man

Z- oder Standardwerte (SW): Die SW haben einen Mittelwert von 100 und eine Streuung von ssw = 10. Sie gehen aus den z-Werten hervor durch die Umrechnung SW = 100 + 10z. Die dadurch erreichte Skala reicht normalerweise von 70–130. Die SWe sind nur anwendbar, wenn die Rohwertverteilung bereits annähernd normal war.

Ähnlich ist es bei der IQ-Skala: Sie kann als Abweichungsskala durch einen Mittelwert von 100 und eine Streuung von SIQ = + 15 definiert werden. Die Umrechnung geschieht wie folgt:

IQ = 100 + 15z

2. Standard-Äquivalent-Normen: Die bekannteste und gebräuchlichste Skala dieser Art ist die T-Wert-Skala. Sie hat einen Mittelwert von T = 50 und eine Streuung von ST = 10. Die T-Wert-Skala findet sich in sehr vielen Testverfahren, vor allem aber in Schultests. Man rechnet wie folgt um:

T = 50 + 10z

Die Skala reicht damit normalerweise von 20–80.

3. Prozentrangnormen: Bei der Anwendung dieser Normen müssen die Werte nicht normal verteilt sein, es handelt sich mehr um eine Grobnormierung. Im Prinzip wird nur gefragt, wie viel Prozent aller Schüler oder Probanden eine gleich gute oder schlechtere Leistung erreicht haben als der zu beurteilende Schüler. Diese Normen sind von der Theorie her relativ problemlos, in der Praxis können sie leicht ermittelt werden.

Geht man von einer Fläche, die 100 % darstellen soll, aus, so werden Prozentrangnormen gewonnen durch fortlaufende Summation der durch die Rohwerte repräsentierten Flächenstücke, wobei die Teilflächen jeweils in Prozenten der Gesamtfläche ausgedrückt werden. Man addiert also fortlaufend die durch die Rohwerte dargestellten Einzelergebnisse. Sie werden dann im Vergleich mit dem Gesamtergebnis ausgedrückt. Man spricht auch von „kumulierten Häufigkeiten“.


Die Berechnung von Prozentrangnormen wird an einem Beispiel aufgezeigt.

Fragestellung: Wie verteilen sich die Testzahlen einer Gedächtnisprüfung bei N = 85 Schülern einer bestimmten Schule? Messzahl für jedes untersuchte Individuum ist die Anzahl der gemerkten Wörter aus einer Liste von 25 Wörtern, die ihm dreimal vorgelesen wurde.

Lösung: Zunächst erfolgt die Feststellung der Häufigkeitsverteilung, es wird also ausgedrückt, wie oft jede Messzahl vorkommt; dann die Ordnung der Häufigkeiten und die Berechnung der Prozentränge (Tab. 2).

Der Prozentrang z. B. eines Schülers gibt also an, welcher Prozentsatz der Schüler in der Vergleichsgruppe eine gleich gute oder schlechtere Leistung erreicht hat als der betreffende Schüler. So bedeutet der Prozentrang 70, dass 70 % der Schüler in der Vergleichsgruppe schlechtere Leistungen aufweisen, während 30 % bessere Leistungen erreichten als der angesprochene Schüler.

Vorteile von Prozentrangnormen: Anschaulichkeit und Geläufigkeit dieser Normierung. Es müssen keinerlei Voraussetzungen bezüglich der Verteilungsform der Rohpunkte gegeben sein.

Nachteile von Prozentrangnormen: Gleiche numerische Prozentrangunterschiede in den verschiedenen Skalenbereichen bezeichnen unterschiedliche Leistungsdifferenzen, und zwar sind an den Enden der Skala dieselben Prozentrangdifferenzen weit bedeutungsvoller als gegen die Skalenmitte zu. Der Leistungsunterschied zwischen PR 40 und 50 z. B. ist wesentlich geringer als zwischen 85 und 95. Die Rangordnung ermöglicht keine genaue Angabe über die Größe des Leistungsabstandes. Daher dürfen Prozentränge nicht addiert und aus ihnen keine arithmetischen Mittelwerte berechnet werden.

Tab. 3: Entnommen aus: Mittenecker 1970, 7–11



PR = Prozentrang

f cum = die Anzahl der Schüler, die kleinere oder gleich gute Leistungen erbracht haben.

Übungsbeispiel zur Umrechnung eines Rohwertes in verschiedene Normenskalen. (Es wird angenommen, dass die Bedingungen für die Skalen gegeben sind.): In einem Test erreicht ein Schüler einen Rohwert von 88. Wir wissen, dass M = 66,38 und s = 26,54 beträgt.

z-Skala:


Z- oder Standardwertskala (SW):

(z = 0,81) SW = 100 + 10 z = 100 + 8,1 = 108

IQ-Skala:

IQ = 100 + 15 z = 100 + 15 × 0,81 =100 + 12,15 = 112,15

C-Skala:

C = 5 + 2 z = 5 + 2 × 0,81 = 6,62

T-Wert-Skala:

T = 50 + 10 z = 50 + 8,1 = 58,1


Abb. 8: Übersicht über verschiedene Normenskalen

Die jeweiligen Ergebnisse entsprechen einem Prozentrang (PR) von ca. 79. (Vgl. auch die Ergebnisse der verschiedenen Skalen mit den Abb. 7 u. 8.)

Die primäre Kritik an der Messung von Persönlichkeitseigenschaften, Fähigkeiten, Verhaltensweisen wie Intelligenz, Angst, Konzentration, Gedächtnis, Motivation … bezieht sich darauf, dass

– psychische Qualitäten wie physikalische Messwerte behandelt werden; eigentlich geht es um hypothetische Konstrukte,

– durch statistische Konstruktion Normalverteilung geschaffen wird,

– kaum wissenschaftlich exakt zu definierende Persönlichkeitsmerkmale / -eigenschaften wie z. B. Intelligenz im Verhalten bzw. in welchem Verhalten repräsentiert werden,

– dann noch eine Repräsentation in Testaufgaben oder Items erfolgen kann,

– sich solche Ergebnisse in einer „Normalverteilungskurve“ darstellen lassen,

– die Gefahr besteht, dass Ergebnisse – auf einer Normenskala abgebildet – auch Wertungen implizieren und Menschen mit Behinderungen / Abweichungen negativ bzw. defizitär beschrieben werden.

4.2.4.5 Standardmessfehler und Vertrauensbereiche

An sich würde es an dieser Stelle genügen anzuführen, welche Bedeutung den Begriffen „Standardmessfehler“ und „Vertrauensbereich“ zukommt. Nachdem jedoch nicht in allen gebräuchlichen Testverfahren exakte Angaben über die genannten Größen zu finden sind, ergibt sich die Notwendigkeit, auch in kurzer Form anhand von Erklärungen und Beispielen in die entsprechenden Berechnungen einzuführen.

Erklärung: Im Zusammenhang mit der Besprechung der Gütekriterien Objektivität, Zuverlässigkeit und Gültigkeit wurde deutlich, dass Testergebnisse nicht als absolut richtig (zuverlässig) hingenommen werden dürfen, vielmehr muss man davon ausgehen, dass jedes Testergebnis mit gewissen Fehlern (Messfehlern) behaftet sein kann.

Messfehler können sich ergeben aufgrund der Besonderheit eines Merkmals (Intelligenz, Konzentration, Angst …) bei einzelnen Individuen, sie könnten auch hervorgehen aus der Testsituation (Raum, Test-material, Störungen aus der Umwelt …) und durch den Testleiter selbst (falsche Handhabung, ungenaue Arbeitsweise …). Solche Fehler gehen in die Testleistung ein, sie beeinflussen sie. Man kann demnach folgern, dass sich Testergebnisse zusammensetzen aus dem tatsächlichen Ergebnis und aus einem Fehleranteil.

Die Höhe des Fehleranteils steht in hohem Maße mit der Zuverlässigkeit eines Testverfahrens in Zusammenhang. Man kann also sagen, dass die Wahrscheinlichkeit für Fehler umso größer ist, je niedriger die Zuverlässigkeit eines Tests ist.


Abb. 9: Die Transformation von Testnormen. Entnommen aus: Lienert 1998, 410

Durch die Berechnung des „Standardmessfehlers“ wird es möglich, von jedem Test- oder Leistungswert eines Probanden den Bereich zu bestimmen, in dem der „wahre“ Leistungswert zu erwarten ist. Der Standardmessfehler dient als Unsicherheitsmaß für individuelle Testpunktwerte.

Funktion des Standardmessfehlers: Mit seiner Hilfe kann die Genauigkeit eines Testergebnisses abgeschätzt werden.

1. Man kann berechnen, in welchem Bereich um den mittels Test erreichten Wert der „wahre Leistungswert“ liegt. Dieser Bereich wird in der Fachsprache „Vertrauensbereich“ (Vertrauensintervall Konfidenzintervall) genannt. (Angenommenes Beispiel: Testwert IQ = 88; Standardmessfehler ±7 IQ-Punkte; wir vermuten den „wahren Testwert“ zwischen den Werten 81 und 95.) Die Wahrscheinlichkeit, mit welcher der „wahre Testwert“ außerhalb des Vertrauensbereiches liegt, bezeichnet man als „Irrtumswahrscheinlichkeit“ oder „Signifikanzniveau“. Die Irrtumswahrscheinlichkeit wird in Prozenten ausgedrückt. Sie beträgt manchmal 32 %, sollte bei 5 %, im günstigsten Falle bei 1 % liegen.

2. Man kann mittels Berechnung zu einer Aussage darüber kommen, ob zwei Probanden, die verschiedene Testwerte erreichten, sich auch in ihren „wahren“ Testwerten unterscheiden oder ob die Unterschiede etwa nur scheinbar vorliegen, also von einem „zufälligen“ Fehler abhängen, der auf einen Messfehler zurückgeht.

Man bezeichnet den Mindestunterschied, den zwei Testwerte zeigen müssen, damit die wahren Werte von zwei Probanden (bei einer vorgegebenen Irrtumswahrscheinlichkeit) als tatsächlich voneinander verschieden bezeichnet werden dürfen, als „kritische Differenz“.

3. Könnte man aussagen, ob sich die Testergebnisse eines Probanden in zwei oder mehreren Tests mit unterschiedlichen Gültigkeitswerten nicht nur zufällig, sondern „tatsächlich“ unterscheiden.

Fehlen in Testhandbüchern die Angaben über den Standardmessfehler, kann man ihn aufgrund der Testzuverlässigkeit nach der folgenden Formel berechnen:


In dieser Formel bedeuten: se = Standardmessfehler

st = Standardabweichung

rtt = Zuverlässigkeitskoeffizient

Übungsbeispiel zur Berechnung des Standardmessfehlers: Ein Proband erreicht in einem Intelligenztest einen IQ von 88. Der Intelligenztest hat einen Zuverlässigkeitskoeffizienten von rtt = 0,91 und eine Streuung (st) von 15. In welchem IQ-Bereich ist der wahre Wert des Probanden zu erwarten, wenn man mit 68 %iger Sicherheit eine Aussage machen möchte?


Mit 68 %iger Sicherheit erwarten wir den wahren Wert des Probanden im IQ-Bereich 83 bis 93.

Bei einer Sicherheitswahrscheinlichkeit von 68 % (oder einer Irrtumswahrscheinlichkeit von 32 %) gesteht man sich als Testleiter zu, dass man sich in 100 Fällen 32mal irren darf.


Abb. 10: Abgesicherter Bereich einer Wahrscheinlichkeitsaussage bei Verwendung des Standardmessfehlers als Vertrauensbereichsintervallwert (C).

Im Zusammenhang mit der Bedeutung von Entscheidungen im sonderpädagogischen Bereich sollte man auf strengere Maßstäbe achten. Man muss sich bemühen, höchstens eine Irrtumswahrscheinlichkeit von 5 % zuzulassen, d. h., die Testinterpretation sollte auf einem kritischen z-Wert von 1,96 (es werden dabei 95 % der Wahrscheinlichkeitskurve abgedeckt) basieren. In diesem Zusammenhang errechnet sich der Vertrauensbereichsintervall (C) wie folgt:

Ücretsiz ön izlemeyi tamamladınız.