Kitabı oku: «Lehrwerksintegrierte Lernvideos als innovatives Unterrichtsmedium im fremdsprachlichen Anfangsunterricht (Französisch/Spanisch)», sayfa 3
2.3 Onlineressourcen statt DVDs – ein künftiger Trend?
Seit der letzten Jahrhundertwende hat sich technisch einiges verändert. Während der Anfang der 1990er Jahre noch voll und ganz der Kommerzialisierung des World Wide Web verschrieben war, verkörpert das Web 2.0 gegenwärtig ganz im Gegensatz zu den Anfangsjahren ein neues Internetverständnis, das seine Nutzer sowohl zur aktiven Interaktion, Kommunikation als auch zum Daten- und Informationsaustausch befähigt, ohne dabei fachspezifische Computerkenntnisse abzuverlangen. Folglich gelten neben „Wikis [und] Weblogs […] [mittlerweile ebenso] Bild- und Videoportale“ als klassische Beispiele der netzbasierten Mitgestaltung (Grünewald 2011, 5). Unabhängig davon, wo man sich gerade befindet, erlauben jene Internetportale den direkten Zugriff und das Abspielen (audio-)visueller Inhalte.1 Diese Dienste werden jedoch nicht nur von Privatpersonen genutzt. Auch Schulbuchverlage machen sich die Möglichkeiten des Internets zu Nutze, indem sie das Speichermedium DVD zu Gunsten einer Speicherung im Web ersetzen oder parallel anbieten.
Zwar sind die Inhalte der Lernvideos innerhalb des Schulbuchsektors bisher nur vereinzelt und keineswegs flächendeckend online verfügbar, das Angebot außerhalb des Schulbuchsektors zeigt jedoch, dass das Web zum gegenwärtigen Zeitpunkt ein äußerst verlockendes und vielversprechendes Medium zur Speicherung audiovisueller Inhalte darstellt (cf. Kap. 6.1.2; cf. Kap. 6.3.4.3). Dies gilt sowohl für fremdsprachliche Lernvideos als auch für sogenannte Erklärfilme (auch: Tutorials), die Schülern in Ergänzung zum Unterricht grammatikalische Themen anschaulich erklären. Letztgenannte werden seit dem Jahr 2015 auch von Schulbuchverlagen bereit gestellt (e.g. Erklärfilme zu Déc série jaune)2. Grund hierfür ist nicht allein die Tatsache, dass die Inhalte jederzeit und von überall durch nur einen Mausklick oder aber das Scannen eines QR-Barcodes aufgerufen werden können.3 Womöglich könnten sogar Produktions- und Anschaffungskosten reduziert werden. Es bleibt also abzuwarten, wie sich die Frage nach dem Speichermedium in den kommenden Jahren entwickeln wird.
3 Mentale Prozesse bei der Rezeption und Verarbeitung audiovisueller Daten
Das Medium Film hat in der Vergangenheit nur zögerlich Einzug in das fremdsprachliche Klassenzimmer gehalten. Gründe für dieses eher marginale Dasein liegen nicht zuletzt in den damit verbundenen Schwierigkeiten und Herausforderungen, die es zu überwinden und zu meistern gilt. Die anfängliche Zurückhaltung geht oft mit der Befürchtung einher, dass viele Personen mit der Bilderflut der Massenmedien kognitiv überfordert sind und in der Masse der Informationen ertrinken. Dabei ist nicht die Menge an Informationen das Problem, „sondern der effektive Umgang damit“ (Ballsteadt 2004, 12).
Bei der Rezeption audiovisueller Daten im Klassenzimmer wird der Lernende sowohl mit visuellen als auch mit verbalen Informationen konfrontiert. Unabhängig davon, wie gut das zu Grunde liegende audiovisuelle Medium ist, so ist sein Einsatz erst dann effektiv, wenn „[…] sich der Lehrer über sein Ziel, d.h. über kognitive, affektive und psychomotorische Lernziele […]“ bewusst ist (Spreitzer 1977, 117). Folglich fordert die audiovisuelle Rezeptionsdidaktik nicht nur Kenntnisse über medienimmanente Zusammenhänge (cf. Schludermann 1981, 117), sondern ebenso über die Rezeption und Verarbeitung audiovisueller Daten. Das Wissen des Lehrers über diesbezügliche mentale Prozesse stellt daher eine wichtige Grundlage für die systematische Erarbeitung von Übungsformen dar, um Schüler in ihrem Hör-Seh-Verstehen zu schulen. In diesem Sinne zielt das vorliegende Kapitel darauf ab, einen Einblick in lernpsychologische Aspekte zu ermöglichen und auf dieser Basis adäquate Übungsstrategien hinsichtlich audiovisueller Datenverarbeitung vorzustellen.
3.1 Audiovisuelle Informationsverarbeitung
Bei der Ausstrahlung audiovisueller Dokumente findet eine Informationsübertragung mittels verschiedener Sinneskanäle statt: dem visuellen und dem akustischen. Anders als bei realen Kommunikationssituationen können Sender und Empfänger audiovisueller Inhalte einander in ihren Aussagen und ihrem Sprechtempo nicht beeinflussen. Ein Eingriff in die präsentierten Inhalte ist nicht möglich, weswegen die Informationsaufnahme einseitig durch den Rezipienten stattfindet. Da es sich um eine sogenannte Einwegkommunikation handelt, besteht die Aufgabe und Leistung des Hör-Sehenden zum Zeitpunkt der audiovisuellen Rezeption darin,
informative Signale, die ihm über mehrere Sinneskanäle zugeführt werden, und die zudem ganz unterschiedlichen semiotischen Systemen angehören, auf[zu]nehmen und zu sinnvollen Bewusstseinsinhalten [zu] verschmelzen (Scherer 1984, 20).
Man spricht hierbei allgemein auch von multimodaler Sprachverarbeitung, da der mentale Apparat aus verschiedenen sensorischen Modulen besteht: dem visuellen, auditiven, gustatorischen, taktilen und olfaktorischen Modul (cf. Ballstaedt 1988, 7). Die erfolgreiche Verarbeitung der wahrgenommenen Stimuli ist abhängig von dem Zusammenspiel verschiedener psychologischer, physiologischer und physikalischer Faktoren, die in gegenseitiger Wechselwirkung zueinander stehen und zu einer einheitlichen Wahrnehmung beitragen. Die zu Grunde liegenden Verarbeitungsprozesse sind allerdings derart komplex, dass insbesondere die Frage nach dem Integrationsmechanismus „auditiver und visueller sprachlicher Information […] bisher noch nicht ausreichend geklärt“ ist (Schmid 2007, 24).
Um etwaige Verarbeitungsmechanismen besser zu verstehen und die verschiedenen Areale modalitätsspezifischer Verarbeitung zu lokalisieren, lohnt sich ein Blick in den Aufbau des menschlichen Gehirns: Demnach werden visuelle Reize im Okzipitallappen des Cortex (d.h. im hintersten Teil des Großhirns) verarbeitet, wohingegen empfangene auditive Signale in den Temporallappen (d.h. in den laterobasalen Teil des Großhirns) und taktile Informationen in den Parietallappen (auch: Schläfenlappen, d.h. in den mittleren/oberen Teil des Großhirns) geleitet werden.1
Visuelle Daten werden verarbeitet, indem das Auge optische Reize in Form von einfallenden Lichtstrahlen aufnimmt. Diese werden bei Eintreten in das Auge mehrfach gebrochen und erzeugen bei einem emmetropen (normalsichtigen) Auge eine verkleinerte und umgekehrte Projektion des betrachteten Objekts auf der Netzhaut (Retina). Dort werden die optischen Informationen durch die Photosensoren (Stäbchen und Zapfen für Dämmerungs- bzw. Farbsehen) in Nervenimpulse umgewandelt und über den Sehnerven (Nervus opticus) zum Gehirn weitergeleitet (cf. Silbernagl/Despopoulos 2012, 366sq.)
Die Verarbeitung auditiver Daten erfolgt hingegen durch die Aufnahme von Schallwellen über die Ohrmuschel in den Gehörgang, wo diese über das Trommelfell und im Mittelohr über die drei Gehörknöchelchen (Hammer, Amboss, Steigbügel) an die im Innenohr gelegene Cochlea (Ohrschnecke) weitergeleitet werden. Dies führt zu einer Aktivierung der dortigen Hörsinneszellen und Entstehung von Nervenimpulsen, die über den Hörnerven (Nervus vestibulocochlearis) zum auditiven Cortex gelangen (cf. ibid. 387sqq.).
Die sensorischen Module treffen in einem übergeordneten zentralen amodalen System zusammen, das die wesentlichen verbalen und nonverbalen Informationen mit bereits vorhandenen Konzepten abgleicht und weiterverarbeitet bzw. neue Konzepte aktiviert und in Form nichtsprachlicher Schemata organisiert (cf. Ballstaedt 1988, 10). Dieses befindet sich vermutlich in dem Bereich zwischen dem visuellen, dem auditiven und dem taktilen Verarbeitungsmodul (cf. Abb. 4).
Abb. 4: Areale modalitätsspezifischer Verarbeitung im menschlichen Gehirn (Schünke/Schulte/Schumacher 2006, 378)
Neuroanatomischen Erkenntnissen zufolge geht man weiter davon aus, dass der Gyrus angularis „die Eingänge vom visuellen, akustischen und somatosensorischen Cortex [koordiniert] und […] die Wernicke-Region [beeinflusst]“ (Schünke/Schulte/Schumacher 2006, 381). Die Wernicke-Region ist für das Sprachverständnis zuständig und steht in direkter Verbindung zur Broca-Region, die für die Sprachproduktion verantwortlich ist. Beide Sprachzentren befinden sich normalerweise in der linken Hemisphäre des Gehirns und „sind durch den Fasciculus longitudinalis superior (=arcuatus) [sic] miteinander verbunden“ (ibid.) (cf. Abb. 5). Im Hinblick auf die Sprachverarbeitung geben aktuelle Studien zudem Hinweise darauf, dass sich die neuronale Aktivierung bei der Erst- (L1) und Zweitsprache (L2) teilweise voneinander unterscheidet. Dies gilt nach dem heutigen Kenntnisstand zwar nur für gewisse Teilfunktionen, könnte für die Schulung des fremdsprachlichen Hör-Seh-Verstehens aber dennoch von Bedeutung sein (cf. Mueller/Rüschemeyer/Friederici 2006, 182).
Abb. 5: Sprachregionen der normalerweise dominant linken Hemisphäre des menschlichen Gehirns (Schünke/Schulte/Schumacher 2006, 381)
Obgleich die neuronale Verarbeitung audiovisueller Stimuli – auch im Hinblick auf das fremdsprachliche Hör-Seh-Verstehen – weiterer Forschung bedarf, haben sich innerhalb der Fachdiskussion verschiedene Theorien der audiovisuellen Informationsverarbeitung herausgebildet, deren Modelle im Folgenden kurz skizziert werden. Eine ausführliche und detaillierte Gegenüberstellung kann an dieser Stelle nicht geleistet werden. Bei den Grundmodellen handelt es sich um ein dualistisches, ein monistisches sowie ein alternatives Modell der audiovisuellen Informationsverarbeitung. Allen Ansätzen ist gemein, dass sie von einem 3-Stufen-System ausgehen. Die erste Stufe beschreibt periphere Prozesse und Repräsentationen, bei der die Informationen modalitätsspezifisch aufgenommen und getrennt voneinander verarbeitet werden. Unterschiede bestehen zwischen den Modellen erst ab Stufe zwei, der Phase der repräsentationalen Informationsverarbeitung. Während Vertreter der dualistischen Theorie (e.g. Paivio) annehmen, dass eine Interaktion der Kanäle erst bei der referenziellen Informationsverarbeitung in Stufe drei stattfindet, gehen Vertreter des monistischen Modells von der Speicherung beider Sinnesmodalitäten in nur einem System aus (auch: amodales System).
Demgegenüber steht das sogenannte alternative Modell, bei dem (in Übereinstimmung mit der dualen Theorie nach Paivio) von einem „eigenständigen Repräsentationssystem für akustische und visuelle Prototypen“ (Gilmozzi 2002, 156) ausgegangen wird, bei dem Wort- und Bildstimuli im Zuge zentraler Prozesse (Stufe 2) zwar gemäß ihrer Modalität verarbeitet werden, jedoch durchaus miteinander in Verbindung treten können. Das Modell stellt somit einen Kompromiss zwischen der dualen und der monistischen Theorie dar (cf. Stachelscheid/Testrut 1997, 37). Es findet Unterstützung durch jüngste wissenschaftliche Erkenntnisse (cf. Abb. 6).
(S)= Sprachliche Information, (B)= Bildliche Information
Abb. 6: Drei Grundmodelle audiovisueller Informationsverarbeitung modifiziert nach Stachelscheid/Testrut (1997, 37)
Unter Berücksichtigung der konzeptuellen Nähe zwischen eingegangenen und vorhandenen Informationen unterscheidet Ballstaedt ferner zwischen drei Arten audiovisueller Integration, deren Verarbeitung an das jeweils vorliegende Verhältnis zwischen Text und Bild anschließt und über die Komplexität der geforderten Denkleistungen bestimmt. Diese umfassen Integration durch (1) Redundanz, (2) Komplementarität und (3) Inferenz.
Während bei redundanten Text-Bild-Beziehungen eine Aktivierung über das gleiche Konzept erfolgt, setzt die Integration durch Komplementarität voraus, dass mittels Text und Bild zwar unterschiedliche Konzepte angeregt werden, diese jedoch zueinander in Verbindung stehen und sich zu einer Botschaft ergänzen. Bei der Integration durch Inferenz findet die Integration hingegen erst durch die Aktivierung unterschiedlicher Konzepte im amodalen System statt, aus denen dann Schlussfolgerungen gezogen werden können. Bei den genannten Integrationsarten ist zu berücksichtigen, dass sie mit jeweils unterschiedlichem Vorwissen und einem unterschiedlichen Maß an Verarbeitungsaufwand verbunden sind, zumal inferente Text-Bild-Beziehungen weitaus komplexer sind als bei vorliegender Redundanz oder Komplementarität (cf. Ballstaedt 1988, 10sqq.).
Prinzipiell bedeutet der Einsatz audiovisueller Medien eine erhöhte Informationsdichte und folglich eine komplexere Verarbeitung gegenüber der einkanaligen Informationsaufnahme. Um der Gefahr einer Überforderung entgegenzuwirken, greift das menschliche Gehirn auf verschiedene Strategien zur Selektion von Informationen zurück, dank derer wir trotz Informationsfülle handlungsfähig bleiben (cf. ibid. 21sq.). Diese werden nachstehend erläutert.
3.2 Wahrnehmung als komplexer Prozess: Selektionsmechanismen und Aufmerksamkeitslenkung
In Ergänzung zu den Überlegungen des vorangehenden Kapitels geht die kognitive Theorie des multimedialen Lernens nach Mayer (2001, 43) davon aus, dass die Rezeption und Verknüpfung audiovisueller Inhalte dreierlei Maximen unterliegen. Diese umfassen die Prinzipien der dualen Kodierung, die eines begrenzten Arbeitsspeichers und die der aktiven Informationsverarbeitung.
Mayers Theorie basiert auf der Annahme, dass sprachliche und bildliche Informationen gemäß ihrer Sinnesmodalität automatisch getrennt voneinander aufgenommen werden, wobei Wörter im Gegensatz zu Bildern sowohl über die Augen als auch über die Ohren wahrgenommen werden können. Folglich können die Sinneskanäle durchaus interagieren. Dies ist etwa der Fall bei in Bildern oder Filmen auftauchenden Schriftzügen, deren Repräsentation zunächst anhand des visuellen und schließlich anhand des auditiven Kanals erfolgt. Gleiches gilt für erfahrene Lerner bei der mentalen akustischen Artikulation visueller Reize und vice versa.
In diesem Zusammenhang spielt die begrenzte Kapazität des menschlichen Arbeitsspeichers eine wichtige Rolle. Mit Verweis auf die cognitive load theory schreiben Wissenschaftler wie Baddeley, Chandler und Sweller unserem Gehirn ein limitiertes Maximum an Informationsverarbeitung pro Sinneskanal zu. Infolgedessen werden die eingegangenen Informationen einer Selektion unterzogen. Bei der Selektion handelt es sich um einen aktiven Prozess, bei dem relevante Informationen herausgefiltert werden. Der Abgleich und die Organisation bereits vorhandener bzw. gespeicherter Informationen mit neuen Reizen mündet in der Integration bildlicher und sprachlicher Konzepte. Ziel ist die mentale Repräsentation und Konstruktion kohärenter Sinneinheiten unter Rückgriff auf Informationen aus dem Langzeitgedächtnis. Sie gelten als Voraussetzung für erfolgreiches Lernen (cf. Mayer 2001, 46sqq.).
Die beschriebenen Vorgänge können dem von Mayer (2001, 44) entwickelten Modell zur kognitiven Theorie multimedialen Lernens, ebenfalls bekannt als S-O-I Modell (Selection – Organization – Integration), nachempfunden werden (cf. Abb. 7). Sie wiederholen sich viele Male während der Rezeption audiovisueller Medien.
Abb. 7: Theorie multimedialen Lernens nach Mayer (2001, 44)
Dass es sich bei der Wahrnehmung um einen komplexen und produktiven Prozess handelt, liegt nicht zuletzt darin begründet, dass höhere Verarbeitungsprozesse in Form von Korrekturmechanismen vermutlich versuchen, Merkmale und Eigenschaften, die bei der visuellen Informationsübertragung verloren gingen oder verändert wurden, nachträglich wiederherzustellen. Dies hängt zum einem mit der eigenen physischen Raumposition und Schwerkraftwirkung zusammen, zum anderen mit der Informationsübertragung auf das Netzhautbild (cf. Kebeck 1994, 164).
Fest steht, dass gerade bei der Wahrnehmung uneindeutiger Reizvorlagen (wie etwa einer unleserlichen Handschrift) der unmittelbar gegebene Kontext eine entscheidende Rolle für die Interpretation spielt. Aber auch sonst haben unser Vorwissen bzw. unsere gewohnte Kontexterwartung und -erfahrung einen erheblichen Einfluss auf unsere Wahrnehmung. Hintergrund ist der, dass wahrgenommene Bildinformationen Hypothesen stimulieren, die mit unseren bisherigen Erfahrungen abgeglichen werden, sodass aus den visuellen Reizen schließlich plausible Schlüsse gezogen werden können.
Dies führt sogar so weit, dass fehlende oder fehlerhafte Elemente des Bildinhalts vom Gedächtnis durch Kontextwissen ergänzt, vernachlässigt oder übergangen werden. Die visuelle Datenverarbeitung unterliegt demzufolge neben der Korrektur auch der Selektion und kognitiven Prozessen der Interpretation (cf. ibid. 196sqq.). Besonders deutlich werden die genannten Korrekturmechanismen bei optischen Täuschungen. Betrachtet man die folgende Abbildung, ist unklar, wie viele Beine der dargestellte Elefant hat, obwohl der Rückgriff auf unser Weltwissen eine klare Anzahl an Beinen vorsieht (cf. Abb. 8).
Abb. 8: Optische Täuschung: Wie viele Beine hat der Elefant? (Mißfeldt 2012, http://www.sehtestbilder.de/optische-taeuschungen-illusionen/, 20.3.2013)
Ein erfolgreiches Dekodieren und Interpretieren visueller Reize setzt gleichermaßen voraus, dass bei informationsreduzierten Bildern ausreichend charakteristische Merkmale erkennbar sind, anhand derer auf das Ganze geschlossen werden kann. Im Gegensatz dazu werden bei visueller Reizüberflutung in der Regel nur die Elemente gespeichert, die dem Betrachter interessant und neuartig erscheinen. Aufmerksamkeitserregend sind daher vor allem ungewöhnliche Montagen aus Bildern und/oder Texten, die ihrem herkömmlichen Kontext entrissen wurden, aber dennoch einen Bezug zur eigenen Lebenswelt aufweisen (cf. Sass 2007, 6).
Das Erstellen ungewöhnlicher und irrealer Bildkompositionen ist insbesondere durch Computerprogramme möglich. Oftmals wirkt das Endprodukt so authentisch, dass unklar ist, ob wir unseren Augen trauen können oder ob ihnen ein Streich gespielt wird. Dies gilt für Standbilder, aber auch für animierte Videoproduktionen (cf. Abb. 9).
Abb. 9: Wolkenreiter (N.N.)
Etwaige Techniken der Bildverarbeitung und -manipulation werden insbesondere in der Werbung angewandt, um die Blicke der Zuschauer zu gewinnen. Dabei handelt es sich um ständig wechselnde Reize, wie etwa häufige Schnitte, spezielle Kameratechniken und dynamische Darstellungen seitens der Akteure, die unseren Orientierungsreflex maßgeblich steuern. Im Vergleich zu Texten und Bildern „zeichnet sich […] nur das Filmverstehen durch ein Maximum an Verstehensökonomie und gleichzeitiger Reizabwechslung aus“ (Weidenmann 1988, 94). Die Verarbeitung gemäß dem Prinzip des geringsten Aufwandes ergibt sich aus dem hohen Grad an Stimulation, dem unsere Wahrnehmung ausgesetzt ist.
Für unser Gehirn stellen die genannten Korrektur- und Selektionsmechanismen kaum eine Herausforderung dar, vielmehr ist das Gegenteil der Fall: „das [konzeptgesteuerte] Zusammenspiel von Bildfragmentierung und Bildergänzung gehört für uns zur Routine visueller Alltagskommunikationen“ (Schrader 1998, 32).
Ähnliches gilt für den bei Film und Video parallel zum Sehverstehen stattfindenden Hörprozess. So erfolgt die Bedeutungskonstruktion des Gehörten ebenso durch datengesteuerte top-down und konzeptgesteuerte bottom-up Prozesse. Ihr Zusammenspiel charakterisiert sich zum einen durch den Rückgriff auf Vorwissen und den situativ gegebenen Kontext, zum anderen durch die Analyse und Semantisierung linear abfolgender sprachlicher Signale (cf. Grünewald/Küster 2009, 170).
Hinsichtlich der Aufmerksamkeit des Betrachters wird im Wesentlichen zwischen willkürlicher und unwillkürlicher Aufmerksamkeit unterschieden. Willkürliche Aufmerksamkeit meint das interessengesteuerte intentionale Hinwenden zu Sachverhalten, Themen und Gestaltung, die die Neugierde des Einzelnen wecken. Stoßen wir dagegen auf unerwartete Reize unserer Umwelt, deren Gestaltung durch grelle Farben oder ungewöhnliche Elemente unsere Beachtung findet, ohne dass der Inhalt von persönlichem Belang ist, spricht man von unwillkürlicher Aufmerksamkeit (cf. Sass 2007, 6).
Natürlich kann nicht alles, was wir wahrnehmen, auch aufgenommen, verarbeitet und gespeichert werden. Dementsprechend unterscheidet man in der Fremdsprachendidaktik zwischen dem von außen auf uns einwirkenden Input und dem, was davon verstanden wurde – dem Intake. Bezogen auf das Medium Film umfasst der Begriff des Inputs alle fremdsprachlichen Artikulationen und Beiträge – ungeachtet dessen, ob sie vom Lernenden verstanden wurden oder nicht. Die Bezeichnung Intake beschränkt sich dagegen auf diejenigen Elemente, die vom Rezipienten verstanden wurden und seinen sprachlichen Lernprozess beeinflussen. Bedingt durch die Tatsache, dass selbst kurze Videosequenzen über einen hohen Grad an verbalem sowie nonverbalem Input verfügen, fördert das Zusammenspiel von Bild und Sprache den Übergang vom Input zum tatsächlichen Intake (cf. University of Texas at Austin 2010).