Kitabı oku: «Mensch. Maschine. Kommunikation.», sayfa 12
B Mensch-Maschine-Kommunikation I: Kommunikation mit Robotern
Die Mensch-Roboter-InteraktionInteraktion
Eine Untersuchung zu den präkommunikativen und kommunikativen ErwartungshaltungenErwartungshaltung an einen soziotechnischenTechnik AkteurAkteur
Ilona Straub
1 Vorbemerkungen
In Zeiten der Digitalisierung werden immer mehr Bemühungen angestellt, unseren Alltag zu technologisieren. Neben den Anstrengungen, Smart Technologien in den Bereichen des Wohnens, der Mobilität, des Gesundheitssystems und der IndustrieIndustrie zugänglich zu machen, greift auch in Europa die Tendenz über, den Digitalisierungstrend auf technischTechnik-verkörperte RoboterRoboter als zukünftige Interaktionspartner auszuweiten. Diese ‚sozialen Roboter’Robotersozialer dienen der Simulation von sozialem Kontakt mit Menschen innerhalb alltäglicher Interaktionsszenarien und werden bereits als Prototypen mit der Funktion des ‚social companionship’ in den Bereichen der PflegeRoboterPflege--, Therapie- oder der ServicerobotikRoboterService- eingesetzt (vgl. dazu Knoepfli und Staubli i.d.B.). Das Grundmerkmal von solchen RoboternRoboter, die zur Human Robot Interaction (HRI) entwickelt wurden, besteht in ihrer anthropomorphenantropomorph bzw. zoomorphen Gestaltung (vgl. Takanishi 2007), welche die Chancen für einen vertrauten Umgang zwischen Mensch und RoboterRoboter erhöhen soll.menschenähnlichhumanoidantropomorphRoboter1 Die große Herausforderung in der Entwicklung sozialer RobotikRobotik besteht deshalb darin, RoboterRobotersozialer – neben der Passung an widrige Umweltbedingungen – an eine bestehend-vorgegebene Sozialwelt zu adaptieren, die durch mehrstufige ErwartungshaltungenErwartungshaltung gekennzeichnet ist. Diese reichen von einfachen, subjektiven oder emotional gefärbten Erwartungen über intersubjektive Annahmen (d.h. Erwartungserwartungen) bis hin zu gesellschaftlich institutionalisierten, normierten Erwartungshaltungen (d.h. institutionell erwarteten Erwartungserwartungen). Im Folgenden wird zunächst erläutert, was unter dem Terminus ErwartungshaltungeErwartungshaltungn zu verstehen ist, um dann Eigenarten der Erwartungshaltungen in Mensch-Roboter-Interaktionen anhand von empirischen Daten näher zu erörtern.
2 Was sind ErwartungshaltungenErwartungshaltung?
Wenn sich soziale Akteure mit dem Ziel der InteraktionInteraktion begegnen, haben sie Vorstellungen davon, wie die Begegnung größter Wahrscheinlichkeit nach verlaufen wird. Im Alltag haben sich entsprechend Routinen ausgebildet, die es ihnen ermöglichen, den Verlauf eines Gesprächs einschätzen zu können. So ist es wahrscheinlich, dass mein Gesprächspartner mich anblickt, wenn wir zu einem gemeinsamen Termin aufeinandertreffen, und dass er mich (winkend, mit Handschlag oder mit einer Floskel) begrüßt, sobald wir in das Wahrnehmungsfeld des jeweils anderen geraten. Solche persönlich-gefärbten, intersubjektiv geteilten oder gesellschaftlich institutionalisierten Routinen führen zu ErwartungshaltungenErwartungshaltung, die handlungsanleitend und stabilisierend gegen Unsicherheiten und Unwahrscheinlichkeiten von Kommunikation wirken (vgl. Luhmann 1984). Beispielsweise wird mein Gegenüber davon ausgehen, dass ich ihn zurückgrüße und nicht an ihm vorbeigehe, wenn er mich anspricht. Dieser wechselseitige Einbezug der Anschlussaktionen des Selbst an die Handlungen des Anderen wird als ErwartungserwartungErwartungshaltung bezeichnet. Sie dient dazu, die Unabwägbarkeiten der folgenden Aktionen einzudämmen und das eigene Handeln an den erwarteten ErwartungenErwartungshaltung zu orientieren.1 In dieser wechselseitigen Erwartungserwartung richtet jeweils das Selbst (das Ego) sein Verhalten danach aus, welche Erwartungshaltung sein Interaktionspartner (das Alter Ego) ihm gegenüber haben könnte. Mit anderen Worten: Es wird erwartet, „dass Alter erwartet, dass Ego das eigene Verhalten vom Verhalten Alters abhängig macht“ (Lindemann 2009: 80).
Eine weitere Ebene an ErwartungshaltungenErwartungshaltung kommt ins Spiel, wenn gesellschaftlich generalisierte und regelhafte Sinnstrukturen/-ordnungen das Anschlussverhalten aus objektivierender bzw. reflexiver Drittenperspektive absehbar machen und so dazu beitragen, Kontingenzen im Begegnungsverlauf zu verringern. So haben sich im Zuge der Sozialisation Begrüßungsrituale herausgebildet, die ein bestimmtes Anschlussverhalten erwartbar machen. Das Reichen einer Hand zur Begrüßung wird in zeitgenössischen westlichen Gesellschaften demnach nicht als lediglich rein motorische Aktion, sondern als bekanntes und erwartbares Begrüßungsritual angesehen, welches die Anschlussaktion des Händeschüttelns in Aussicht stellt. Lindemann formuliert dies folgendermaßen: „Wie Ego eine Kommunikationshandlung zu verstehen hat, wird dadurch bestimmt, welche ErwartungenErwartungshaltung Ego von Dritten erwartet. Auf diese Weise werden Erwartungen institutionalisiert. Ego erwartet diejenigen Erwartungen von Alter, die es mit Bezug auf die Erwartungen Dritter erwarten sollte“ (Lindemann 2013: 107).Erwartungshaltung2
Wie aber orientieren sich Personen in der Begegnung mit neuen, undefinierten (hier: soziotechnischenTechnik) Akteuren? Und inwieweit können sie davon ausgehen, dass in der zwischenartlichen (nicht zwischenmenschlichen) Begegnung mit dem unbekannten AkteurAkteur ein routiniertes Anschlussverhalten zustande kommt? Bei Interaktionen dieser Art muss angenommen werden, dass es keinen ursprünglichen, geteilten Deutungsrahmen gibt und der Status sinnhafter Mitteilungen (innerhalb der Kommunikation selbst) zunächst überprüft, festgelegt und etabliert werden muss. Werden diese Annahmen zu objektiven ErwartungshaltungenErwartungshaltung und damit zu erwartbaren Routinen und festen Anschlussstrukturen in der Gesellschaft, könnten daraus neue übergeordnete Regelsätze für Mensch-Roboter-Interaktionen resultieren.
Die Frage ist also, wie menschliche NutzerNutzer*in3 das Verhalten eines RobotersRoboter deuten, um den RoboterRoboter als einen AkteurAkteur zwischen dem mechanischen Zustand eines Objekts und eines sozialen Akteurs zu bestimmen. Um diese Frage beantworten zu können und ein bedarfsgerechtes Modell für die technischeTechnik Konstruktion intuitiv bedienbarer sozialer RoboterRobotersozialer zu entwickeln, ist eine Analyse der ErwartungshaltungenErwartungshaltung von Nutzern gegenüber einem soziotechnischenTechnik Akteur wesentlich. Die im Folgenden vorgestellte empirische Untersuchung zur Mensch-Roboter-InteraktionInteraktion zwischen Nutzern und dem androidenandroid RoboterRoboter GHI-1 soll dazu einen Beitrag leisten.
3 Empirische Studie
3.1 Zum Untersuchungsrahmen
Um die Auswirkungen kommunikationsfähiger RoboterRoboter auf den Menschen zu untersuchen, werden in den HIL-Laboratories1 Robotermodelle entwickelt, die menschliche Bewegungen und Sprachausgabe durch Fernsteuerung (TeleoperationTeleoperation) simulieren. Die RoboterRoboter fungieren in diesem Fall als Interaktionsmedien; ihre Aktionen lassen sich über eine internetbasierte Verbindung durch fernsteuernde Personen synchronisieren. So können neben der Simulation der Atmung und anderen Mikrobewegungen (als ‚Merkmale von Lebendigkeit’) auch Bewegungen von Kopf und Rumpf mit denen der fernsteuernden Person synchronisiert werden. Zusätzlich kann die Sprach- und Lippenbewegung der steuernden Person über Audiogeräte (Mikrofon/Lautsprecher) an den androidenandroid RoboterRoboter und dessen Interaktionspartner übermittelt werden. Mit der Übertragung von Kopf-, Lippen- und Rumpfbewegungen soll der Eindruck entstehen, dass der RoboterRoboter seine Bewegungen und Postur eigenständig an die soziale Situation anpassen kann.TeleoperationRoboter2
Abb. 1:
Geminoid HI-1 (links) mit seinem menschlichen Gestaltvorbild und Erschaffer Hiroshi Ishiguro (rechts)
Ein solch ferngesteuerter RoboterRoboter wurde in einer ethnographischen Feldstudie eingesetzt, über die im Folgenden berichtet wird (vgl. dazu ausführlich Straub 2020). In der Studie ging es darum, in Szenerien der Erstbegegnung mit einem androidenandroid RoboterRoboter, die sich daraus ableitbaren ErwartungshaltungenErwartungshaltung der Personen gegenüber dem fremden AkteurAkteur zu extrahieren. Die Studie wurde im Rahmen des Ars Electronica Festivals im ‚Café Cubus’ in Linz, Österreich, durchgeführt. Dabei erkundeten Cafébesucher einen androiden RoboterRoboter, während ihre Aktionen audiovisuellAudiovisualität aufgezeichnet wurden.AudiovisualitätRoboter3 Bei dem RoboterRoboter handelte es sich um den in den HIL-Laboratories entwickelten Robotertyp Geminoid HI-1 (im weiteren GHI-1), dessen Äußeres dem Robotiker Hiroshi Ishiguro nachgebildet wurde. Wie Abb. 1 zeigt, ist das androide Robotermodell tatsächlich eine originalgetreue Replikation der äußeren Gestaltmerkmale eines real existierenden Menschenandroid.TechnikKörper4
GHI-1 wurde (ohne vorherige Ankündigung) in dem Café mit dem Ziel platziert, die Verhaltensweisen der Besucher gegenüber dem RoboterRoboter in alltäglichen Situationen audiovisuellAudiovisualität aufzeichnen und auswerten zu können. Um den Eindruck zu erwecken, dass es sich bei dem androidenandroid RoboterRoboter um einen regulären Cafébesucher handelt, wurde GHI-1 an einem Esstisch positioniert.5 GHI-1 variierte während des Experiments seine Aktionen in drei unterschiedlichen Aktivitätsmodi, die von leichten Bewegungen (im sog. Idling-Modus) über gezielten Blickkontakt mit den Besuchern (im Facetrack-Modus) bis hin zur Simulation von sprachlicher Interaktionsfertigkeit (im Teleoperationsmodus) reichten. Insgesamt konnten auf diese Weise 244 Videos mit einer Länge zwischen ein bis 20 Minuten extrahiert werden, wobei sich 84 Videos dem Idling-Modus, 70 Videos dem Facetrack-Modus und 90 Videos dem Teleoperationsmodus zuordnen lassen.
Die Untersuchung wurde, basierend auf Tuma et al. (2013), als nicht-teilnehmende verdeckte Beobachtung durchgeführt.Anonymität6 Dank der audiovisuellenAudiovisualität Daten konnten in der Analyse neben sprachlichen, symbolischen Gesten auch die visuellen Eindrücke zu nonverbalem und metakommunikativem Verhalten (wie Gesten, Mimik) und somit die multimodaleMultimodalität Kommunikation berücksichtigt werden (vgl. Mondada/Schmitt 2010). Zur Transkription und Kategorisierung der Ergebnisse wurde das Softwareprogramm Atlas.ti und zur Darstellung und Visualisierung multimodaler Umgangsweisen der Besucher gegenüber GHI-1 das Softwaretool ELAN genutzt.
3.2 Analytisches Vorgehen
Die Analyse richtete sich an der dreistufigen Kodierpraxis der Grounded Theory aus (vgl. Strauss/Corbin 1996). In einem ersten Schritt (offenes Kodieren) wurden diejenigen Passagen aus dem Gesamtkatalog der transkribierten Mensch-Roboter-Interaktionen erfasst, die ErwartungshaltungenErwartungshaltung gegenüber dem RoboterRobotersozialer als Sozialwesen beinhalten. Im zweiten Schritt (axiales Kodieren) wurden Wechselbeziehungen zwischen den Kategorien ‚nonverbales Verhalten’ und ‚symbolisch-gestische Äußerungen’ aufgedeckt. Zudem wurden die Interaktionsstrategien der Beteiligten zur Erfassung impliziter Erwartungen identifiziert und die Konsequenzen enttäuschter Erwartungshaltungen benannt. Anschließend wurde in einem dritten Schritt (selektives Kodieren) die Kategorie ‚ErwartungshaltungenErwartungshaltung’ mit den Kernkategorien der 1) motorischen Reaktionsfähigkeit, der 2) Interaktionsfähigkeit und der 3) kognitivenKognition/kognitiv Limitationen (vgl. Straub 2020) in Beziehung gesetzt. Die Forschungsfrage lautete dabei wie folgt: Welche signifikanten Unterschiede ergeben sich bei der Annäherung an GHI-1 in den drei unterschiedlichen Modi Idling, Facetrack und TeleoperationTeleoperation? Die Variationen im Umgang mit GHI-1 innerhalb dieser drei Aktivitätsmodi dienten dazu, die Grade der Präsenz sowie der Personenzuschreibung anhand der Reaktivität des RobotersRoboter auf seine Um- bzw. Mitwelt zu bestimmen (vgl. dazu auch Straub 2016).
Wie die Auswertung des Datenmaterials zeigte, hat sich das Sozialverhalten der Besucher gegenüber dem RoboterRoboter qualitativ verändert, und die unterschiedlichen Aktivitätsmodi führten zu stark abweichenden Erkundungsweisen der Besucher: Je größer das Reaktions- und Interaktionsspektrum von GHI-1 wurde, desto mehr korrelierte dies mit der Zuerkennung eines sozialen Status. Mit anderen Worten: Der RoboterRoboter wurde entweder als (determiniert physikalisches) repetitiv-mechanisches Objekt (im Idling-Modus), als reaktiv-mechanisches Objekt (im Facetrack-Modus) oder als sozial-reaktiver AkteurAkteur mit spezies-eigener Wesensart und personaler Präsenz (im Teleoperationsmodus) angesehen (vgl. Straub 2020: 314). Das zeigte sich z.B. bei der Überprüfung seiner motorischen Reaktionsfertigkeit in den vorsichtigen Erkundungen der Besucher. Diese wandelten sich in den drei Aktivitätsmodi vom Versuch der motorischen Navigation bis hin zur Überprüfung des Interaktionsverhaltens von GHI-1: Da der RoboterRoboter im Idling- und Facetrack-Modus nicht reagierte und somit die Kernkategorie Interaktionsfähigkeit keine Bestätigung erfuhr, begannen die Besucher schließlich, ihre Eindrücke, Einstellungen und Emotionen zu GHI-1 untereinander kommunikativ auszutauschen. Im Teleoperationsmodus stellte sich die Situation dagegen anders dar: Nun war der RoboterRoboter dazu in der Lage, mit den Besuchern sprachlich zu kommunizieren. Die Prüfung seiner motorischen Eigenschaften verschob sich hier auf die Prüfung seiner Interaktionsfähigkeit (Kategorie 2), seiner Wesenseigenschaften und seiner kognitivenKognition/kognitiv Limitationen (Kategorie 3).
Damit kommen wir zur Zielsetzung der Studie: Sie sollte einen Einblick in den Wechsel der Klassifizierung von GHI-1 als einem rein physikalischen Objekt hin zu einem sozialen AkteurAkteur geben und zeigen, dass ein und dieselbe Bezugsgestalt aufgrund verschiedener Re-Aktionen je Aktionsmodus unterschiedlich bewertet wird. Außerdem sollte sie dazu dienen, die ErwartungshaltungenErwartungshaltung der NutzerNutzer*in bei einer Erstbegegnung mit einem soziotechnischenTechnik Akteur zu erfassen und dabei den Übergang von der Erfahrung eines rein physikalischen Objekts über eine situativ reagierende Gestalt bis hin zu einem akzeptierten Sozialpartner zu beobachten. Doch um welche Erwartungen ging es jeweils und welche Variationen in den Reaktionen bzw. in der Kommunikationsfertigkeit des RobotersRoboter haben dazu geführt, dass sich der Status des RobotersRoboter in der Wahrnehmung der Besucher verändert hat? Dies ist Gegenstand des nächsten Kapitels. Hier sollen – bezogen auf die drei bereits eingeführten Kernkategorien 1) motorische Reaktionsfähigkeit, 2) Interaktionsfähigkeit und 3) kognitiveKognition/kognitiv Limitationen – die ErwartungshaltungenErwartungshaltung der Besucher hinsichtlich der physisch-motorischen, kommunikativen und kognitivenKognition/kognitiv Eigenschaften des RobotersRoboter dargestellt werden.
4 ErwartungshaltungenErwartungshaltung
4.1 Idling- und Facetrack-Modus1
Befindet sich der RoboterRoboter im Idling- oder Facetrack-Modus, gehen die Besucher auf die Mikrobewegungen und die Zuwendung seines Kopfes ein und versuchen eine Beziehung herzustellen, indem sie seine Aufmerksamkeit durch „Aufmerksamkeitshascher“ (vgl. Tomasello 2009: 63) auf sich zu lenken suchen. Zu den Aufmerksamkeitshaschern zählen bspw. nonverbale Aktionen, die dazu dienen sollen, Folgereaktionen beim RoboterRoboter zu bewirken. Einige Besucher bewegen z.B. ihre Hand vor dem Sichtfeld von GHI-1, um die Erkennungssoftware von GHI-1 zu überprüfen, oder sie versuchen, seine Blickrichtung zu steuern, indem sie ihre leibliche Position ändern, ihre Hände vor GHI-1s Gesicht halten oder Objekte in seinem Blickfeld hin- und herbewegen. Weiter verwenden sie auditive Prüfungen, um seine Aufmerksamkeit zu wecken. Hierzu zählen, neben dem Ansprechen von GHI-1, das Pfeifen oder das Klopfen gegen den Tisch. Im Facetrack-Modus werden zudem die taktile und kinästhetische Reaktionsfertigkeit durch das Pusten in GHI-1s Gesicht, durch Berührungen oder das Boxen gegen seinen Torso getestet.
Abb. 2 zeigt, wie Besucher die Reaktionsfähigkeiten von GHI-1 auf ihre Grenzen hin untersuchen und damit die präkommunikativen Grundbedingungen zur Initiierung einer sozialen Begegnung herausfordern. Hierzu nutzen sie visuelle, akustische, taktile und kinästhetische Manipulationen an der Robotergestalt, um die Reichweite der Wahrnehmungsfähigkeit von GHI-1 zu prüfen, seine Bewegungen zu steuern und seine Blickrichtung zu navigieren.
Abb. 2:
Reaktionsprüfungen am RoboterRoboter
Das aufmerksamkeitsfordernde Verhalten der Besucher verdeutlicht ihre ErwartungshaltungenErwartungshaltung gegenüber einem potenziellen AkteurAkteur. Diese beziehen sich bei einem minimal körperlich aktiven Akteur auf seine Reaktionsfähigkeit, die Richtungsnavigation und seine Anpassungsfähigkeit an die soziale Umgebung. Die Erwartungshaltungen liefern Hinweise darauf, welche Fähigkeiten GHI-1 als sozialer Akteur aus Sicht der Besucher auf der präkommunikativen Ebene besitzen sollte, um eine Basis für erfolgreiche Folgeinteraktionen herzustellen. So können die Versuche, den RoboterRoboter zu navigieren, als Test für die Anpassung des RobotersRoboter an eine belebte und sozial orientierte Umgebung (Mitwelt) interpretiert werden. Minimale Reaktionen wie Hinwendung und potenzieller Augenkontakt sind erste Anzeichen dafür, dass das Ego (Besucher) vom Alter Ego (RoboterRoboter) auf einer fundamentalen Ebene als potenzieller sozialer Akteur wahrgenommen wird. Allerdings passt der RoboterRoboter in diesem Aktivitätsmodus weder die Blickrichtung an die Position der Besucher an noch reagiert er auf Mimisches. Er verharrt vielmehr in seiner Position und hebt den Kopf lediglich in die Richtung, in der ein Gesicht von seinem Facetrackingsystem erfasst wird. Weiter scheitern die Versuche, die Aufmerksamkeit des RobotersRoboter auf Geräusche, körperlichen Kontakt, Mimik oder Gesten zu lenken. Eher gleicht GHI-1 hier einem momenthaft, situativ ausgerichteten Wesen, dessen Wahrnehmungs-, Aktions- und Reflexionsspektrum an sein enges Umfeld orientiert ist.
All dies führt auf Seiten der Besucher zu enttäuschten ErwartungshaltungenErwartungshaltung und schließlich zur Aufhebung des potentiellen sozialen Status des RobotersErwartungshaltungRoboterRoboter.2 In der Folge erfährt GHI-1 eine Absprache von Autonomieautonom und wird als (rein) repetitiv-mechanisches Objekt (im Idling-Modus) bzw. als reaktiv-mechanisches Objekt (im Facetrack-Modus) kategorisiert (vgl. Straub 2020: 330). So sieht man in den Videoaufnahmen, dass die Territorialbereiche, die in zeitgenössischen, westlichen Gesellschaften bei der Begegnung zwischen Sozialakteuren gelten (vgl. Hall 1966, Goffman 1963), in der Aktion mit dem RoboterRoboter überschritten werden, die Besucher nähern sich ihm zusehends. Auf metakommunikativer Ebene zeigt sich dies am Reden über den RoboterRoboter (statt mit ihm) in seiner Anwesenheit. Vgl. dazu den folgenden Transkriptausschnitt:3
Beispiel 1
J(8) | Ist der echt? (Hände/Hier) nicht so ganz |
fasst an die Finger und an den oberen Teil des Rechners | |
Der kann seinen Kopf bewegen | |
schaut ins Gesicht von GHI-1, blickt zur Mutter (links frontal vor dem Tisch gegangen), und schaut hinter GHI-1 | |
F(42) | Sag einmal schau mich an |
J(8) | (zu GHI-1) Schau mich an – (lauter) schau mich an |
blickt zu F(42) Der schaut mich nicht an | |
(…) das ist kein Echter |
Aus den Bemühungen der Besucher, dem RoboterRoboter Reaktionen zu entlocken, lässt sich ableiten, welche ErwartungshaltungenErwartungshaltung sie gegenüber einem AkteurAkteur haben, der auf eine soziale Situation eingeht. Hierzu zählen eine gelingende Aufmerksamkeitsverschiebung, ausdruckshafte Bewegungen und ein positives Feedback bei Interaktions- und Reaktionsaufforderungen anstelle von mechanistisch, repetitiven Bewegungsabfolgen. Dass diese ErwartungenErwartungshaltung bestehen, verwundert nicht: Die Wahrnehmung von Personen zusammen mit der situationsadäquaten Positionierung über soziomotorische Anschlussaktionen (d.h. zumindest die Zuwendung des Kopfes sowie die Initiierung von Blickkontakt) sind nach Kieserling (1999) Minimalkonstitutionen für präkommunikative Sozialität. Dies wiederum bildet die Grundbedingung für die Zuerkennung eines Akteursstatus. Der nächste Abschnitt zeigt indes, dass ein sozialer Akteur darüber hinaus noch über weiterführende Reaktivität verfügen sowie den Übergang zur kommunikativen Sozialität bewerkstelligen können sollte.