Sprachproduktion – Grundlagen, Theorien, Modelle und Forschung.

Den Text gibt es auch als Buch mit Abbildungen.

Abstract

Sprachproduktion ist ein Teilgebiet der Psycholinguistik, welche versucht die Produktion von menschlicher Sprache zu beschreiben. Es ist das wohl am schlechtesten erforschte Gebiet, das trotzdem schon eine lange Tradition hat. In dieser Arbeit wird dieses Gebiet vorgestellt. Ein kurzer Überblick über wichtige Begriffe und Geschichte leitet ein, gefolgt von den wichtigsten Modellen der Sprachproduktion von 1971 bis 1999 im Detail und anschließend noch einzelnen Problemen und alternativen Vorschlägen.

————————-
Inhalt:

1. Einleitung 2

2. Sprachproduktion: Einführung, Forschung, Begriffe. 2

2.1. Einführung. 2

2.2. Forschung. 3

2.3. Begriffe. 5

2.4. Modelle. 5

3. Sprachproduktion: Geschichte und erste wichtige Modelle. 7

3.1. Die Anfänge: Aphasie, Sprechfehler, Pausen. 7

3.2. Fromkin (1971): Sprechfehler und ein erstes Modell. 9

3.3. Garrett (1980): modularer Standard; zwei Ebenen im lexikalen Zugriff. 11

3.4. Dell (1986): interaktiver Standard. 14

3.5. Levelt (1989): inkrementeller Standard. 18

3.6. Das Standardmodell. 21

3.6.1. Bock & Levelt (1994): grammatische Enkodierung im inkrementellen Modell. 21

3.6.2. Meyer (2000): Formbildung im Standardmodell. 24

3.7. Levelt et. al. (1999) & Roelofs (2000): WEAVER++ 26

4. Ein anderer Ansatz: Caramazza (1997): lexikaler Zugriff im IN-Netzwerkmodell: gegen Lemmas. 35

5. Fazit und Vergleich. 38

6. Referenzen 41

————————-

1. Einleitung

Sprachproduktion ist ein Teilgebiet der Psycholinguistik. Die Psycholinguistik¹ beschäftigt sich mit Sprache als Verbindung von Linguistik und Psychologie und will die mentalen Vorgänge beim Erwerb, Verstehen und Äußern von Sprache erforschen und erklären. Als größere Teilgebiete kann man hier Spracherwerb, -produktion und -verstehen festhalten, sowie -störungen. Von diesen Gebieten ist ausgerechnet die Produktion am wenigsten erforscht.

Jahrzehntelang beschäftige man sich mit der Sprachproduktion nur im Zusammenhang mit Sprachstörungen wie Sprechfehlern oder Aphasie. Erst in den 60er und vor allem 70er Jahren wurde das Interesse an der Produktion größer, besonders auch aufgrund aufkommender Computer, mit deren Funktionieren man das Gehirn verglich. In den 80ern bildeten sich die grundlegenden Modelle der theoretischen Sprachproduktion heraus, die bis heute nur teilweise herausgefordert, eher verbessert, werden.

Diese Arbeit beschäftigt sich mit der Sprachproduktion. Der Aufbau ist dabei wie folgt: Zunächst soll es einen historischen Überblick von den ersten Sprechfehler-Aufzeichnungen an geben. Danach folgt eine kurze Einführung in das Gebiet der Sprachproduktion allgemein mitsamt historischem Überblick, mit allen Punkten, die weiterhin wichtig sein werden. Kurz wollen wir dann die ersten Modelle betrachten. Daraufhin soll es mehr Details zum „Standard-Modell“ geben, schließlich wird das aktuellste Modell, WEAVER++, vorgestellt.

2. Sprachproduktion: Einführung, Forschung, Begriffe.

2.1. Einführung.

Diese kurze Einleitung soll bereits im Groben einen Einblick geben, was man unter Sprachproduktion versteht, welche Ursachen und Grundlagen an Daten wichtig sind, zu welchen Modellen dies führen kann und welche Probleme und Annahmen man ständig im Auge haben muss. Dies soll helfen den detaillierteren Blick auf einzelne Modelle und ihre Probleme zu erleichtern.

Levelt et. al. (1999: 1f) erzählen eine ontogenetische Einleitung, um zu beschreiben, wie der Mensch die Sprachproduktion entwickelt um damit auch eine Grundlage für ihr Modell zu geben. Dies kann uns als Beispiel helfen. Schon Babys fangen an, einen Sinn für Kategorien wie Agens, Interaktanz, temporale und kausale Strukturen, Objekte und Lokation zu entwickeln. Die Matrix für erste lexikale Konzepte bildet sich durch den Erwerb von Verben. Auditorische Muster werden aus der Umwelt aufgeschnappt und so ein Protosyllabar entwickelt, welches die ersten Sprachmotormuster enthält. Die ersten geäußerten Wörter sind „Gebabbel“, die lexikale Konzepte ausdrücken sollen. Damit ergibt sich bereits eine Verbindung von Konzept und Artikulation; die Brücke, der wir noch öfter begegnen werden, ist damit geschlagen. Restrukturierung des Materials ergibt sich durch Syntaktisation, wenn lexikale Elemente syntaktische und subkategorische Merkmale zugewiesen bekommen. So entsteht ein System von so genannten Lemmas, Bündeln von syntaktischen Eigenschaften der Konzepte. Ab etwa 4 Jahren hat man so das System: Von Konzept über Lemma zu Phonologie und Phonetik.

Modelle der Sprachproduktion sollen stets darstellen, was in dem Vorgang entsteht und vorgeht, der unsere Äußerungen produziert. Denn dass Sprachproduktion mehr ist, als nur die Lippen und Zunge zu bewegen, dürfte klar sein. Modelle können aber bis heute nicht vollkommen korrekt sein und stützen sich nur auf Annahmen, welche wir hier beschreiben wollen. Alle Modelle haben aber gemein, dass sie mehr als eine Ebene annehmen, in der die Sprachproduktion stattfindet, und beschreiben diesen Vorgang stets von „oben“ (Intention) bis „unten“ (Artikulation), also quasi den Weg vom Gehirn hinab in den Mund.

Zunächst einmal unterteilt man in der Sprachproduktion im Allgemeinen, nun aber in Anlehnung an Levelt (1989), drei grobe Gebiete. Auf der Ebene der Konzeptualisierung entsteht die Intention, die Nachricht, die „Message“ – das, was der Sprecher sagen will und damit verbundene Konzepte. Oder um mit Pechmann (1994: 11) zu sprechen: Propositionaler Inhalt und Pragmatik. Man nennt die Ebene auch die Nachrichten-Ebene. Danach folgt die Formulation: Das Konzept wird in eine linguistische (sprachliche) Form umgewandelt; es werden individuelle Wörter gewählt (lexikale Einträge aktiviert), zusammengesetzt und in einen syntaktischen Rahmen (also einen Satz) gesetzt und letztlich wird auch schon die phonologische Struktur spezifiziert. Fast alle Modelle konzentrieren sich hauptsächlich auf diese Ebene oder gar einen Teil davon. Schließlich folgt noch die Artikulation mit den letzten detaillierten phonetischen und artikulatorischen Planungen.

2.2. Forschung.

Die Forschung konzentrierte sich wie gesagt meist auf die Formulation, doch allgemein ist die Forschung die Produktion betreffend härter als die, die Perzeption betreffend, denn den Input zu kontrollieren und Gedanken experimentell zu steuern ist schwer. Trotzdem gibt es Evidenz, anhand derer man vieles erschließen kann. So gibt es, in Anlehnung an Harley (1995: 244) vier große Gebiete als Forschungsgrundlage: Historische Änderungen in Aussprache und Lexikon, Konversationsanalyse, Sprachpausen-Analyse sowie spontane Sprechfehler und das Tip-of-the-Tongue-Phänomen (ToT). In letzter Zeit benutzt man als zusätzliche Quellen aber noch Experimente und seit kürzerer Zeit auch Gehirnanalysen. Sehen wir uns aber mal einige dieser Quellen genauer an.

Bei Pausen im Sprechen ist die Distribution wichtig, in der sie erscheinen. Man unterscheidet dabei (Harley 1995: 244f) gefüllte und ungefüllte Pausen. Ungefüllte sind schlichte Stille, dagegen unterteilen sich gefüllte nochmal in wirklich gefüllte (z.B. ‚äh‘), Wiederholungen, „falsche Starts“ und parenthetische Anmerkungen (’nun‘). Weiter lassen sie sich unterteilen in die Gruppen Mikroplanung vs. Makroplanung. Die erste Art von Pausen betrifft Wörter, zweitere die Syntax. Mikroplanung findet häufig in Konversation statt. Vor allem, wenn unerwartete Wörter kommen (unerwartet aufgrund der Frequenz im Lexikon², Vertrauen mit dem Wort oder dem semantischen und syntaktischen Kontext). Mikroplanung ist dem ToT ähnlich: Wir kennen die Bedeutung des Wortes, brauchen es aber noch selber. Solche Pausen ersetzen wir auch oft mit Gesten. Ein Problem ist aber, dass es auch zahlreiche andere Pausen gibt. Z.B. setzen wir in Sprache ebenso wie in Schrift oft „Satzzeichen“, also grammatische Pausen oder geben damit die Rede an den Gesprächspartner (vgl. Harley 1995: 249f).

Das Tip-of-the-Tongue-Phänomen (ToT, Harley 1995: 246f) ist ein für sämtliche Modelle extrem wichtiges, ist es doch ein Argument für einen zweistufigen Zugriff auf das Lexikon während der Formulation. Beschreiben lässt es sich auch als lexikales Zugriffsproblem: Wir wissen die Semantik des Wortes, können aber nicht auf seine lautliche Form zugreifen. ToTs sind universell in allen Sprachen vorhanden und können experimentell verursacht werden, in dem z.B. der Versuchsperson die Definition erzählt wird und sie die Form nennen soll. Beim ToT lassen sich teilweise phonologische Informationen holen, z.B. die Silbenanzahl, der Anfangslaut des Wortes, das Akzentmuster sowie phonologisch ähnliche Wörter. Erklärungsmöglichkeiten für das Phänomen lauten: Entweder partielle Aktivierung oder Blocking/Interferenz. Ersteres träfe zu, wenn lexikale Einheiten nur schwach im System vertreten sind. Letztlich ist die Wahrheit dann auch wohl die, dass es nur eine schwache Verbindung zwischen der semantischen und der phonologischen Ebene im System gibt. Ein Blocken würde stattfinden, wenn ein Wettbewerber im System stärker wäre, doch die partielle Lösung ist wahrscheinlicher.

Sprechfehler waren lange Zeit die Hauptgrundlage, auf deren man Modelle der Sprachproduktion baute. Probleme waren dann aber, dass sie hauptsächlich gedacht waren fehlerhafte Sprache zu erklären und nicht normale. Es gibt nur eine begrenzte Menge an möglichen Sprechfehlern, weshalb man aufgrund ihrer Möglichkeiten darauf schloss, welche Ebenen es in der Produktion gibt. Harley (1995: 251f) beschreibt zwei grobe Gruppen, sortiert nach beteiligter linguistischer Einheit (phonologisches Merkmal, Phonem, Silbe, Morphem, Wort, Phrase oder Satz) oder Fehlermechanismus (Blend, Substitution, Addition, Tilgung). In Fehlern wird nie der Satzakzent verändert, was wiederum darauf hindeutet, dass er unabhängig vom Rest sein muss. Gleiches gilt für die Morphosyntax, die meist erhalten bleibt. Auch phonologische Regeln werden ganz am Ende noch angewandt, was ein weiterer wichtiger Punkt für die Erstellung eines Modells ist.

2.3. Begriffe.

Ein wichtiger Begriff in Modellen der Sprachproduktion ist die Lexikalisation. In dieser werden, grob nach Harley (1995: 253), Gedanken in Laute umgewandelt. Die Frage, die sich dabei stellen muss, ist, in wievielen Ebenen dies geschieht und ob sie voneinander unabhängig (modulare Modelle) oder nicht (interaktive Modelle) sind und wie lange der Prozess dauert. Zunächst einmal lässt sich sagen (vgl. Fay & Cutler 1977), dass es zwei Arten von Wortersetzungen gibt: semantische und phonologische. Dies spricht schon für (mindestens) zwei Ebenen. (Völlig) unabhängig voneinander können die Ebenen nicht sein, denn dann gäbe es keine „Mixed Errors“. Butterworth (1982) nimmt deshalb (für modulare Modelle) einen Filter (einen Monitor) an, der nur Wörter durchlässt, die ‚korrekt‘ klingen. Eine andere Möglichkeit wäre sonst nur ein interaktives Modell. Bei einem Ein-Stufen-Modell würde das System direkt von der Semantik zur Phonologie gehen. Bei einem Zwei-Stufen-Modell gäbe es noch eine Zwischenstufe, auf der die prä-phonologische Repräsentation erstellt wird. Die zweite Ebene würde hierbei die konkrete phonologische Form spezifizieren. Und tatsächlich gibt es Evidenz für dieses Modell (vgl. Harley 1995: 256): 1. würden Wortersetzungen damit leicht erklärt sein. Ein semantischer Fehler auf der ersten Stufe, ein phonologischer Fehler in der zweiten Stufe. 2. spricht das ToT dafür. Die erste Stufe wäre vollendet (man kennt die Bedeutung etc.), aber die zweite wird nicht erreicht (die Form). 3. spricht Mikroplanung dafür. 4. fand sich experimentelle Evidenz. 5. spricht auch Anomia bei Aphatikern dafür, das so ähnlich wie ein ToT wirkt. 6. verhalten sich auch Bilinguale oft wie im ToT.

Laut Roelofs (2000: 71f) benutzen Sprecher bei Äußerungen viele Facetten ihres Wissen über Wörter um diese zu formulieren, so syntaktische Eigenschaften, Morphologie, Komposition, Lautstruktur. Der lexikale Zugriff ist ein Prozess, bei dem Informationen über Wörter aus dem Gedächtnis geholt werden um ein lexikales Konzept auf artikulatorische Programme zu binden und hat zwei Hauptstufen: Das Holen von Lemmas und die Wortform-Enkodierung. Das lexikale Konzept aktiviert ein Lemma (eine Gedächtnis-Repräsentation der syntaktischen Eigenschaften eines Wortes und ist wichtig für die Nutzung in einem Satz).

2.4. Modelle.

Ein Problem für alle Modelle ist es, die Geschwindigkeit der Sprachproduktion zu erklären (vgl. Pechmann 1994: 11f). Viele Prozesse müssen zwangsweise parallel verlaufen. Entweder werden hierbei dann verschiedene Teile der Äußerung zur gleichen Zeit auf verschiedenen Stufen oder dieselben Teile einer Äußerung auf verschiedenen Stufen gleichzeitig verarbeitet. Hieraus lassen sich dann zwei Arten von Modellen ableiten: Modulare und Interaktive. Erste haben serielle autonome Stufen ohne Feedback, bei denen der Output der einen Stufe der Input der nächsten ist, letztere haben parallele nicht-autonome Stufen mit vielfältigen bidirektionalen Beziehungen.

Modulare Modelle haben eine Reihe von Kriterien (vgl. Pechmann 1994: 12). Das Modul ist bereichsspezifisch, läuft, wenn einmal aktiviert, automatisch ab, ist schnell, hat einen spezifischen Input und kann auf eine definierte neuronale Struktur zurückverfolgt werden. Die Definition modularer Prozesskomponenten sagt aus, dass sie „deutlich unterscheidbare Teilsysteme der Informationsverarbeitung sind, die in einer Input-Ouput Beziehung zueinander stehen in dem Sinn, daß der Output eines Systems der Input eines anderen Systems ist.“ (Pechmann 1994: 12)

Neuere Modelle treffen noch eine weitere Annahme, um die Schnelligkeit der Produktion zu erklären, nämlich inkrementelle Produktion (vgl. Pechmann 1994: 13, siehe dazu die Modelle von Levelt). Dies bedeutet, dass nachfolgende Teile gleichzeitig auch auf vorangehenden Ebenen verarbeitet werden. Dies ist der parallele Charakter in einem seriellen Modell.

Was spricht aber nun für interaktive Modelle? Meist werden die „Mixed-Errors“ herangezogen. Dagegen gibt es aber Evidenz (vgl. Harley 1995: 257f). Man fand heraus, dass das Wort „sheep“ das semantisch verwandte Wort „goat“ primen³ kann. In einem interaktiven Modell sollte „goat“ auch das phonologisch verwandte „goal“ primen, bei einem modularen dagegen nicht. Tatsächlich fand sich das nicht. „Sheep“ primet anfangs einen semantischen Nachbarn („goat“) und keinen phonologischen („goal“), später ist es umgekehrt. Im interaktiven Modell sollte beides immer möglich sein. Trotzdem wird das interaktive Modell meist bevorzugt.

Die syntaktische Ebene (erster Teil der Formulation) wird meist Garrett (s.u., vgl. auch Harley 1994: 259ff) folgend seriell und modular strukturiert. Er nennt sie die funktionale Ebene, auf der es noch keine Wortordnung gibt. Diese folgt erst auf der positionalen Ebene. Auch unterscheidet er zwischen Inhalts- und Funktionswörtern, wobei erstere einen Frequenzeffekt haben⁴. Evidenz gibt es in Form der Morphemaustauschungen, welche darauf hin deuten, dass Morphosyntax und Stamm unabhängig voneinander sind. Später erst folgen Phonologie und Akzentzuweisung. Dies bedeutet, dass es zunächst einen syntaktischen Plan (Frame/Rahmen) mit Slots, in welche die Wörter gesetzt werden, gibt. Wortaustauschungen entstehen, wenn sie in den falschen Slot gesetzt werden. Auch grammatische Elemente (Affixe) werden eingefügt, Stamm und Affix aber erst später phonologisch angeglichen. Das Problem sind aber auch hier „Blend Errors“ (die Vermischung von 2 Wörtern oder Phrasen).

3. Sprachproduktion: Geschichte und erste wichtige Modelle.

3.1. Die Anfänge: Aphasie, Sprechfehler, Pausen.

Betrachten wir nun eine grobe Übersicht der geschichtlichen Entwicklung der Sprachproduktionsforschung. Es lassen sich (nach Pechmann (1994)) drei grobe Felder definieren, die jeweils eigene Quellen und Methoden haben: Aphasieforschung, Sprechfehler sowie die Pausenforschung. Weitere Evidenzquellen wurden oben erwähnt.

Aphasie ist eine Sprachstörung, die eintritt, nachdem Sprache schon einmal vollständig erworben wurde. Ursachen können Unfälle, Tumore oder Schlaganfälle sein. Als Begründer nennt Pechmann (1994: 17f) Franz Joseph Gall (1758 – 1828⁵), den „Erfinder“ der Phrenologie, welche anhand der Schädelform Charaktermerkmale erschließen wollte. Ebenso war eine Annahme der Phrenologie, dass mentale Prozesse modular auf funktional unterscheidbare Subsysteme zurückzuführen sind, die genetisch determiniert und autonom sind und sich im Gehirn lokalisieren lassen. Damit nahm sie modulare Modelle und die Neuroforschung vorweg. Paul Broca (1824 – 1880⁶) stellte 1861 die ersten klinischen Studien an. Auch er suchte die zerebrale Lokalisation psychischer Funktionen. Bei seinen Patienten fand er Störungen im motorischen Zentrum, dem nach ihm benannten Broca-Zentrum, das bei Beschädigung zu mühsamer Telegrammsprache, Wortfindungsproblemen und syntaktischen Problemen führt. Wenig später (1874) fand Carl Wernicke (1848 – 1905⁷) das sensorische Zentrum, das Wernicke-Zentrum genannt wurde, und bei Schädigung zu Problemen des Sprachverstehens und bei der Produktion häufig zu Paraphasien führt (vgl. Pechmann 1994: 18f). Noch etwas später (1885) formulierte Ludwig Lichtheim (1845 – 1928⁸) ein erstes einfaches Modell, laut dem es ein Begriffszentrum gibt, das verbunden ist mit dem motorischen und dem sensorischen Sprachzentrum. Ist die Verbindung zwischen den Zentren gestört, führt das zu Leitungsaphasien, bei denen man ein Problem mit dem Nachsprechen hat. Für Sigmund Freud (1856 – 1939⁹) war dieses Modell zu simpel und unrealistisch, denn es würde in der Praxis viele Mischformen geben. Er verlangte (1891) statt Lokalisationen im Gehirn lieber die genaue Analyse einzelner Funktionen des Verhaltens um Interpendenzen zu bestimmen und ein psychologisches, funktionales Modell zu erhalten, denn Verhaltensstörungen seien wichtig, um ein Modell des normalen Verhaltens zu erstellen (vgl. Pechmann 1994: 20f). Danach wurde es ruhig in der Forschung in diesem Bereich. Erst mit Ellis & Young (1988, vgl. Pechmann 1994: 21ff) wurde wieder verstärkt eine kognitive Neuropsychologie gefordert. Sie definierten als Modell-Ebenen Semantik, Speech-Output-Lexikon und ein phonetisches System. Die Frage ist, ob das Modell modular ist. Dazu müsse man Fälle beobachten, in denen nur eine der Ebenen gestört ist. Wortfindungsprobleme sprechen für die semantische Ebene, Frequenzprobleme und Jargonaphatiker (die keine Kontrolle über Stämme haben aber Morpheme richtig einsetzen) für das Speech-Output-Lexikon. Die moderne kognitive Neuropsychologie führt nun detaillierte Einzeluntersuchungen durch, um aufgrund selektiver Ausfälle einzelner Systeme Theorien und Modelle aufzustellen.

Sprechfehler sind eine große traditionelle Quelle für die Sprachproduktionsforschung (vgl. Pechmann 1994: 24ff). Die Grundlage legte Rudolf Meringer (1895; nur teilweise unterstützt von Carl Mayer, aber meist wird referiert als ‚Meringer & Mayer‚). Meringer sammelte den ersten Korpus von Sprechfehlern, bei denen er sehr sorgfältig war, um Wahrnehmungsverzerrung zu eliminieren, denn der Mensch neigt sehr dazu, automatisch in der Perzeption Fehler zu korrigieren. Butterworth (1981) teilt sein Korpus in drei Arten ein: 1. Störung durch andere Gedanken (Freud’sche Versprecher), 2. Störung durch alternative Formulierung (Kontamination & „environmental error“), 3. Störung durch einzelne Elemente. Erst Fromkin (1971, s.u.) nahm die Fehlersammlung wieder auf. An Fehlern stellte sie fest: phonetische Merkmale, Phonemvertauschungen, Silbenvertauschungen, Morphemvertauschungen, Wortvertauschungen. Shattuck-Hufnagel teilte sie ebenfalls (anders) ein. Sie nannte: Ersetzung, Vertauschung, Verschiebung, Hinzufügung und Auslassung sowie zwei Richtungsmöglichkeiten: antizipatorisch (von hinten nach vorn) & perseveratorisch (von vorn nach hinten). Auch gibt es so genannte „Blends“, in denen zwei Wörter zu einem vereint werden.

Letztlich sind noch Pausen und Zeiteinteilung eine wichtige Quelle, aber erst seit der technischen Entwicklung (vgl. Pechmann 1994: 30ff). Als Vorreiterin kann man hier Frieda Goldman-Eisler (1958) nennen. Sie untersuchte zeitliche Interaktionsmuster und analysierte die zeitliche Struktur als einen Indikator für Planungs- und Ausführungsprozesse. Die Länge einer Pause ist abhängig davon, was der Sprecher sagen will, sowie dem Kontext. Sie kann aber verschiedene Gründe haben: kommunikativ, als „turn-taking“ und anderem. Sie teilte Pausen ein: Zentrale sind kontrolliert, kreativ und auf die Semantik bezogen, periphere sind automatisch, syntaktisch und überlernt. Interessanterweise hat die Komplexität einer Äußerung keine Auswirkung auf die Pausen. Sie kommen aber häufig zyklisch vor. Hierbei kann man sagen, dass die konzeptuelle Kohärenz innerhalb eines Zyklus stärker ist als zwischen zwei Zyklen. Hierbei alternieren dann Planung und Ausführung. Letztlich können Pausen aber auch Schwierigkeiten bei der lexikalen Selektion bedeuten.

3.2. Fromkin (1971): Sprechfehler und ein erstes Modell.

Victoria A. Fromkin (1923 – 2000¹⁰) war seit langem die Erste, die sich ernsthaft wieder mit Sprechfehlern befasste. Es ging ihr dabei aber eigentlich noch nicht um die Sprachproduktion selbst, sie wollte vielmehr die Realität linguistischer Begriffe wie Morphem und phonetisches Merkmal nachweisen. Dass sie auch das erste ernst zu nehmende Sprachproduktionsmodell beschrieb, war ihr dabei eher Nebensache. Ihre Grundlage waren Sprechfehler-Korpora; sowohl die klassischen, als auch eigene. Dass sie Sprechfehler als Perfomanzdaten ansah, die eine Grammatik nicht falsifizieren, sondern nur verifizieren können, war ihre größte Schwäche und ist wissenschaftstheoretisch fragwürdig, denn eine Theorie sollte immer falsifizierbar sein.

Die linguistischen Einheiten, die sie annahm, waren die folgenden (vgl. Pechmann 1994: 36ff & Fromkin 1971): Phonetische Merkmale werden in Fehlern systematisch verwechselt und bilden eine Hierarchie der Merkmale und Leichtigkeit des Fehlers: Von schwer bei Nasalität über Stimmhaftigkeit bis leicht bei Ort und Art¹¹. Phoneme werden am häufigsten vertauscht in Fehlern und kennen Antizipationen (von-Hinten-nach-Vorn), Perseverationen (von-Vorn-nach-Hinten)¹², Transpositionen und schlichte Vertauschungen. Auch Cluster können in einzelne Phoneme zerteilt werden; häufiger jedoch bleiben sie im Ganzen. Bewiesen wurde hier auch schon, dass Affrikaten einzelne Phoneme sind und nicht aus zweien bestehen. Als nächstes folgen Silben, denn bei Phonemänderungen wird häufig die Silbenposition (also Onset, Nukleus oder Koda) beibehalten, jedoch werden sie nie im Ganzen vertauscht, so Fromkin, weshalb sie keine unabhängige Einheit, aber Einflussgröße sind (vgl. auch Levelt 1989). Letztlich sind noch semantische Merkmale wichtig; Evidenz ergäbe sich aus falsch benutzten Antonymen und sogenannten Blends, bei denen zwei Wörter zu einem verschmolzen werden.

Wichtiger als diese Hierarchie sind aber ihre Ausführungen zu phonologischen und morphologischen Restriktionen (vgl. Pechmann 1994: 40ff & Fromkin 1971). Denn sie fand heraus, dass praktisch kein Fehler gegen die Phonotaktik einer Sprache verstöße. Das wiederum bedeutet, dass phonologische Regeln erst sehr spät erst in der Produktion angewandt werden. Akzente dagegen werden früh gesetzt, bereits vor den lexikalen Elementen, die Syntax sogar noch früher. Auch muss das Lexikon in Stämme/Wurzeln und Affixe unterteilt und nicht alphabetisch sein, da wir die Einheiten im Geiste auch anders ordnen können, z.B. semantisch und sogar graphemisch.

Abb. 01: Das Modell von Fromkin (1971) (nach Pechmann (1994))

Letztlich aber legte sie mit ihrem rudimentären Modell der Sprachproduktion noch die Grundlage für alle folgenden (vgl. Pechmann 1994: 43f & Fromkin 1971). Auf Stufe 1, der konzeptuellen Repräsentation, wird der Inhalt der Äußerung festgelegt. Diese ist noch nicht in sprachlicher Form vorhanden, wofür Wortblends sprechen. Auf Stufe 2 wird eine syntaktische Struktur aufgebaut und den Elementen dieser Struktur semantische Merkmale zugewiesen. Auf Stufe 3 folgt die Intonationskontur einer Sprache. Auf Stufe 4 werden endlich die lexikalen Elemente gewählt, indem zuerst nach semantischen Spezifikationen gesucht und zusätzlich die phonologische Form bereitgestellt wird¹³. Für die Trennung spricht, dass Wortersetzungen entweder semantisch oder phonologisch motiviert sind. Andere Fehler können entstehen, weil beim lexikalen Zugriff erst mehrere Repräsentationen aktiviert werden, von denen eine gewinnt¹⁴. Auf Stufe 5 werden die Morpheme der Wörter der Phonologie nach angepasst. Und letztlich erfolgt die Artikulation.

Fazit: Man sieht, ihr Modell war noch sehr einfach und brauchte viele Überarbeitungen, doch gab sie eine erstaunliche Einsicht. Gemein hat sie mit späteren Modellen, dass man eine erste Stufe der Konzepte und eine letzte der Artikulation annimmt. Auch die Reihenfolge der Stufen dazwischen ist in etwa dieselbe, aber noch unterschiedlich aufgeteilt.

3.3. Garrett (1980): modularer Standard; zwei Ebenen im lexikalen Zugriff.

Merrill Garrett (1980 & vgl. Pechmann 1994: 46ff) schuf dann das erste wichtige Modell, indem es auch wirklich allein um das Modell ging. Seine Grundlage waren Sprechfehler, Untersuchungen aphatischer Störungen sowie Pausen in der Kommunikation. Er war aber bereits selber der Meinung, dass Experimente noch fehlen würden, die Sprechfehler aber immerhin schon zu Hypothesen verhelfen.

Abb. 02: Garetts Modell (nach Harley (1995))

Das Modell besteht aus 3 Ebenen: Nachricht (bzw. Konzeptualisierung), Satz (bzw. Formulation) und Artikulation. Es dürfte klar sein, dass der Schwerpunkt hierbei die Satzebene¹⁵ mit der Syntax ist. Diese wiederum unterteilt er in zwei weitere Ebenen der Repräsentation, wie es auch später übernommen wurde. Die erste Ebene ist die funktionale mit der logischen Form. Sie enthält bedeutungsmäßig spezifizierte lexikale Einheiten und ihre funktionalen Beziehungen zueinander. Hier wird die syntaktische Struktur aufgebaut sowie Argumente und Prädikate dort eingesetzt. Auch dies übernahm man in späteren Modellen als die Lemma-Ebene. Die zweite Ebene ist die positionale, später Lexem-Ebene genannt. Sie enthält so genannte Phrasenrahmen mit Spezifikationen der prosodischen Struktur einer Phrase und zugehöriger Funktionswörter. Auch werden hier phonologische Formen der lexikalen Einheiten¹⁶ aktiviert und in den Phrasenrahmen eingesetzt.

Abb. 03: Garretts Modell (nach Pechmann (1994))

Weniger detailliert geht er wie gesagt auf die anderen Ebenen ein. Um das Modell Schritt für Schritt zu beschreiben: Von der konzeptuellen Ebene, über die er kaum etwas sagt, geht es zur funktionalen. Dort werden lexikale Einheiten selegiert und eine funktionale Struktur aufgebaut, in die wiederum die lexikalen Einheiten eingesetzt werden. Auf der positionalen Ebene wird auf die phonologische Form der Lexeme zugegriffen und positionale Planungsrahmen erstellt. Segmentale und prosodische Wortstrukturen werden bestimmt. Danach folgt noch die Bestimmung phonetischer Details, bevor es zur Artikulation übergeht, zu der er auch nicht viel sagen konnte. Die Spezifizierung phonetischer Merkmale muss aber stattfinden, da sich feststellen lässt, dass in Sprechfehlern selbst „falsche“ Wörter den phonologischen Regeln entsprechend angeglichen werden, also nachdem die Segmente schon festgelegt sind.

Garett bemerkte einige Auffälligkeiten bei der Sprachproduktion (vgl. Garrett 1980 & Pechmann 1994: 49ff). Die Sprechfehler unterteilte er in verschiedene Klassen von Fehlern, hauptsächlich in Wortvertauschungen vs. Morphem- & Phonemvertauschungen. Vertauschte Wörter gehören immer zur selben Klasse und sind meist „Nomina“, während die anderen Klassen verschiedene syntaktische Kategorien betreffen. Weiterhin liegen vertauschte Morpheme & Phoneme näher beieinander als Wörter es tun: Erstere werden innerhalb syntaktischer Phrasen vertauscht, letztere über Phrasen hinweg, was für ihn Evidenz war, dass es sich hier auch um zwei verschiedene Ebenen handelt. Wörter werden vor der so genannten funktionellen Repräsentation vertauscht. Neu bei Garett ist auch die Unterscheidung in offene und geschlossene Wortklassen bei der Sprachproduktion. Diese Unterscheidung nahm er vor, da er feststellte, dass offene Klassen an Wortvertauschungen teilnehmen, geschlossene aber so gut wie nicht. Eine Ausnahme sind die Präpositionen, welche in Wortvertauschungen, aber nicht in Morphem- & Phonemvertauschungen vorkommen, und somit als einzige geschlossene Klasse in Wortvertauschungen. Der Grund ist wohl, weil sie wichtige syntaktische Funktionen erfüllen und vielleicht weil sie Phrasenkopf sind. Auf jeden Fall scheinen sie auf der funktionalen Ebene lexikal zu sein, auf der positionalen dagegen nicht.

Weiterhin sind noch Silben wichtig für die metrische Struktur der Äußerung, denn Fehler finden sich auch in Bezug auf die Silbenstruktur, welche eine aktiv aufgebaute Rahmenstruktur darstellt. Hier lehnt Garrett sich an das Slots-and-Fillers-model von Shattuck-Hufnagel (z.B. 1987 erklärt) an. Nach diesem besteht die Silbenstruktur aus Slots, in die abstrakte phonemische Repräsentationen entsprechender Wörter als „Filler“ eingesetzt werden, was ein Monitor überwacht. Wenn ein Element eingesetzt wurde, wird das Segment „abgehakt“ und steht damit nicht noch einmal zur Verfügung. Sprechfehler entstehen, wenn ein Slot mit falschem Filler besetzt wird oder wenn der Monitor ausfällt. Außerdem hat sie geschlussfolgert, dass der Wortanfang wichtig für die phonetische Planung ist, da bei Fehlern dieser am häufigsten betroffen ist. Bei experimentell induzierten Sprechfehlern fand sich ein „Wortanfang-Bias“, also verstärkter Effekt des Wortanfanges, jedoch nur bei syntaktischen Konstruktionen und nicht bloßen Wortlisten. Dies deutet darauf hin, dass Phrasen erst über Wörter ohne Onsets aufgebaut und danach erst vollendet werden. Damit nahm sie bereits eine Art Zwei-Stufen-Modell voraus.

Garetts Modell war strikt modular, was ein paar Probleme mit sich bringt (vgl. Pechmann 1994: 57f). Zunächst einmal kann es den „lexical-bias“ nicht erklären, der besagt, dass bei Sprechfehlern (v.a. Phonemvertauschungen) meist richtige Wörter der Sprache entstehen. Garrett (1980) hielt es hier wie spätere Verfechter des modularen Modells (vgl. v.a. Levelt), dass die wahrscheinlichste Möglichkeit ein Monitor ist, der darauf programmiert ist, richtige Wörter durchzulassen, falsche Formen dagegen nicht. Außerdem meinte auch er, dass dies aber nicht entscheidbar und das modulare Modell immerhin eine gute Arbeitshypothese ist. Vielleicht seien auch durchaus parallele Prozesse möglich, die auf einzelnen Ebenen in zeitlicher Überlappung arbeiten. Die Fehlerklasse der „Blends“ deuten zumindest darauf hin, denn diese müssen sehr früh entstehen, wenn zwei alternative Kandidaten bis zur phonologischen Ebene aktiviert bleiben und ein Fehler im Monitor sie vereint durchlässt. Weiter sind für Garrett „Mixed Errors“ wichtig, bei denen bei Wortersetzungen die Klassen erhalten bleiben und die Wörter entweder semantisch oder phonologisch ähnlich sind. Für Garrett sind sie ein Beleg gegen interaktive Modelle, denn dort sollten sie extrem häufig vorkommen. Stattdessen sprechen aber auch sie für einen Zwei-Stufen-Zugriff.

Fazit: Auch Garrett nahm eine erste Stufe der Konzeptualisierung an. Ebenso folgt auch bei ihm danach der Aufbau der Syntax, im Gegensatz zu Fromkin werden aber bereits hier die lexikalen Einheiten eingesetzt, vor der Prosodie, während es bei Fromkin umgekehrt war. Letztlich kommen sie aber wieder auf das selbe Ergebnis, wenn sie zuerst die phonetische Ausarbeitung und dann die Artikulation annehmen. Beide blieben aber bei modularen Modellen, deren Realität langsam bezweifelt wurde. Wichtig sind seine Unterscheidungen im lexikalen Zugriff auf die Ebenen von Funktional (Lemma) und Positional (Lexem) sowie die Erkenntnis, dass sich geschlossene und offene Klassen unterschiedlich verhalten. Auch dass er Silben per Slots-and-Fillers aufbaute, war eine wichtige Grundlage.

3.4. Dell (1986): interaktiver Standard.

Dell & Reich (1981, vgl. Pechmann 1994: 60ff) sprachen sich für ein interaktives Modell aufgrund zweier empirischer Phänome aus. Erstens den „lexical-bias“ und zweitens „Mixed-Errors“. Beide kommen häufiger als nur zufällig vor. Sie erklärten es mit Feedback von der Phonologie zur Morphologie. Der lexical-bias sagt aus, dass ein Fehler bei der phonologischen Enkodierung durch „backward spreading“ (also Feedback) zur Aktivierung kompatibler Wortknoten führt, die wiederum ihre eigene phonologische Struktur aktivieren, wobei die falsche dann ‚gewinnen‘ kann. Da Pseudowörter keine Knoten haben, kommen deshalb häufiger richtige Wörter vor. Dell & Reich bezweifelten auch noch einige andere Funde von Garrett. Dieser wiederum sagte, dass jede Theorie einen Monitor haben muss, der bei Fehlern falsch gewählte Wörter durchlassen kann, um erklären zu können, dass wir selbst unsere eigenen Fehler bemerken – und dann spricht auch nichts gegen ein modulares Modell.

Abb. 04: Modell von Dell (1986)

Gary Dell (1986, vgl. auch Pechmann 1994: 64ff) stellte sein interaktives Modell dann alleine vor. Er unterteile es in folgende Ebenen: Semantik, Syntax & Morphologie (funktionale Ebene), Phonologie (positionale Ebene) – dabei beschrieb er nur die positionale. Jede Ebene hat eigene generative Regeln, die festlegen, welche Kombination der (lexikalen) Einheiten akzeptabel ist. Dies ist ein Merkmal, das spätere Modelle übernahmen. Das Lexikon ist als Netzwerk aufgebaut, das Knoten auf verschiedenen Ebenen hat (Konzepte, Wörter, Morpheme, Phoneme, phonetische Merkmale und vielleicht Silben). Hohe Knoten sind mit niederen verbunden, z.B. Wörter mit Morphemen. Auch dies übernahmen spätere Modelle. Die Interaktion zwischen Regeln und Lexikon findet nach dem Slots-and-Fillers-Prinzip statt. Regeln erstellen abstrakte Rahmen (Frames) mit Slots, die besetzt werden. Jede Ebene verfügt so über einen Selektionsprozess. Einzelne Einheiten werden markiert, um richtig eingesetzt zu werden. Am Ende jeder Ebene steht eine Repräsentation aus einer geordneten Folge markierter Knoten. Die Konstruktion verläuft simultan, aber Prozesse auf den unteren Ebenen beginnen erst, wenn sie auf der höheren Ebene zur Verfügung stehen¹⁷. Weiter hat jede Ebene einen Buffer (Zwischenspeicher), der das Ergebnis speichert, bis die untere Ebene daran arbeitet. Die phonologische Ebene liegt ebenso als hierarchisches Netzwerk vor. Konsonanten und Konsonantencluster haben zweifache Knoten, da sie Onset oder Koda sein können, derweil Vokale nur Nukleus sind. Man sieht, zentral ist die Silbenstruktur. Es gibt ein Priming für den Silbenonset, da die Silbe von-links-nach-rechts aufgebaut wird.

Abb. 05: Slots-and-Fillers bei Dell (1989) bei Aufbau der Repräsentation und der Silbe.

Aktiviert werden Knoten durch Aktivation, die sich ausbreitet, summiert und zerfällt. Knoten mit einer Aktivierung über 0 aktivieren alle damit verbundenen Knoten, wobei sich die Höhe der Aktivation von Knoten unterscheiden kann, je nachdem von wievielen Knoten Aktivation eintrifft und sich summiert. Damit aber nicht nach und nach die falschen Knoten aktiviert werden, zerfällt die Aktivation langsam wieder bis 0. Auch ein Knoten, der vollständig aktiviert wurde, wird wieder auf 0 gesetzt. Feedback aus den unteren Ebenen kann es aber wieder erhöhen. Da es auf jeder Ebene nur einen so genannten aktiven Knoten geben kann, der den gesamten Prozess übergibt an die nächste Ebene, hat das Modell eine starke serielle Komponente.

Evidenz für sein Modell holte sich Dell vor allem aus Sprechfehlern, die mit seinem Modell erklärbar und natürliche Prozesse sind. Falsche Einheiten haben schlicht eine höhere Aktivation als korrekte und Wortvertauschungen erhalten die Wortklasse, weil die syntaktische Ebene mit ihrem erstellen Rahmen eine bestimmte Wortklasse erwartet. Auch Ursachen für Interferenzen für Sprechfehler kann er nennen: 1. könnte sich verbreitende Aktivation zuviele Knoten aktivieren, 2. könnte zuvor gesprochenes noch aktiv oder erst noch kommendes bereits aktiv sein, 3. könnte durch unbewusste Kognition (Perzeption) etwas zusätzliches aktiviert werden¹⁸. Einflüsse auf die Wahrscheinlichkeit einen Fehler zu produzieren nennt er 4: den „output-bias“ (z.B. den lexical-bias), Ähnlichkeit (z.B. Knoten mit Verbindungen zu ähnlichen über oder unter sich), Sprechgeschwindigkeit (weil die Verarbeitung immer gleich lange braucht, wir aber zu schnell sprechen können) und Distanz. Er unternahm auch Simulationen und Experimente, in denen er die Fehler fand. Je schneller gesprochen wird, desto schwächer ist der lexical-bias.

Das Modell von Dell ist laut Roelofs (2000: 76ff) bis auf einige Unterschiede bereits ähnlich zum späteren WEAVER++-Modell. Z.B. macht er keine Annahme, dass der Output der phonologischen Enkodierung die phonologische Wortrepräsentation ist und ein Syllabar gibt es auch nicht. Auch wie die phonetische Enkodierung danach vonstatten geht, sagt das Modell nicht. Und natürlich hat WEAVER++ kein Feedback.

Es bleiben aber noch Probleme mit dem Modell (vgl. Pechmann 1994: 73ff). Warum z.B. sind meist Anfangsphoneme von Fehlern betroffen? Vielleicht, weil sie besonders leicht abrufbar sind? Und warum gibt es oft den Fehler, dass in einer Äußerung häufig wiederholte Phoneme verschwinden? Eigentlich sollte sich doch die Aktivation für das Phonem erhöhen. Vielleicht gibt es doch etwas hemmendes im System? Auch ist es ein Problem, dass Phoneme fest an Silbenpositionen gebunden sind, da es ja auch Vertauschungen geben kann. Weiter ist ein Problem, dass Dell nicht zwischen offenen und geschlossenen Wortklassen unterschied, was aber sehr wohl – wie u.a. von Garrett gezeigt – vorkommen kann, zB. bei Aphatikern.

Das Modell hat auch laut Roelofs (2000: 83ff) zahlreiche Probleme. Zunächst einmal hat es Konvergenz-Probleme, weil Lemmas über Konzepteigenschaften geholt werden, was Rechenprobleme gibt. Wie wird ein Gedanke korrekt in Konzepteigenschaften zerlegt? Wie vermeidet das System, dass über die Eigenschaften sämtlich Hypo- und Hyperonyme aktiviert werden? Wie aktiviert es korrekt nur ein Wort statt mehreren, wenn Synonyme vorhanden sind? Obwohl Wortbedeutungen keine wirkliche Definitionen haben, wissen Sprecher, welche konzeptuellen Informationen wichtig für Wörter sind. Wie aber weiß der Nachrichten-Enkodierer, welches Set von konzeptuellen Eigenschaftensknoten zu lexikalen Konzepten gehört? Theoretisch müsste das Set von Eigenschaften eines spezifischen Wortes die seines Hyperonyms als Subset haben. Dell kann nicht erklären, wie das System es weiß, welches Subset richtig ist, also welche Eigenschaften einen Teil der Aktivation bekommen sollte. Eine leichte Änderung des Systems könnte die konzeptuellen Eigenschaftsknoten in einem Beschränkungen-Befriedigungs-Netzwerk einbetten; dann würden lexikale Konzepte korrespondieren mit einem stabilen Status des Netzwerkes. Und wie vermeidet man, dass ein Hyponym geholt wird? Vielleicht, indem man die Ausbreitungsrate aus dem Modell nimmt und stattdessen benannte Verbindungen einführt. Das Synonymproblem wiederum könnte man lösen, wenn konzeptuelle Primitive in der Phrasenproduktion sequentiell aktiviert werden, allerdings spricht die Evidenz dagegen. Letztlich fehlt vor allem auch eine Lösung für alle Probleme auf einmal. Zweitens hat Dell ein Problem mit Bindung und Latenz. Wie holt das System korrekt Lemmas, Morpheme und Segmente eines Wortes im Kontext? Bindung entsteht durch temporale Beschränkungen des Planungsprozesses und dass nur ein Morphem auf einmal geholt wird. Das Modell sagt aber viele Fehler voraus, wo nur wenige sind, wenn im Kontext mehrere Wörter stehen. Priming betrifft nur Aktivation, nicht Latenz. Also muss etwas anderes als Zeit für Bindung zuständig sein. Das letzte Problem ist Syllabifikation und die phonetische Enkodierung, die schlicht nicht vorhanden ist im System. Manchmal muss die Bindung von Segmenten an Slots Morphem-Wort-Grenzen ignorieren. Bei Dell wären Segmente markiert für Silbenpositionen, was aber Probleme macht, weil jedes Wort eine Sequenz markiert für Silbenpositionen, was aber Probleme macht, weil jedes Wort eine Sequenz von Silbenknoten ist und jeder Konsonant Onset oder Koda. Und ohne phonetische Ebene kann das Modell nicht erklären, warum letztlich noch phonologische Regeln angewandt werden.

Fazit: Dells Modell geht noch einen großen Schritt weiter gen späteren Modellen, indem er zum Beispiel die jeweilige Repräsentation einer Ebene erstellende Regeln annahm und das Lexikon als Netzwerk darstellte. Auch der Begriff der Aktivation, der erst erklärt, wie die Produktion im Modell fortschreitet, stammt von ihm. Jedoch war sein Modell weiter auf Sprechfehlern erbaut und konnte noch nicht alles erklären.

3.5. Levelt (1989): inkrementeller Standard.

Alle Modelle bisher betrachteten nur Teilprozesse der Sprachproduktion. Erst Willem Levelt (1989, vgl. auch Pechmann 1994: 79ff) machte sich daran, alles auf einmal zu beschreiben und gleichzeitig ein verbessertes Modell vorzulegen. Dieses, das in Änderungen immer noch verwendet wird, ist modular¹⁹ und seriell und baut auf empirische Befunde auf. Ein modulares Modell bevorzugt er, weil es besser zu testende empirische Hypothesen erlaubt und leichter falsifizierbar ist, auch wenn interaktive Modelle durchaus Vorteile haben und eine Parallelität der Prozesse aufgrund der Schnelligkeit anzunehmen ist. Letztlich findet er es aber noch nicht entscheidbar.

Sein Modell hat drei Stufen: Konzeptualisierung, Formulierung (funktionale & positionale Ebene), Artikulation. Auf der ersten Stufe treffen Intention, sozialer Rahmen, Pragmatik etc. zusammen und bilden den Input für Stufe 2. Dort wird dieser Input transformiert in sprachliche Äußerungen, was in wiederum zwei Teilprozessen geschieht. Der erste davon, die grammatische Enkodierung, ist auch wieder in zwei Teilprozesse unterteilt. Zunächst werden Lemmas aktiviert, die semantisch und syntaktisch spezifiziert sind, aber nicht phonologisch. Dann arbeiten syntaktische Prozeduren, die nach einem Lemma suchen, das als Phrasenkopf fungieren kann. Danach wird die syntaktische Struktur aufgebaut und in die Slots die jeweiligen Einheiten gesetzt. Die phonologische Enkodierung nimmt dies und spezifiziert die lexikalen Einheiten phonologisch. Das Ergebnis ist eine phonologisch spezifizierte Kette von Morphemen in der richtigen syntaktischen Reihenfolge. Dies wird wiederum an die Artikulation geleitet, die motorische Programme aktiviert. Alle Ebenen werden die ganze Zeit von einem Monitor überwacht. Wichtig ist hierbei noch, dass sein Modell inkrementell ist, was heißt, dass die Verarbeitung nicht auf Stufe 1 fertig sein muss, bevor sie weitergegeben wird.

Abb. 06: Levelts Modell (nach Pechmann (1994))

Warum aber unterteilt Levelt in grammatische und phonologische Enkodierung, sprich, in zwei Stufen beim lexikalen Zugriff? Evidenz für diese Annahme haben wir schon gesehen. Vor allem das ToT spricht dafür, dass semantische und syntaktische Informationen getrennt sind von phonologischen. Auch die Dissoziation von Wortsubstitutionen (dass sie mal semantisch ähnlich, mal phonologisch ähnlich aussehen). Auch zeigen Experimente ein frühes semantisches und spätes phonologisches Priming.

Betrachten wir nun die Stufen im Detail.

Stufe I ist die Konzeptualisierung. Diese findet sich nicht in vorhergehenden Modellen, was nur gerechtfertigt ist, wenn sie von den anderen Stufen unabhängig ist. Hier werden sämtliche Rahmenbedingungen gesetzt, wie soziale Regeln, Riten, turn-taking, das Prinzip der Kooperation, Probleme der Deixis, Pragmatik usw. Die Frage hier ist vor allem, wie Wissen wohl mental repräsentiert ist.

Stufe II ist die Formulation. Stufe IIa ist die grammatische Enkodierung. Teil 1 von IIa ist die Lemma-Aktivierung und Teil 2 der Aufbau einer syntaktischen Struktur, welche sich aus der Aktivierung der Lemma ergibt. Das Ergebnis ist semantisch und syntaktisch aber noch nicht phonologisch spezifiziert. Stufe IIb, die phonologische Enkodierung, braucht Hinweise, die auf die Forminformationen und diakritische Merkmale verweisen, welche sie in Form der Lexeme findet. Die phonologische Enkodierung ordnet lexikalen Elementen Phoneme in der richtigen Reihenfolge zu und legt metrische und prosodische Struktur fest. Die phonologische Struktur besteht aus hierarchisch aufeinander bezogene Ebenen. Die unterste Ebene ist die Segmentschicht mit einzelnen phonetischen Segmenten; Vokalen und Konsonanten. Danach folgen Schichten für Silben und die metrische Struktur. Es werden nacheinander erbaut: die phonologische Phrase (eine metrische bestimmte Gruppe benachbarter Wörter) und die Intonationsphrase (aus einer oder mehr phonologischen Phrasen) mit dem sprachspezifischen typischen Intonationsmuster. Levelt (1989) nimmt an, dass die phonetische Struktur eines Wortes nicht fest ist, sondern als Ergebnis mehrerer Repräsentationen stets neu erstellt wird. Diese Repräsentationsebenen sind die morpho-metrische, die segmentale und die phonetische. Erstellt wird die phonetische Struktur ähnlich dem Slots-and-Fillers-Modell. Die morpho-metrische Ebene nimmt als Input Lemmas mit diakritischen Merkmalen und gibt eine morphologische und metrische Struktur aus. Die Segmentschicht nimmt als Slots Stämme und Affixe und gibt die Silbenstruktur aus. Die phonetische Ebene hat für jede Silbe Adressen, sprich Slots für Onset, Nukleus und Koda. Wenn diese besetzt sind, ergibt es einen phonetischen Plan.

Abb. 07: Phonologische Struktur bei Levelt (1989)

Dieser Plan spezifiziert artikulatorische Programme, welche die Artikulation ausführen sollen. Die häufigsten Silben einer Sprache sind hierbei im Lexikon gespeichert aus Ökonomiegründen. Die Intonation einzelner Wörter ist ebenso gespeichert, wird aber jedes Mal modifiziert. Die Wortdauer dagegen ist nicht fest gespeichert, sondern von der Umgebung abhängig. Pausen entstehen durch phonologische Phrasen und eigene Kontrolle. Die Artikulation erfolgt erst, wenn ein Wort vollständig ist. Hierbei gibt es das Problem der Motorik; verschiedene widerstreitende Theorien können noch nichts festes über die Artikulation sagen.

Letztlich gibt es noch den Monitor, der die gesamte Sprachproduktion überwacht. Evidenz findet sich darin, dass Sprecher fast alle Ebenen der Produktion überwachen können.

Fazit: Auch Levelt entwickelte auf Basis der anderen Modelle weiter und gab vor allem als erster weitere Einblicke in Konzeptualisierung und Artikulation. Sein Modell ist wieder modular, aber inkrementell mit einem Monitor, um die Probleme bisheriger modularer Modelle zu erklären. Die grammatische Enkodierung formuliert er als erster explizit in zwei Stufen auf Basis empirischer Phänomene. Überhaupt ist seine Grundlage eher experimentell und falsifizierbar.

3.6. Das Standardmodell.

3.6.1. Bock & Levelt (1994): grammatische Enkodierung im inkrementellen Modell.

Bock & Levelt (1994) beschreiben die grammatische Enkodierung im Standardmodell, welches auf Levelt (1989) und Dell basiert. Als grammatische Enkodierung (fortan: g.E.) verstehen sie den Prozess, der für die Selektion der richtigen lexikalen Konzepte und den Zusammenbau des syntaktischen Rahmens (Framework) zuständig ist. Die einzelnen Komponenten der g.E. sind dem Bewusstsein nicht erschließbar und nur in Fehlern feststellbar.

Abb. 08: Das Standardmodell (nach Bock & Levelt (1994))

Das Netzwerkmodell des lexikalen Zugriffs (Bock & Levelt 1994: 950ff): Informationen sind im mentalen Lexikon gespeichert. Wörter werden erst erstellt, wenn sie benötigt werden. Die Informationen haben drei verschiedene Arten: Bedeutung, syntaktische Eigenschaften (Lemma = Wort als syntaktische Entität) und Formeigenschaften (morphologische & phonologisch = das Lexem). Die Informationen korrespondieren zu Knoten in drei Ebenen der Repräsentation: Konzept, Lemma und Lexem. Einige Konzeptknoten haben Verbindungen direkt zu den Lemma-Knoten in Form eines lexikalen Konzepts²⁰. Der lexikale Zugriff erfolgt, wie bei Dell (1986), durch sich ausbreitende Aktivation. Die Konzeptknoten können z.B. durch Bilder aktiviert werden. Aktivation breitet sich aus zu allen verbundenen Knoten. Lexikale Selektion ist Selektion des richtigen Lemmaknoten. Die Hauptverbindung im System ist die zwischen Lemma und Lexem; systematische Beziehungen, die hoch arbiträr sind, was sich vor allem im ToT zeigt.

Fehler im lexikalen Zugriff manifestieren sich in drei Typen: Substitutionen, Blends und Vertauschungen (vgl. Bock & Levelt 1994: 954ff). Substitutionen entstehen, wenn ein alternatives lexikales Konzept ebenfalls aktiviert ist. Wenn dann beide Lemma aktiviert werden, ist die Chance gegeben, dass das Falsche selegiert wird. Auch Wörter, die man optisch wahrnimmt können diese Wahrscheinlichkeit erhöhen. Mixed Errors als Fehler sind umstritten, da u.a. experimentelle Evidenz Dells Erklärung des Feedbacks nicht unterstützt. Stattdessen könnte es Umgebungskontamination sein oder durch einen Monitorfehler entstehen. Auch Blends sind ein typisches Problem. Es betrifft jedoch meist Wörter, die fast-Synonyme sind. Wortvertauschungen wiederum betreffen meist Wörter derselben Formklasse.

Bock & Levelt (1994: 956ff) können experimentelle Evidenz zum lexikalen Zugriff vorweisen. Am meisten wird „Objekt-Naming“ gewählt. Hierbei muss man das Objekt eines Bildes benennen. Dies geschieht langsamer als bloßes Vorlesen, da Geschriebenes wohl direkt auf das Lemma zugreift, während Naming den Weg über das Konzept gehen muss. Ein weiteres Experiment sind Bildinterferenz-Paradigmen, eine Doppelstimulation. Dort muss man ein Bild nennen und sieht gleichzeitig einen geschriebenen Distraktor. Als Variablen kennt dieses Experiment die Relation zwischen Distraktor und Ziel und die Stimulus-Onset-Asynchronie (SOA, die Zeit zwischen dem Erscheinen beider Objekte). Naming wird verzögert, wenn der Distraktor semantisch relatiert ist, also semantisch hemmt. Der Effekt dabei ist lexikal und nicht konzeptuell. Auch die Wortfrequenz ist wichtig für eine schnelle Objektnennung, wobei Wort- und Silbenfrequenzen unabhängig sind und das Lexem den meisten Nutzen aus der Frequenz hat.

Funktionszuweisung nennen Bock & Levelt (1994: 960ff) den Vorgang, wenn Elemente der Nachricht mit ihren Lemmas verbunden werden und syntaktische Funktionen bekommen. Die wichtigsten Funktionen sind Subjekt und (direktes) Objekt, welche beide in den meisten Sprachen morphologisch markiert sind. Relationen werden nur einmal zugewiesen, doch Phrasenvertauschungen können durch Fehler entstehen. Informationen, welche die Funktionszuweisung kontrollieren, sind Thema (Event) und Diskurs („Aufmerksamkeitsprozesse“). Sie sind vorhanden in der Nachricht und manifestieren sich via strukturellen und semantischen Konventionen der Sprache, v.a. als Subkategorien/Argumente der Lemmas. Die Verbwahl der Nachricht ist wichtig für die Zuweisung der Rolle. Das Thema sind Agens bzw. „Experiencer“, der Diskurs ist eine perzeptuelle Prominenz des Agens, manipuliert durch den Diskurs. Weitere Information wird durch Prosodie markiert. Mentale Prominenz ist konzeptuelle Zugänglichkeit und damit die Zuweisung einer Führungsrolle in der Äußerung. Die Funktionszuweisung wird durch die Verbwahl kontrolliert. Agens ist normalerweise Nominativ. Ein Verbkongruenz-Fehler kann entstehen, wenn z.B. die NP des Subjekts vom Verb getrennt wird. Eine Asymmetrie zwischen dem Verb und anderen Hauptkategorien kann zu einem semantischen Ersatz führen. Der funktionale Prozess hat ein aktiviertes Set von Lemmas und ein Set von syntaktischen Funktionen, verbunden via der Argumentstruktur der Lemmas.

Der Zusammenbau von Konstituenten erfolgt laut Bock & Levelt (1994: 969ff) durch Rahmen (Frames). Die Satzstruktur wird formiert unter der Kontrolle von Informationen, die nicht konzeptuell, semantisch oder prosodisch sind, sondern syntaktische Kategorien der Lemmas. Der Prozess generiert einen Phrasenstrukturbaum von Oben bis Unten, wobei komplexe Konstituenten dazu tendieren, sich dort zu befinden, wo sie am wenigsten komplex sind.

Flektion betrifft nach Bock & Levelt (1994: 972ff) nicht nur die eigentliche Flektion, sondern auch die Formulation von Funktionswörtern, die geschlossene Klasse. Bei Sprechfehlern wird die geschlossene Klasse seltener betroffen, wie wir schon gesehen haben, vielleicht weil sie frequenter und kürzer sind und keinen Akzent tragen. Dies zu erklären gibt es zwei Alternativen, Garrett oder Dell folgend. Letztlich werden flektierte Formen separat von Stämmen generiert, was „Strandings“ erklärt.

Funktionales Prozessing bietet also eine Integration eines Sets von syntaktischen Funktionen, welche wiederum einen Rahmen für die Positionierung von Wörtern bilden und das positionale Prozessing kontrolliert und als Output ein geordnetes Set von Wortformen und ihren Flektionen liefert. Dies sahen wir in den Modellen bisher nicht so detailliert.

Fazit: Bock & Levelt (1994) gaben einen detaillierten Einblick in die grammatische Enkodierung. Dabei wird ein lexikales Konzept aktiviert und selegiert wiederum sein Lemma. Dieses holt syntaktische Eigenschaften und weißt sie einer Struktur zu, wobei v. a. die Verbwahl wichtig ist. Danach wird morphologisch enkodiert, indem zuerst Morpheme in einen Rahmen gesetzt werden und danach ihre Flektion bekommen.

3.6.2. Meyer (2000): Formbildung im Standardmodell.

Meyer (2002: 49f) beschrieb die Formbildung im Standardmodell der Sprachproduktion im Detail.

Laut Meyer (2000: 51f) zeigen Lautfehler, dass Wortformen nicht im Ganzen aus dem Lexikon kommen (Wortformenkodierung), sondern in kleinere Teile zerlegt sind. Trotzdem nehmen Hörer sie meist als korrekt wahr. Spät angewandte phonologische Regeln zeigen, dass Fehler nicht bei der Kreation der phonetischen Repräsentation oder Artikulation entstehen, sondern schon früher, bei der abstrakten phonologischen Repräsentation. Meist besteht der Fehler nur aus ein oder zwei Segmenten. Dass es phonologische Eigenschaften sind, ist selten, also sind die Hauptkonstituenten wohl phonologische Segmente. Lautvertauschungen kommen wohl wegen Rahmen und den zu füllenden Slots vor. Die Rahmen enkodieren die syllabische Struktur der Äußerung weil Lautfehler positionalen Beschränkungen unterliegen. Dabei korrespondieren die Rahmen-Positionen mit Silbenkonstituenten. Die Silbenstruktur ist Teil der metrischen Repräsentation eines Wortes. Segmente und metrische Rahmen müssen unabhängig geholt werden, weil Fehler erst entstehen, wenn ein Segment eingesetzt wird.

Für die segmentale Repräsentation muss man laut Meyer (2000: 52ff) zwei Annahmen machen. Einheiten haben die Größe von phonologischen Segmenten und sind abstrakte linguistische Entitäten und nicht Spezifikationen von Motorprogrammen. Segmente sind die eindeutig häufigsten Fehler-Einheiten. Oft sind zwei nahe Segmente betroffen, meist sogar im selben Silbenkonstituent, wobei komplexe Segmente verbunden bleiben. Seltener finden sich Eigenschaftsfehler. Phonetische Eigenschaften sind zwar sichtbar in der Wortformenkodierung aber nicht die Prozess-Einheiten, die unabhängig selegiert und kombiniert werden. Jene sind phonologische Segmente. Implizite Priming-Paradigmen ergaben, dass Wortformen in Segmente und nicht Eigenschaften zerlegt sind. Damit wäre Fromkins Annahme, dass Eigenschaften wichtig seien, widerlegt. Homogenes Priming ergab auch Resultate mit den gleichen ersten Segmenten, aber nicht Eigenschaften. Die Einheiten des Prozessing sind abstrakte phonologische Konstituenten und nicht nur Spezifikationen von Motorbewegungen, weil das Fehlerergebnis meist wohlgeformt ist. Es müssen abstraktere Einheiten sein. Selten aber verstoßen solche Formen auch mal gegen die Phonotaktik. Weiterhin tendieren für eine Eigenschaft spezifizierte Segmente dazu ein unspezifiziertes zu ersetzen. Deshalb müssen die Segmente auch intern aufgebaut sein, nämlich in Eigenschaften vs. Nicht-Eigenschaften. Fazit: Die meisten Fehlereinheiten haben die Größe einzelner phonologischer Segmente und hören sich wohlgeformt an. Seltener betreffen Fehler kleinere Einheiten und hören sich nicht gut an. Ein Enkodierungsprozess handhabt phonologische Segmente gefolgt von anderen Prozessen, die andere Typen von Einheiten handhaben – Fehler können überall passieren.

Die metrische Repräsentation ist laut Meyer (2000: 57ff) wie folgt im Standardmodell. Nach einer segmentalen Schicht setzt die phonologische Repräsentation auf einer metrischen Schicht an. Wichtig ist, dass beide Schichten unabhängig geholt werden, wobei später Segmente in die metrische Rahmen eingesetzt werden. Die metrische Schicht hat Repräsentationen von Silben-internen Positionen bzw. Konstituenten. Ein Argument dies anzunehmen ist die Silben-Positions-Beschränkung: Die Segmente in Fehlern stammen aus korrespondierenden Silbenpositionen. Silbenrahmen haben benannte Positionen, Segmente sind markiert für eine Position, sich wiederholende Segmente müssen mehr als einmal da sein. Vertauscht werden fast immer nur Segmente, die sich ähnlich sind. Sprecher holen metrische Informationen mit distinktiven Positionen korrespondierend zur Silbenposition, Segmente werden in die Silben nach universalen und sprachspezifischen Silbifikationsregeln erstellt und brauchen nicht gespeichert werden. Akzentfehler geschehen, wenn der Akzent eines morphologisch ähnlichen Wortes angenommen wird. Auch gibt es einen Akzenteffekt für segmentale Fehler: In Wörtern mit Akzent geschehen häufiger Segment-Fehler und Vertauschungen bleiben oft im selben Akzentmuster. Jedoch geben Sprechfehler keine Evidenz, ob der Akzent separat vom Segment gespeichert ist. Die metrische Information muss vorbereitet werden um eine Äußerung vorzubereiten, sie ist gespeichert und wird unabhängig von der segmentalen Information geholt. Sie besitzt nur die Anzahl der Wortsilben und wohl Akzentmuster, jedoch nicht bei jedem Wort, was darauf hin deutet, dass es einen Default gibt, der normalerweise angewandt wird, ansonsten wird der Akzent gespeichert. Dies nimmt das Standardmodell aber nicht an.

Die Annahme einer phonetischen Repräsentation ist notwendig, weil die phonologische Ebene zu abstrakt ist (Meyer 2000: 62f). Sie spezifiziert keine Bewegungsmuster, sondern charakteristische Sprechakte und damit eher Ziele denn Bewegungen. Ein neuro-muskuläres Ausführungssystem muss es dann ausführen. Eventuell gibt es einen Zugriff auf ein mentales Syllabar, welches die Muster für hoch-frequente Silben gespeichert hat, während niedrig-frequente die segmentalen und metrischen Informationen nutzen. Evidenz ergibt sich aus dem Silbenfrequenzeffekt.

Laut Meyer (2000: 64f) werden die Formrepräsentationen nach ihrer ersten Bildung noch einmal zerlegt und nicht direkt ausgesprochen. Dies geschieht, weil jedes Morphem aus systematischen Gründen auch anders ausgesprochen werden kann. Die lexikale Speicherung muss also abstrakt genug sein um verschiedene Realisationen zu erlauben und bei der Wortform-Enkodierung wird die interne Struktur der Morpheme dann sichtbar für den Prozessor und damit modifizierbar. Die endgültige Form eines Morphems ist abhängig von seiner Umgebung und wird oft nur subtil verändert. Postlexikale Regeln leiten deshalb die entsprechenden Formen ab, wobei sehr frequente Oberflächenformen gespeichert und kontextabhängige Alternationen berechnet werden.

Fazit: Meyer (2000) erklärte kein eigenes Modell, sondern die Wortformenkodierung im Detail mit Erklärung der Prozesse und Evidenz dafür. Wörter kommen nicht ganz aus dem Lexikon, sondern bestehen aus Segmenten, die in Slots von Rahmen gesetzt werden, wofür verschiedene Sprechfehler sprechen. Diese Rahmen sind Silben, das ganze Wort bekommt den Akzent zugewiesen. Wörter werden erst aus Morphemen zusammengebaut und dann wieder in Teile zerlegt, um im Kontext angepasst zu werden, bevor sie endgültig zur Artikulation gehen.

3.7. Levelt et. al. (1999) & Roelofs (2000): WEAVER++

Levelt et. al. (1999: 2f) stellten ihr Modell WEAVER++²¹ vor, welches aber auf Fromkin, Garrett, Shattuck-Hufnagel, Dell und – vor allem – Levelt (1989) basiert. Ein großer Unterschied ist aber, dass es nicht anhand von Sprechfehlern konzipiert wurde, sondern aufgrund von Reaktionszeitforschung (RT), um normale Prozesse und nicht Fehler zu beschreiben. RT soll ideal sein, um den Zeitverlauf mentaler Prozesse zu analysieren. Jedoch sollte die Theorie auch Fehler erklären können – und ist noch nicht vollkommen.

Roelofs (2000: 83f) beschrieb WEAVER++ in Kürze. Es ist ein berechnendes²² Modell, in dem das mentale Lexikon ein Netzwerk von Knoten und Verbindungen ist, die durch sich ausbreitende Aktivation selegiert werden. Mit Konvergenz-Problemen (siehe Dell) kommt es zurecht, weil jedes lexikale Konzept einen eigenen Knoten hat, die untereinander bezeichnet verbunden sind. Lemmas werden von den lexikalen Knoten und nicht von konzeptuellen Eigenschaften (wie bei Dell) aktiviert. Das Bindungs-Problem (von Dell) entfällt durch benannte Verbindungen, die verifiziert werden durch einen Zugriffsalgorithmus. Das Syllabifikationsproblem entfällt, weil Silben nicht mit Wörtern im Gedächtnis gespeichert werden, sondern Silbenpositionen online zugewiesen werden, wobei die Segmentzuweisung auch Nachbarn (den Kontext) betrachtet und damit phonologische Wörter ergibt. Das Problem der phonetischen Enkodierung entfällt, weil es ein Syllabar gibt, das Motorprogramme für Silben speichert, die auf der Basis von phonologischen Silben als Teil des phonologischen Wortes konstruiert werden.

Abb. 09: WEAVER++ (nach Levelt et. al. (1999))

In der Theorie von Levelt et. al. (1999: 3ff), also WEAVER++, hat jede Prozessebene einen eigenen Output. Die erste Frage ist, ob sie zeitlich überlappend oder sequentiell vorgehen. Die erste Stufe betrifft Konzeptvorbereitungen, bei der lexikale Konzepte im Rahmen der Nachricht aktiviert werden. Eine wichtige Frage hier ist, wie man von der Information zu einer Nachricht mit Konzepten kommt, dem sogenannten Verbalisations-Problem. Auch wichtig ist das sogenannte Perspektive-Nehmen, da dasselbe Objekt sich je nach Betrachtungsweise auf verschiedene Dinge beziehen kann. Abgesehen von dieser Pragmatik besteht die Ebene aber v.a. aus Semantik. In einem Konzeptnetzwerk bestehen Verbindungen zwischen den Knoten, die selber etwas über die Art der Verbindung aussagen. Über diese Verbindungen senden die Konzepte Aktivierung aus. Lexikale Konzepte sind aber nicht nur semantische Eigenschaften, weil einige Probleme dagegen sprechen: Das Hyperonym-Problem und dass es keinen komplexe-Semantik-Effekt gibt, der aussagt, dass komplexeres schwerer zu aktivieren ist. Dies kann man nur erklären, wenn lexikale Konzepte nicht als einheitliches Ganzes vorliegen. Stufe 2 ist die lexikale Selektion. Dort werden Lemmas aus dem mentalen Lexikon abgerufen, wobei nur selten Fehler geschehen. Bei der Aktivierung werden die syntaktischen Eigenschaften des Lemmas aktiv für die grammatische Enkodierung und kreiert die syntaktische Umgebung. Diakritische Parameter des Lemmas werden auch benutzt. Auf Stufe 3 folgt die morphologische und phonologische Enkodierung und Syllabifizierung, welche artikulatorische Gesten vorbereitet. Zunächst holt die phonologische Enkodierung phonologische Eigenschaften aus dem Lexikon. Die Grenze hierher vom Lemma aus wird nur schwer überschritten, was man im ToT sieht. Produktion ist erschwert für infrequente Wörter. Die Enkodierung aktiviert Morphologie, Metrik und Segmente. Nach universalen und sprachspezifischen Regeln wird enkodiert. Stufe 4 ist die Phonetik. Diese wird nur teilweise von WEAVER++ behandelt. Es gibt artikulatorische Gesten auf verschiedenen Stufen. Das Syllabar greift auf die häufigsten gespeicherten Silben zu, kann aber auch neue erstellen. Stufe 5 ist schließlich die Artikulation und nicht in der Theorie. Weiterhin gibt es jederzeit einen Monitor, der Fehler entdecken kann, aber irrelevant für die Theorie ist.

WEAVER++ hat laut Levelt et. al. (1999: 6ff) einige wichtige Eigenschaften. Zunächst einmal ist die Netzwerkstruktur wichtig. Aktivation breitet sich im Netzwerk vorwärts über drei Ebenen von Knoten aus. Die Konzeptebene hat Konzeptknoten mit benannten Verbindungen, welche als Subsets lexikale Konzepte und die wiederum Verbindungen zu Lemmas haben. Jedes Konzept hat einen eigenen Knoten; Bedeutung ergibt sich durch benannte Verbindungen zu anderen Konzeptknoten. Die Lemmaebene hat Lemmaknoten mit benannten Verbindungen zu syntaktischen Eigenschaftsknoten. Jedes Wort hat sein eigenes Lemma und dessen Syntax durch Verbindungen. Diakritische Informationen geben Informationen für Person, Genus usw. Die Wortformebene hat Morphem- und Segmentknoten, die miteinander verbunden sind. Die vorhandenen Segmente arbeiten bei verschiedenen Wörtern mit, haben dann aber jeweils andere Verbindungen dort hin. Die Verbindungen zwischen Segment- und Silbenknoten spezifizieren Silben, wobei die niedersten Knoten Silbenadressen sind. Die zweite wichtige Eigenschaft des Modells ist die Annahme über Kompetition, aber nicht Inhibition. Die dritte Eigenschaft ist Bindung, was heißt, dass die Selektion ein Lemma mit dem richtigen Konzept verbinden muss. Die meisten Modelle erreichen das durch Timing, während WEAVER++ auf eine Verfahrensbefestigung setzt. Dabei hat jeder Knoten ein Verfahren, das überprüft, ob Knoten wenn aktiv auf den richtigen anderen Knoten deuten. Dies nennen sie Bindung-durch-Überprüfung. Als Grund dafür geben sie an, dass bei Bildnaming Distraktoren kaum systematische Sprechfehler stimulieren. Eigenschaft 4 ist die Relation zur Perzeption. Bild-Wort-Interferenz dient als Haupt-Experiment. Wort-Priming ist hier effektiv, was ein Aktivationsnetzwerk zwischen Perzeption und Produktion impliziert. Man kann dabei mehrere Annahmen machen wie Distraktoren stimulieren. Eigenschaft 5 ist Ockham’s Rasierklinge. Diesem folgend werden nur minimale Annahmen gemacht und keine Zusatzannahmen wie parallele Verarbeitung, Feedback oder Inhibitoren. Außerdem sind die Parameter bei allen Experimenten gleich. So bleibt die Theorie angreifbar.

Betrachten wir nun die Ebenen im Detail.

Stufe 1 ist laut Levelt et. al. (1999: 8) die Konzeptpräperation. Es wird kaum im Modell beschrieben, muss aber vorhanden sein, da die nächste Stufe einen Input braucht. Lexikale Konzepte sind Output, was man als Basisvokabular beschreiben kann. Sie machen Intentionen explizit und sind keine einzelnen semantischen Segmente sondern „Chunks“, also komplexe Entitäten. Von dieser Ebene geht es weiter zum Lemma, womit das Hyperonym-Problem umgangen wird.

Stufe 2 beschreiben Levelt et. al. (1999: 9ff) als die lexikale Selektion. Ein Algorithmus trifft die Lemma-Auswahl, basierend auf semantischen Chunks und nicht Eigenschaften. Von den Konzepten kommt Aktivation, welche die Aktivation der Lemmas erhöht, bis eines selegiert wird. Empirie kommt aus dem Bereich der RT. Der Algorithmus erklärt die Kurven semantischer Effekte von Bild- und Wortdistraktoren im Bild-Naming bei verschiedenen SOAs von -400ms bis 400ms. WEAVER++ findet alle angenommen semantischen Effekte in Einzelwörtern und Phrasen. Einen semantischen Interferenzeffekt kann man wegen dem lexikalen Zugriff und nicht wegen einem Konzeptspeicher finden. Morphologisch komplexe Wörter muss man unterscheiden in solche, die z.B. nur morphologisch, aber nicht psychologisch komplex sind oder solche, deren Derivation eine feste Bedeutung hat. Auch Verb-Partikel-Kombinationen werden als Ganzes im Lexikon gespeichert, ebenso Idiome. Niedrig-frequente und neue Komposita bestehen dagegen aus mehreren Lemmas. So genannte Plural-/Singular-dominante Wörter haben zwei verschiedene lexikale Konzepte. Wie in anderen Modellen erfolgt der lexikale Zugriff in zwei Stufen. Evidenz gibt es in Form des ToT, dass Kongruenz bei Genus-Priming nur in Genus-markierten Äußerungen vorkommt, dass Genus & Form unterschiedliche Relationen zur Wortfrequenz haben, dass man beim lexikalen Zugriff auf Lemma und Genus zugreifen und vor den Wortform-Eigenschaften halten kann, aber nicht umgekehrt und dass es Sprechfehler gibt, bei denen Vertauschungen dieselbe syntaktische Kategorien haben und in derselben Phrase ausgetauscht werden.

Lexikaler Zugriff spielt in der Sprachproduktion eine besonders wichtige Rolle, so Roelofs (2000: 72f). Die Ebenen der Produktion sind aber zunächst Konzeptualisation (welche Nachrichten generiert, also konzeptuelle Strukturen die verbal auszudrücken sind und z.B. durch Objektwahrnehmung entstehen können), Formulation (welche die Nachricht nimmt, auf die richtigen Wörter zugreift, eine syntaktische und morpho-phonologische Struktur baut) und Artikulation (welche artikulatorische Programme ausführt). Lexikale Konzepte aktivieren Lemmas, welche syntaktische Eigenschaften des Wortes haben und damit für die syntaktische Enkodierung nutzbar machen. Die Lemmas haben Slots für Spezifikationen abstrakter morpho-syntaktischer Parameter wie TAM. Lemma mitsamt Parameter holen morpho-phonologische Eigenschaften um den phonetischen Plan zu bauen.

Laut Roelofs (2000: 86ff) werden Lemmas in einer konzeptuell nicht-zerlegten Art geholt. Jedes lexikales Konzept hat ein eigenes Lemma. Das Konzept erhöht die Aktivation, die durch das Netzwerk geht und das am stärksten aktivierte Lemma selegiert. Ein Algorithmus erklärt SOA-Kurven der semantischen Effekte von Bild- und Wortdistraktoren im Bild-Naming, wo es eine semantische Hemmung bei SOA -100 bis +100 gibt. Laut WEAVER++ gehen Bilder direkt zum Konzept, dagegen Wörter direkt zur Syntax. Je nach Netzwerk-Entfernung wird unterschiedlich stark geprimt. Semantische Effekte finden sich für Substantive, Verben und Adjektive. Durch Experimente wurde auch ein Genus-Kongruenz-Effekt nachgewiesen, wenn Distraktoren denselben oder ein anderes Genus haben. Kongruenz muss also berechnet, d.h. selegiert werden um Artikel und ähnliches zu holen. Aber einen Genus-Effekt gibt es nur bei der Produktion von Genus-markierten Äußerungen. Semantische Hemmung im Bild-Naming wird reduziert, wenn es eine orthographische Verbindung zwischen dem Ziel und dem Distraktor gibt. Vielleicht, weil sie Lemmas direkt aktivieren können.

Bei Stufe 3 beschreiben Levelt et. al. (1999: 15ff) für WEAVER++ die morphologische und phonologische Enkodierung. Dies ist die umfangreichste und best erforschte Stufe. Aufgabe ist die Enkodierung um motorische Aktionen ausführen zu können. Alternative Wörter oder Konzepte sind auf dieser Ebene nicht mehr relevant, aber der Kontext wird wichtig, da das Wort sich in einer prosodischen Umgebung befindet. Schritt 1 ist der Wortformzugriff. Sie nehmen ein Prinzip an, nach dem selegierte Lemmas nun phonologisch aktiviert werden. Empirisch ist in Bild-Naming belegt: Identische und semantische Proben sind langsamer in der lexikalen Entscheidung denn unrelatierte, aber ein phonologischer Distraktor zeigt keinen Effekt. Das ergibt ein Problem für die Theorie, die modifiziert werden muss. Z.B. könnten auch zwei Lemmas gleichzeitig greifen, was auch Blends von fast-Synonymen erklärt. Das Prinzip lässt aber keine Mixed Errors zu, was bei Dell durch Feedback erklärt wird, für das es aber keine RT-Evidenz gibt. Leicht modifiziert kann aber auch WEAVER++ Mixed Errors produzieren. Weiter gibt es einen Wortfrequenzeffekt im Bild-Naming, bei dem es einen scheinbaren Zugriff auf die Wortform-Ebene gibt, der nicht bei verzögerten Aufgaben auftritt und damit nicht erst auf der phonologischen Ebene ist. Experimente mit Homophone, die verschiedene lexikale Konzepte aber dieselbe Wortform haben, ergeben, wenn eines hochfrequent ist, werden niedrig frequente genauso schnell aktiviert und sind resistenter gegenüber Fehlern. Diesen Frequenzeffekt gibt es aber nur auf der Formebene. Im Modell wird dies als Aktivationsschwelle oder Verifikationszeit erklärt. Schritt 2 ist die Erstellung phonologischer Wörter. In allen Modellen wird dies durch Slots-and-Fillers gelöst. Die Rahmen sind metrische Einheiten, Filler sind Phoneme und Phonemcluster. Die Annahme hat linguistische Gründe und Sprechfehler-Evidenz. Wortformen werden aus dem mentalen Lexikon als sublexikale und subsyllabische Einheiten geholt, die in Strukturen organisiert werden müssen, die unabhängig erhältlich sind. Beim Zugriff auf die Wortformen erhält man strukturelle und segmentale Informationen. Letztere werden seriell eingesetzt in die Rahmen und Konstituentenstruktur. Hier ergibt sich aber ein Paradox: Warum sollte es einen Mechanismus zum ordnen geben, wenn alles schon ordentlich im Lexikon gespeichert ist? Die Lösung ist der Kontext, der wichtig für die Syllabifikation ist, da nicht einzelne, sondern phonologische Wörter erstellt werden, die auch Affixe und Klitika umfassen. Metrische Informationen sind also wichtig für die Konstruktion von phonologischen Wortrahmen im Kontext von mehr als einem Wort. Phonologische Wörter werden nicht als ganzes gemerkt und wie im Standardmodell werden gespeicherte Wortformen zerlegt in abstrakte phonem-große Einheiten. Bei metrischen Rahmen weicht WEAVER++ aber vom Standardmodell ab. Das Modell sagt, dass es Wort-Onset-Vertauschungen gibt, nicht Silben-Onset-Vertauschungen. Die Silbenstruktur wird nicht in lexikalen Einheiten gespeichert, sondern jeweils neu nach universalen und sprachspezifischen Regeln. Eigenschaften werden nicht unabhängig abgerufen, aber Segment-interne Komponenten müssen dem phonologischen Enkoder zugänglich sein. Der Rahmen spezifiziert die silbeninterne Struktur. Eine andere Abweichung vom Standardmodell ist die Ökonomie-Annahme: In Akzent-Sprachen werden keine metrischen Rahmen gespeichert für Wörter mit normalem Akzent. In der Prosodifikation wird das phonologische Wort generiert. Die Silbenpositionszuteilung wird nach den Silbenregeln der Sprache generiert, wobei Konsonanten Onset werden, sofern dies nicht nach der Phonotaktik verstößt. In polymorphen phonologischen Wörtern werden Strukturen adjazenter Morpheme kombiniert. Schritt 3 ist die Wortformenkodierung,ein Spezialgebiet von WEAVER++. Lemmas werden mit gelernten Silbenartikulationsprogrammen verbunden durch serielles Gruppieren der Segmente von Morpheme in phonologischen Silben. Diese adressieren dann Programme in phonetischen Silben. Die Wortformenkodierung kennt drei Ebenen von Knoten: Morpheme (Wurzeln und Affixe), Segmente und Silbenprogramme. Laut Ökonomieprinzip werden nur ungewöhnliche metrische Strukturen gespeichert. Die Verbindungen zwischen Morphem und Segment zeigen die serielle Position der Segmente in den Morphemen an. Die Enkodierung startet, wenn ein Morphemknoten vom Lemma Aktivation erhält. Die Aktivation verbreitet sich vorwärts durch das Netzwerk und selegiert Knoten. Jeder Knoten hat eine Prozedur, die überwacht, dass die Bezeichnung der Verbindung zwischen Knoten richtig ist. Alles kann parallel ablaufen. Der morphologische Enkoder selegiert Morphemknoten, die mit Lemmas und deren Parameter verbunden sind. Der phonologische Enkoder selegiert Segmente und falls vorhanden die metrische Struktur. Im Prosodifikationsprozess werden Segmente mit Silbenknoten in der metrischen Struktur verbunden. Wenn dies fertig ist, selegiert der phonetische Enkoder Silbenprogrammknoten mit richtig bezeichneten Verbindungen. Diese werden dem Silbenprogramm gegeben, welches Parameter für Lautstärke usw. setzt. Inkrementelle Produktion sorgt dafür, dass bereits ein Fragment des Inputs die Verarbeitung auslösen kann. Vollständig wird sie aber erst, wenn alles vorliegt. Evidenz findet sich aus mehreren Quellen. Zunächst einmal gibt es SOA-Evidenz aus phonologischem Priming. Die Formenkodierung wird beschleunigt bei akustischen Primes und Distraktoren brachten Latenz. Zweitens unterstützte implizites Priming die Annahmen des Inkrementellen und des von-links-nach-rechts. Beim Produzieren von Wörtern aus gelernten gepaarten Assoziationen gibt es einen Beschleunigungseffekt, wenn homogene Wörter von Anfang an ähnlich sind. Drittens sagen Priming-Experimente, dass die erste Silbe beschleunigt werden kann, bei disyllabischen Wörtern auch die zweite Silbe, indem schon Segmente aktiviert werden. Implizites Priming besagt, dass Partikel-Verben von-links-nach-rechts erbaut werden und beschleunigt werden können, wobei das Verb selber wichtiger ist. Implizites Priming unterstützt die Annahmen über die metrische Struktur. In konstanten Sets kann es beschleunigt werden; geteilte initiale Segmente werden geprimt. Ein Silbenpriming kann man durch ein maskiertes Priming-Paradigma erhalten: Die Latenz zur Wortnennung verringert sich, wenn es einen geschriebenen Prime oder ein Bild für die erste Silbe gab. Letztlich bezieht WEAVER++ seine Annahmen über Resyllibifikation aus dem Spracherweb und Sprechfehlern. Es spricht sich gegen eine Resyllibfikation aus; stattdessen würde es zwei lexikale Einheiten geben, eines alleinstehend, eines für die Flektion.

Roelofs (2000: 92ff) beschreibt die Wortformenkodierung als wichtigsten Teil von WEAVER++. Lemmas werden durch serielles Gruppieren der Segmente von Morphemen auf phonologische Silben auf gelernte Silben-basierte Artikulator-Programme abgebildet. Diese wiederum adressieren Programme im phonetischen Syllabar. Morphemknoten sind Wurzeln und Affixe und verbunden mit Lemmas und deren Parameter. Das Prinzip der Ökonomie sorgt für das Speichern metrischer Strukturen; nur ungewöhnliche Muster werden online enkodiert. Die gespeicherte metrische Struktur beschreibt abstrakte Gruppen von Silben zu Füßen zu phonologischen Wörtern, aber nicht welche Segmente eine Silbe oder CV-Struktur ausmachen. Die Enkodierung startet mit Aktivation des selegierten Lemmas und breitet sich durch das Netzwerk aus. Regeln verifizieren Verbindungen und werden aktiviert, wenn eine Schwelle erreicht ist. Der morphologische Enkodierer selegiert Morphemknoten, die verbunden sind mit den selegierten Lemmas und deren Parameter. Silbenpositionen werden Segmenten den Silbifizierungsregeln der Sprache folgend zugewiesen. Der phonetische Enkodierer selegiert Silbenprogrammknoten, deren benannte Verbindungen mit den Segmenten korrespondieren, die mit Silbenpositionen den Segmenten zugeordnet werden. Der Enkoder nutzt die metrische Repräsentation um Parameter für Lautstärke usw. zu setzen. Danach folgen weitere Anpassung und Artikulation. Inkrementelle Produktion ist möglich. Es findet sich ein Effekt gesprochener Distraktorwörter auf die Wortform-Enkodierung in Objektnaming: längere Objektnennungslatenzen mit relatierten Distraktor. Bei einem impliziten Priming müssen Testpersonen Wörter aus gelernten Paar-Assoziationen produzieren, die betreffend Form homogen oder heterogen sind. Homogene produzieren kürzere Latenzzeiten, aber nur bei serieller Ordnung Das spricht für eine rechts-inkrementelle und morphologische Dekomposition: Es gibt einen Beschleunigungseffekt, wenn geteilte erste Segmente ein Morphem konstituieren. Die metrische Struktur wird online berechnet und nur für ungewöhnliche gespeichert. Im Experiment musste man ein Wort aus einer Reihe produzieren. Homogene mit wortinitialen Segmenten geben einen Vorbereitungseffekt, wenn Wörter dieselbe metrische Struktur haben. Silbifizierung erfolgt für gewöhnlich online von-links-nach-rechts, indem erst Segmente an die Silbenknoten im metrischen Rahmen geholt werden und dann die Konstruktion von silbischen und metrischen Strukturen basierend auf segmentaler Information erfolgt. Für häufige Muster wird dies gespeichert. Es findet sich Evidenz, dass die Silbifizierung über Morphem- und Wortgrenzen erreicht wird durch die Hinzufügungs eines Affixs an die schon silbifizierte Basis. Ein Frequenzeffekt findet sich je nach Geschwindigkeit der Produktionsregel-Anwendung. Hochfrequente Wörter werden schneller geholt und können besser vorbereitet werden.

Roelofs (2000: 73ff) beschreibt die Ebenen des lexikalen Zugriffs noch einmal zusammengefasst. Der „Lemma-Holer“ nimmt das aktivierte Konzept, holt das Lemma und macht damit syntaktische Klassen wie Substantiv und Genus verfügbar. Er durchsucht die Nachricht nach Numerus und setzt diakritische Numerus-Parameter. Der Wortform-Enkoder produziert daraus das Stamm-Morphem. Der phonologische Enkoder nimmt es, zerlegt es in Segmente, syllabifiziert sie, weist Akzent zu und erstellt damit die phonologische Repräsentation. Diese ist ein phonologisches Wort mit Füßen etc. Der Phonetische Enkoder nimmt dies, greift auf ein Syllabar gelernter Motorprogramme zu und gibt damit das artikulatorische Programm aus. Evidenz liefert Verhaltensevidenz, MEG-Studien und fMRI, welche die gesamte Architektur sogar im Gehirn lokalisieren können: Alles findet in der linken Hemisphäre statt. Visuelle Erkennung und Konzepte nehmen Platz ein im Okziptal- und Ventro-Temporal-Lappen sowie den vorderen Frontregionen ein. Lemma-Holung findet im linken mittleren Temporal-Gyrus statt, die phonologische Kodierung im Wernicke-Zentrum und postlexikale phonologische Prozesse im Broca-Zentrum sowie im linksmittigen Superior Temporal-Lappen.

Stufe 4 ist laut Levelt et. al. (1999: 31f) die phonetische Enkodierung. Diese errichtet die Spezifikation der Artikulsationsgesten, weil die phonologische Repräsentation noch zu abstrakt ist. Die Phonetik muss auf Kontext und Überlappungen achten. Ein mentales Syllabar hat Gesten für hochfrequente Silben und reduziert damit die Prozessorlast.

Stufe 5 ist schließlich laut Levelt et. al. (1999: 32f) die Artikulation, über die das Modell aber nicht viel aussagen kann.

Letztlich lassen Levelt et. al. (1999: 33f) noch einen Monitor zu, der Sprechfehler und Formunschönheiten erkennt und vor der Artikulation greifen muss. Der Monitor ist mindestens sensitiv für die Silbenstruktur und phonologische Ebene.

Unterstützung erfährt die Einteilung in Ebenen klassischer Weise laut Roelofs (2000: 75f) aus Sprechfehlern. Die Lemma-Ebene erklärt die verschiedene Distribution von Wort- und Segmentvertauschungen Elemente verschiedener Phrasen derselben syntaktischen Kategorie betreffend: Nämlich ein Lemma-Vertausch während der syntaktischen Enkodierung oder Segmente bei der Wortform-Enkodierung. Sprechfehler bieten auch Evidenz für eine morphologische Ebene der Formenkodierung die sich von der Lemma-Ebene unterscheidet, z.B. durch gestrandete Affixe. Segmentvertauschungen schließlich finden statt, wenn Morpheme und Segmente geholt werden, eine weitere Ebene.

Das Modell ist laut Levelt et. al. (1999: 34f) nicht für Sprechfehler konzipiert, aber dazu kompatibel. Bindung-durch-Überprüfung verhindert aber Fehler, weshalb es Bindungs-Fehler sein müssen, oder wenn die Verifikation für Geschwindigkeitszuwachs weggelassen wird. Einen lexical-bias anzunehmen ist nicht notwendig, es kann aber indirektes Feedback über die Sprachperzeption geben. Einen Semantik-bias gibt es durch den Monitor, der echte Wörter eher durchlässt.

Auch laut Roelofs (2000: 107ff) ist WEAVER++ nicht für Sprechfehler entworfen, kann sie aber trotzdem erklären. Phonologische Fehler entstehen durch Indexfehler des phonetischen Enkoders. Mehr Fehler entstehen bei hoher Sprechrate. WEAVER++ erklärt Sprechfehler fast genauso gut wie Dell. Der lexical-bias war sein Argument für Feedback, was dann ein automatischer Effekt wäre. In WEAVER++ gibt es aber kein direktes Feedback von der Outputform zum Lexikon, sondern nur indirektes via dem Sprachverstehen, was aber Zeit braucht, weshalb Fehler so langsam entstehen. Der lexical-bias entsteht durch den Monitor, ebenso phonologische Beschleunigungen von semantischen Ersetzungen. Auch kann es mal passieren, dass der Lemma-Holer fälschlicherweise zwei statt einem Lemma holt.

Fazit: WEAVER++ ist das derzeit wohl modernste und ausgearbeiteste Modell. Im Gegensatz zu früheren basiert es nicht auf Sprechfehlern, sondern auf normalen Sprechern. Wie bei Levelt (1989) soll es falsifizierbar sein und nimmt deshalb nur solche Annahmen an. Das Modell selbst unterscheidet sich nur wenig von Levelt (1989), ist aber um einiges detaillierter. Das Lexikon ist stärker als Netzwerk beschrieben, Eigenschaften entstehen über die Verbindungen, welche gleichzeitig durch einen Algorithmus verifiziert werden, durch welches wiederum gebunden wird. Das Modell erklärt, wo verschiedene Arten der Perzeption die Produktion anregen.

4. Ein anderer Ansatz: Caramazza (1997): lexikaler Zugriff im IN-Netzwerkmodell: gegen Lemmas.

Laut Caramazza (1997: 177ff) begrenzen semantische Fehler die Annahmen über die Struktur von lexikalen Zugriffsmechanismen. Ihm zufolge sind Lemmas nicht nötig zwischen dem lexikal-semantischen und dem modal-spezifischen Bereich. In anderen Modellen sind semantische, syntaktische und lexikale Forminformationen unabhängige Ebenen der Repräsentation voneinander. Diese Ebenen werden seriell im lexikalen Zugriff aktiviert: semantisch und syntaktisch spezifizierte lexikale Repräsentation (Lemmas) zuerst, danach die phonologische Repräsentation (Lexeme). Davon abgesehen streiten die Modelle miteinander. Für diese Art des Zugriffs gibt es verschiedene Argumente und Empirie. Z.B. werden so Hononyme erklärt (bei denen die Phonologie gleich ist, die Semantik aber anders), das ToT und andere Sprechfehler wie Wortvertauschungen und Lautvertauschungen. Ein Indikator für das Zwei-Stufen-Modell sind Experimente, welche die Reaktionszeit in Naming und lexikaler Entscheidung betreffen, sowie Pausen und Aphasie. lexikale Form-Repräsentation und modal-unabhängige Repräsentation werden unterschiedlich in den Modellen implementiert. Das haben wir oben schon gesehen.

Die Struktur der Lemma-Repräsentationen erklärt Caramazza (1997: 181f) anhand der Modelle von Levelt und anderen. Meist werden drei Ebenen angenommen: Konzept, Lemma, Lexem. Auf der Konzeptebene liegen lexikale Konzepte als einzigartige Knoten in einem Netzwerk vor. Die Bedeutung eines Wortes stammt aus einem Set benannter Verbindungen zwischen den Konzeptknoten untereinander und zu den Lemmaknoten. Diese sind modalitäts-unabhängige Einheiten, verbunden mit Knoten, die syntaktische Eigenschaften spezifizieren und mit Lexemknoten verbunden sind. Diese sind spezifiziert über segmentale Knoten als phonologische Form eines Wortes. Lexikaler Zugriff ist nun die sequentielle Selektion von Lemma und Lexem durch sich ausbreitende Aktivation.

Caramazza (1997: 183ff) fordert aber die Weglassung des modalitäts-neutralen Lemmas zwischen der lexikalisch-semantischen und der Wortform-Ebene. Er spricht sich für autonome syntaktische Information aus. Es gäbe Evidenz für die wichtige Rolle syntaktischer Information in der Organisation des lexikalen Wissens, sichtbar z.B. anhand der Unterscheidung von geschlossener und offener Klasse und Substantiv vs. Verb. Demnach ist syntaktische Information eine der Dimensionen, anhand derer das lexikale System organisiert wird. Da einige Aphatiker nur auf syntaktische Informationen nicht zugreifen können, aber auf semantische oder umgekehrt, müssen beide Ebenen getrennt sein. In Experimenten zeigt sich, dass Genus und phonologische Informationen auch im ToT holbar sind. Es findet sich sogar ein Genus-Priming-Effekt, der unabhängig von der Frequenz und für den phonologische Information nicht wichtig ist. Dies müsste bedeuten, wenn eine Lemma-Aktivierung automatisch zur Aktivierung grammatischer Eigenschaften führt, dass die Lemma-Aktivierung auch zum Lexem führt. Jedoch gibt es Patienten, die syntaktische Fehler haben, also keine Lemma-Aktivierung, aber auf die Phonologie zugreifen können. Syntaktische Information muss also nicht zum Lexem führen. In den bisherigen Modellen würde das aber passieren.

Caramazza (1997: 188ff) sieht empirische Gründe, ein inhaltsloses Lemma (das keine syntaktischen Eigenschaften aktiviert) nicht anzunehmen. Denn in noch keinem Modell sollen die kontrastiven Muster lexikaler Produktionsfehler berücksichtigt worden sein. Um diese Daten aber nutzen zu können, müsste man zwischen einem orthographischen und einem phonologischen Lexem (O und P) unterscheiden. Sollte die Erfassung Geschriebenes über die Phonologie gehen (über ‚interne Sprache‘, wie bei Levelt (1989)), dann sollte die Performance nicht direkt die Interaktion zwischen Lemma und lexikalem Formzugriff reflektieren, sondern die komplexe Interaktion zwischen Lemma und P-Lexem sowie P und O-Lexem. Wenn aber die O-Lexeme ohne Phonologie erreicht werden können, könnten lexikale Fehler im Schreiben etwas über Lemma- und Lexemebenen-Relation sagen. Caramazza (1997: 189f) spricht sich für eine Autonomie der lexikalisch-orthographischen Repräsentation anhand Evidenz der Neuropsychologie aus, denn einige Patienten können trotz Schaden der Phonologie noch schreiben.

Ein inhaltsloses Lemma wäre also nicht notwendig. Evidenz zieht Caramazza (1997: 191ff) aus dem Muster von Dissoziationen lexikaler Fehler in Sprache und Schrift. Da einige Patienten Schäden unterhalb der lexikalisch-semantischen Ebene haben, müssten die Lemmas korrekt aktiviert sein. Wenn dies aber stimmt, wie kann dann die Nicht-Erreichbarkeit eines modalitäts-spezifischen Lexems zu semantischen Fehlern führen? Die Erwartung wäre, dass der Fehler ein Lexem zu aktivieren zu nichts und nicht zu einem semantischen Fehler führt. Man kann die Annahme machen, dass stattdessen ein anderes Konzept und dessen Lemma genommen wird in einem neuen Zyklus, da zuvor die Schwelle zur Aktivation nicht überschritten wurde. Das Lemma ist aber überflüssig.

Abb. 10: Das IN-Netzwerkmodell (nach Caramazza (1997))

Caramazza (1997: 194ff) postuliert ein eigenes (unabhängiges) Netzwerkmodell des lexikalen Zugriffs, kurz IN. Im IN ist Wissen in Sets von unabhängigen Netzwerken miteinander verbunden via modalitäts-spezifischer lexikaler Knoten. Diese Knoten haben Subnetze mit verschiedenen syntaktischen Funktionen, welche wiederum auch hemmende Verbindungen haben, da sie sich in Kompetition befinden. Ein Wort entsteht hier wie folgt: eine selegierte lexikalisch-semantische Repräsentation bringt Aktivation zu lexikalisch-syntaktischen und P-&O-Netzwerken. Da nicht alle syntaktischen Eigenschaften durch ein semantisches Netzwerk aktiviert werden können, erhalten grammatische Kategorien und Tempus Aktivation aus dem semantischen Netz. Die Schwelle ist erst erreicht, wenn modalitäts-spezifische lexikale Knoten selegiert wurden. Diese aktivieren ihre jeweiligen Eigenschaften. Lexikalisch-semantische Information ist unabhängig von syntaktischen und Wortform-Repräsentationen wie in den anderen Modellen. Aktivation breitet sich vorwärts, simultan und unabhängig aus zu lexikalisch-syntaktischen und Wortform-Netzwerken. Ein Lemma gibt es nicht, stattdessen bestehen direkte Links zwischen den der lexikalisch-semantischen und der modalitäts-spezifischen Repräsentation. Ein Kontrast zwischen einem Wortaustausch und einem Lautaustausch findet sich, weil der lexikale Zugriff wie in anderen Modellen in zwei Stufen vor sich geht: Zunächst wird die modal-spezifische, syntaktisch und semantisch spezifizierte Repräsentation selegiert, dann die Lexeme mit phonologischen bzw. orthographischen Inhalt. Semantische Fehler können entstehen wegen einem Schaden der lexikalisch-semantischen Ebene oder einem falschen Zugriff auf das Lexem, vor allem, wenn nur eine Modalität betroffen ist.

Roelofs (2000: 106) spricht sich gegen Caramazzas (1997) Ansicht aus, dass es keine Lemmas gibt, denn nur eine lexikale Ebene kann solche Sprechfehler nicht belegen, die zwei Arten von Morphemfehlern haben. Auch kann er nicht sagen, warum niedrig-frequente homophone Wörter so schnell wie die hochfrequente geholt werden.

Fazit: Caramazzas umfangreiche aber eigentlich kurze Forderung ist die Weglassung des Lemmas, da er keine Evidenz dafür findet. Stattdessen soll die Konzeptebene direkt mit zwei Arten von Lexemen verbunden sein, was einige Störungen bei Patienten, aber dafür wieder andere Effekte nicht erklären kann. Sein eigenes Modell unterscheidet sich denn auch hauptsächlich in geschilderten Eigenschaften.

5. Fazit und Vergleich.

Wir sahen in dieser Arbeit einen Überblick über die Sprachproduktion. Es gab eine Einführung mit einer ontogenetischen Begründung, kurzem Überblick möglicher Modelle sowie der Forschung und ihren wichtigen Quellen, welche vor allem Sprechfehler, Pausen und Aphatiker sind, neuerdings auch Experimente und Gehirnforschungen.

Im geschichtlichen Überblick gingen wir von den Anfängen bei Gall und den großen Aphasieforschern Broca und Wernicke zu den ersten Modellen, die vor allem auf den Sprechfehleranalysen von Meringer und Mayer basierte. Sprechfehler lassen sich in Hierarchien und Richtungen klassifizieren, die später nur teilweise bezweifelt wurden.

Das erste Modell von Fromkin (1971) war noch recht einfach, da sie auch nicht wegen dem Modell geforscht hatte. Sie nahm bereits die Konzept- sowie die Artikulationsebene an, welche allerdings weder von ihr noch den meisten anderen Modellen ausführlich beschrieben wurde. Das restliche Modell war noch rudimentär, war aber die Grundlage für folgende Modelle. Wichtig sind ihre Annahmen zu linguistischen Einheiten, die produziert sowie die Erkenntnis, dass spät in der Produktion noch phonologische Regeln angewandt werden.

Garrett (1980) legte den weiteren Grundstein für spätere Modelle, indem er die Ebene zwischen Konzept und Artikulation überarbeitete: lexikale Einheiten werden vor der Prosodie enkodiert. Wichtig ist seine Unterscheidung von geschlossenen und offenen Wortklassen und wie sie sich bei Fehlern verhalten. Auch die Unterteilung in funktionale Ebene (Lemma) und positionale (Lexem) beim lexikalen Zugriff wurde später übernommen.

Dell (1986) arbeitete dann endgültig das meiste von dem aus, was spätere Modelle weiter übernahmen – abgesehen davon, dass er das einzige interaktive Modell hat. Er nahm für jede Ebene Regeln an, welche die jeweilige Repräsentation berechnen und stellte das Lexikon als Netzwerk von Knoten dar, was später übernommen wurde, ebenso wie die zugehörigen generativen Regeln, welche Rahmen und ihre Füllungen spezifizieren. Als erster erklärte er auch, dass Aktivation die Produktion vorantreibt, ähnlich wie es bei Neuronalen Prozessen ist. Er verlangte ein interaktives Modell, um Mixed Errors und Blends erklären zu können.

Levelt (1989) war der erste, der detailliert auf alle drei Ebenen einging. Im Gegensatz zu Dell setzte er wieder auf ein modulares Modell mit der Annahmen der Inkrementellität und eines Monitors, um Probleme früherer modularer Modelle zu erklären. Sein Modell sollte extra gut falsifizierbar sein und erklärt vor allem die zwei Stufen der grammatischen Enkodierung und die zwei Stufen der lexikalen Selektion explizit. Neu bei ihm sind Einblicke in die Ebenen der Konzeptualisierung sowie Artikulation und der strikte Verweis auf phonologische Wörter, die im Kontext geäußert werden.

Bock & Levelt (1994) beschrieben detaillierter das funktionale Prozessing, welches ein Set syntaktischer Funktionen integretiert, die wiederum den Rahmen für die Positionierung von Wörtern bilden, das positionale Prozessing kontrollieren und ein geordnetes Set von Wortformen und Flektionen liefert.

Meyer (2000) wiederum erklärte die Wortformenkodierung, und darin vor allem den Bau der phonologischen Repräsentation. Wörter kommen nicht im Ganzen aus dem Lexikon, sondern werden erst morphologisch zusammengebaut, dann phonologisch zerlegt und neu im Kontext konstruiert.

Roelofs arbeitete das Modell WEAVER++ aus, das derzeit modernste, welches er (2000) und Levelt et. al. (1999) detailliert erklärten. Als erstes Modell basiert es nicht mehr auf Sprechfehlern, sondern auf den Fakten normalen Sprechens. Es ist falsifizierbar und lehnt stark bei Levelt (1989) an, ist dafür aber weiterhin detaillierter in den Zwischenstufen. Das Lexikon ist ein Netzwerk, Eigenschaften beruhen auf Verbindungen, verifiziert durch einen Algorithmus, der auch „abhakt“. Die Wortform entsteht, indem Segmente zu Morphemen gebaut, diese dann wieder zerlegt und prosodisch in Silben eingebaut werden.

Caramazza (1997) schließlich war der Einzige, der die Wichtigkeit des Lemmas bezweifelte und ein eigenes Modell erstellte, in welcher die Konzeptebene direkt mit zwei Arten von Lexemen verbunden ist, von denen alle beteiligten syntaktische Eigenschaften aktivieren können, also keine Lemmas nötig sind, womit er die Funde betroffener Patienten erklären kann.

Die Frage um dieses Lemma sowie die Ebenen von Konzeptualisierung und Artikulation und die Frage nach Modularität oder Interaktivität sind die ausbleibenden großen, noch zu klärenden.

6. Referenzen

Bock, Kathryn & Levelt, Willem J. M. (1994). Language production: Grammatical Encoding. In: Gernsbacher, Morton A. (Ed.), Handbook of psycholinguistics. San Diego: Academic Press.
Butterworth, Brian (1982): Speech Errors: Old Data in Search of New Theories. In: Cutler, Anne (ed.) (1982): Slips of the Tongue and Language Production. The Hague: Mouton.
Caramazza, Alfonso (1997). How many levls of processing are there in lexical access? In: Coginitive Neuropsychology, 14.
Dell, Gary S., & Reich, Peter A. (1981): Stages in sentence production: An analysis of speech error data. In: Journal of Verbal Learning and Verbal Behaviour 20.
Dell, Gary S. (1986): A spreading–activation theory of retrieval in sentence production. In: Psychological Review.
Ellis, Andrew W. & Young, Andrew W. (1988): Human Cognitive Neuropsychology. Hove, UK: Erlbaum.
Fay, David A. & Cutler, Anne (1977): Malapropisms and the structure of the mental lexicon. In: Linguistic Inquiry, 8.
Fromkin, Victoria A. (1971): The non-anomalous nature of anomalous utterances. In: Language, 47.
Garrett, Merrill F. (1980): Levels of Processing in Sentence Production. In B. Butterworth (ed.), Language Production. Volume I. Speech and Talk. New York: Academic Press, 177-220.
Goldman-Eisler, Frieda (1958): Speech production and the predictability of words in context, In: Quart. J. exp. Psychol. 10.
Harley, Trevor A. (1995). The psychology of language: From data to theory. Hove: Psychology Press.
Levelt, Willem J. M. (1989). Speaking: From intention to articulation. Cambridge, MA: MIT Press.
Levelt, Willem J. M., Roelofs, Ardi & Meyer, Antje S. (1999). A theory of lexical access in speech production. In: Behavioral and Brain Sciences, 22.
Meyer, Antje S. (2000). Form representations in word production. In: Wheeldon, Linda (Ed.), Aspects of language production. Hove: Psychology Press.
Pechmann, Thomas (1994). Sprachproduktion: Zur Generierung komplexer Nominalphrasen. Opladen: Westdeutscher Verlag.
Roelofs, Ardi (2000). Weaver++ and other computational models of lemma retrieval and word-form encoding. In: Wheeldon, Linda (Ed.), Aspects of language production. Hove: Psychology Press.
Shattuck-Hufnagel, Stephanie (1987): The role of word-onset consonants in speech production planning: New evidence from speech error patterns. In: Keller, E. and Gopnik, M. (Eds.), Motor and Sensory Processes in Language. Englewood Cliffs, NJ: Erlbaum.

——————————-
Fußnoten:

1Als Einführung siehe vor allem Harley (1995).

2Es ist auch immer wieder Grund zur Debatte, ob es einen Frequenzeffekt gibt, also ob die Häufigkeit etwas beschleunigen o.ä. kann.

3Primen = Wenn eine Wahrnehmung (Wort, Bild, etc.) etwas im Menschen aktiviert, diese Aktivation vorhanden bleibt und andere Vorgänge beschleunigen kann. Z.B. liest man „Ball“ und denkt danach bei dem Bild eines Kreises als erstes an einen Ball.

4Dies bedeutet, dass die Häufigkeit der Wörter dafür sorgt, dann man leichter auf sie zugreifen kann.

5Vgl. http://de.wikipedia.org/w/index.php?title=Franz_Joseph_Gall&oldid=71904886

6Vgl. http://de.wikipedia.org/w/index.php?title=Paul_Broca&oldid=77197637

7Vgl. http://de.wikipedia.org/w/index.php?title=Carl_Wernicke&oldid=72155407

8Vgl. http://de.wikipedia.org/w/index.php?title=Ludwig_Lichtheim&oldid=74148277

9Vgl. http://de.wikipedia.org/w/index.php?title=Sigmund_Freud&oldid=78416739

10 http://en.wikipedia.org/w/index.php?title=Victoria_Fromkin&oldid=348314258

11Diese sind aber weiterhin umstritten, da nicht bewiesen ist, dass es sie gibt bzw. dass sie bei der Produktion eine Rolle spielen. Siehe v.a. Pechmann 1994, Levelt et. al. 1999 und Roelofs 2000.

12Bei beiden Arten wird ein Phonem sozusagen ‚kopiert‘.

13Hier kann man bereits verweisen auf das spätere Standardmodell des Zweistufenzugriffs mit Lemma und Lexem. Fromkin trennte dies also noch nicht auf die Art, wie es spätere Modelle taten.

14Auch dies nimmt man später immer noch an.

15Derzeit gängige Bezeichnung: Formulation.

16Vgl. die späteren Lexeme.

17Dieses Prozess nennt Levelt dann inkrementell.

18Man sieht eine Person, was sich unbewusst einschleicht.

19Auch wenn er den Begriff nicht verwendet, da er meint, dass die Definition von „modular“ hier nicht zuträfe.

20Also nicht einzelner Eigenschaften!

21WEAVER = Wordform Encoding And VERification. WEAVER++ = zusätzliche Beschreibung der Lemma-Ebene.

22Berechnend aufgrund seiner algorithmischen Regeln.

Kommentare sind geschlossen.

kaltric