1 Einleitung

Bis vor kurzem gab es in den einschlägigen deutschsprachigen Wörterbüchern der Psychologie (z. B. dem Dorsch; Wirtz 2013) keinen Eintrag unter dem Stichwort „Testungseffekt“ oder „Testeffekt“, obwohl dieser einerseits seit langem bekannt ist (z. B. Abott 1909; Gates 1917; Kühn 1914; Witasek 1907) und das Testen andererseits als eine der wirksamsten Methoden gilt, um nachhaltiges, also langfristiges Lernen zu verbessern (Roediger und Karpicke 32,33,a, b; Rummer et al. 2017; für umfassende Übersichten oder Metaanalysen siehe z. B. Pan und Rickard 2018; Rowland 2014; Rummer 2021; Schwieren et al. 2017; Yang et al. 2021). Konkret besagt dieser Testungseffekt (Testing Effect), der im englischen Sprachraum auch Quizzing Effect oder Retrieval Practice Effect heißt, dass der aktive Abruf von Lerninhalten aus dem Langzeitgedächtnis die abgerufene Information konsolidiert und damit längerfristiger verfügbar hält, als dies bei Nutzung anderer Vorgehensweisen wie wiederholtem passiven Lernen der Fall wäre. Konkret heißt dies, dass der Testungseffekt sich vor allem langfristig zeigt, also dann, wenn der zeitliche Abstand zwischen der Lern- bzw. Konsolidierungsphase und dem kritischen finalen Test zumindest einige Tage dauert. Bisherige Daten sprechen dafür, dass der Effekt umso größer ist, je länger dieses Behaltensintervall ausfällt (Rowland 2014).

Experimente zum Testungseffekt sehen üblicherweise so aus, dass den Lernenden zunächst Lernmaterialien (z. B. Wortpaare oder expositorische Texte) vorgelegt werden. Diese initiale Lernphase ist in der Regel für alle Experimentalgruppen (also die Testungsgruppe(n) und Kontrollgruppe(n)) gleich. Die experimentelle Manipulation besteht nun darin, dass man die Versuchspersonen in der Testungsgruppe instruiert, das Lernmaterial wiederzugeben, bzw. offene oder geschlossene Fragen zum Material zu beantworten. In der Kontrollgruppe werden die Versuchspersonen hingegen standardmäßig instruiert, den Lernstoff erneut passiv zu wiederholen. Bisweilen werden in diesen Experimenten aber auch andere aktive Lernmethoden wie das Erstellen von Concept-Maps (Blunt und Karpicke 2014; Karpicke und Blunt 2011) oder Notizenmachen (McDaniel et al. 2009; Nguyen und McDaniel 2016; Rummer et al. 2017) als Kontrollbedingungen in die Untersuchungen integriert. In der Regel zeigen diese Experimente kurzfristig – typischerweise nach einem Behaltensintervall von ca. 5 min – ein uneinheitliches Bild. Meist findet sich kein Testungseffekt und mitunter sogar ein Nachteil für Testen. Langfristig ändert sich die Befundlage, und es findet sich nach wenigen Tagen ein deutlicher Vorteil des Testens gegenüber passivem Wiederholen und nach zwei Wochen auch gegenüber aktiven Kontrollbedingungen wie Notizenmachen (Rummer et al. 2017, Exp. 1).

Auch in Feldexperimenten in Schule und Hochschule hat sich Testung als wirksam erwiesen. Hier werden typischerweise über einen längeren Zeitraum Übungstests zu verschiedenen Lektionen bearbeitet. In einer exemplarischen Studie variierten Batsell et al. (2016) zwischen zwei Einführungskursen in die Psychologie, ob die Studierenden zu Leseaufgaben begleitende Übungstests bekamen oder nicht. In der Kursprüfung schnitt die Testungsgruppe besser ab als die Kontrollgruppe, und zwar sowohl wenn die Fragen die gleichen waren wie die bereits geübten als auch bei neuen Fragen. In Feldexperimenten finden sich häufiger derartige Kontrollbedingungen ohne vergleichbare Lernaktivität. Eine aktuelle Metaanalyse zeigt aber auch gegenüber anderen Kontrollbedingungen – wie dem in Laborexperimenten typischerweise eingesetzten wiederholten Lesen – einen substantiellen Testungseffekt im Feld (Yang et al. 2021). Aufgrund der Vielzahl von Befunden, die für eine lernförderliche Wirkung sprechen, wurde Testen in mehreren Überblicksarbeiten zu effektiven Lern- und Lehrstrategien aufgenommen (z. B. Dunlosky et al. 2013; Pashler et al. 2007) und als Methode herausgestellt, deren Wirksamkeit besonders umfassend und in unterschiedlichsten Kontexten geprüft wurde. Dies reflektieren auch die zahlreich vorliegenden Metaanalysen zum Testungseffekt, die übereinstimmend mindestens mittlere Effektstärken nachwiesen, sowohl in Bezug auf Laborexperimente (Rowland 2014; Pan und Rickard 2018) als auch hinsichtlich Studien in authentischen Lernsituationen in Schule und Hochschule (Schwieren et al. 2017; Yang et al. 2021).

2 Direkte und indirekte Testungseffekte

Die Nützlichkeit von Übungstests wird sowohl auf direkte als auch auf indirekte Mechanismen zurückgeführt. Basierend auf dieser Unterscheidung wird auch begrifflich zwischen einem direkten und einem indirekten Testungseffekt unterschieden, wobei der direkte Testungseffekt sich aus einer konsolidierenden Wirkung des Tests auf die entsprechenden Repräsentationen ergibt, während der indirekte Testungseffekt sich auf nachfolgende Enkodierprozesse bezieht.

2.1 Der direkte Testungseffekt

Als Erklärung für einen direkten Testungseffekt wird angenommen, dass der Akt des Abrufs von Informationen aus dem Langzeitgedächtnis den späteren Abruf dieser Informationen verbessert, indem die Gedächtnisspur gestärkt wird. Zudem wird angenommen, dass durch den aktiven und aufwändigen Gedächtnisabruf während der Übungstests neue Abrufrouten etabliert und bestehende gestärkt werden. Hierdurch wird dann der langfristige Zugang zu diesen Informationen verbessert (z. B. Bjork 1975; Bjork und Bjork 2011; Rowland und DeLosh 2014). Carpenter (2009) geht darüber hinaus davon aus, dass beim Wissensabruf auch Repräsentationen aktiviert werden, die semantisch mit dieser Information assoziiert sind. Demzufolge profitieren auch Informationen, die nicht direkt abgerufen wurden (Elaborative Retrieval Hypothese, s. auch Carpenter und DeLosh 2006). Entsprechend dieser Überlegungen ist die Art des Abrufs essentiell für den Nutzen der Testung. Je höhere Anforderungen mit dem Wissensabruf einhergehen (z. B. Wiedergabe vs. Rekognition), desto effektiver und nachhaltiger wirkt Testung. Ein weiterer Erklärungsansatz für den direkten Testungseffekt, der die Bedeutung des Abrufaktes betont, stützt sich auf die sog. transferangemessene Verarbeitung (transfer-appropriate processing, Morris et al. 1977; Roediger und Karpicke 2006a). Die basale Annahme ist, dass Erinnerungs- und Transferleistungen umso besser gelingen, je mehr die während der Enkodierung ausgeführten Prozesse denen während des Abrufs ähneln. Bezogen auf den Testungseffekt bedeutet dies also, dass das Üben des Abrufs während des Lernens deshalb vorteilhaft ist, weil es bereits früh im Lernprozess die Prozesse beansprucht, die dann, wenn man sich zu einem späteren Zeitpunkt an diese Information erinnern will, ebenfalls benötigt werden (einen ausführlichen Überblick über die Grundlagenforschung zur Erklärung des Testungseffekts geben Tempel und Pastötter 2021).

2.2 Der indirekte Testungseffekt

Neben diesen direkten Aspekten kann Testung das Lernen auch auf indirekte Weise verbessern, und zwar indem nachfolgende Enkodierprozesse verbessert bzw. zielgenauer ausgerichtet werden (z. B. Endres und Renkl in diesem Themenheft; Roediger und Karpicke 2006a; Rummer et al. 2019; Rummer 2021; Tempel und Pastötter 2021). Hier wird auch von test-potenziertem Lernen gesprochen (Arnold und McDermott 2013; Tempel und Frings 2019).Footnote 1 Im Gegensatz zum wiederholten Lesen, bei dem Lernende leicht den Eindruck haben können, den Lernstoff aufgrund des sich mit jedem Lesen verstärkenden Vertrautheitseindrucks sehr gut zu beherrschen, auch wenn dies de facto nicht der Fall ist, können Übungstests Wissenslücken oder nicht leicht zugängliches Wissen aufdecken und somit metakognitiv fassbar machen. Infolgedessen sollten Lernende, die getestet werden, sowohl besser entscheiden können, ob und wie lange sie sich erneut mit dem Lernstoff befassen, als auch, welche Informationen sie bei der erneuten Beschäftigung mit dem Material fokussieren. Die positive Wirkung von Testung entsteht somit nicht (nur) während des Testens selbst, sondern während der folgenden erneuten Auseinandersetzung mit dem Lernmaterial oder mit Teilen davon. Eine Voraussetzung für den indirekten Testungseffekt ist daher naturgemäß, dass die Lernenden im Anschluss an einen Übungstest in irgendeiner Form die Möglichkeit haben, sich erneut mit dem Lernstoff zu befassen. Zudem sollten diese Vorteile vor allem in Lernsituationen zum Tragen kommen, in denen die Lernenden motiviert sind, entdeckte Wissenslücken tatsächlich zu schließen oder nicht abrufbares Wissen durch die erneute Auseinandersetzung mit dem Lernmaterial besser verfügbar zu machen. Entsprechend argumentieren Yang et al. (2021) im Rahmen ihrer Metaanalyse, dass dem indirekten Testungseffekt vor allem im Feld eine bedeutende Rolle zukommt.

3 Randbedingungen für das Auftreten des Testungseffekts

Testungseffekte treten weitgehend unabhängig von interindividuellen Unterschiedsvariablen wie Alter oder Arbeitsgedächtniskapazität auf (z. B. Bertilsson et al. 2021; für einen Überblick s. Dunlosky et al. 2013). Außerdem zeigen sich Testungseffekte mit einer Reihe unterschiedlicher Materialien und in Feldexperimenten unabhängig vom Fach (Yang et al. 2021). Sowohl die bisherigen Metanalysen (z. B. Rowland 2014; Yang et al. 2021) als auch weitere Einzelstudien weisen allerdings darauf hin, dass die Ausprägung des Testungseffekts von einigen Randbedingungen abhängt. Wie bereits oben skizziert, ist Testung beispielsweise effektiver, wenn der finale Test nicht unmittelbar auf die Lernphase folgt, sondern zeitlich um einige Tage versetzt stattfindet. Außerdem ist Testung effektiver, wenn die Lernenden das Lernmaterial nach der Abrufübung wiederholen können oder in anderer Form Feedback erhalten, als wenn dies nicht der Fall ist. Dies zeigt sich sowohl im Labor (Rowland 2014) als auch im Feld (Yang et al. 2021) und kann unter anderem damit erklärt werden, dass in diesem Fall sowohl der direkte als auch der indirekte Testungseffekt zum Tragen kommen können. Schließlich sind nicht alle Testverfahren gleichgut geeignet, um die Lernleistung zu konsolidieren. So sind beispielsweise Wiedererkennenstests oder Multiple-Choice-Aufgaben weniger effektiv als freie Wiedergabe oder die Beantwortung offener Fragen (Rowland 2014). Im Feld sieht die Situation hier allerdings möglicherweise anders aus – so zeigte die Metaanalyse von Yang et al. (2021) vergleichbar große Testungseffekte für Wiedererkennens- und Abrufaufgaben (s. a. Greving und Richter 2018).

Es gibt ebenfalls Studien, die darauf hinweisen, dass der Testungseffekt mit der Anzahl der durchgeführten Tests größer wird (für einen Überblick s. Dunlosky et al. 2013). So verglichen Roediger und Karpicke (2006b, Exp. 2) eine Bedingung, in der Lernende einen kurzen Text in vier aufeinanderfolgenden Phasen wiederholt lesen konnten, eine Bedingung, in der auf drei Lesephasen eine Testphase folgte, und eine Bedingung, in der auf eine einzige Lesephase drei Testphasen folgten. Während die Leistungen im unmittelbaren Abschlusstest umso besser waren, je mehr Lesephasen vorgesehen waren, kehrte sich das Muster um, wenn der Abschlusstest eine Woche später durchgeführt wurde. Hier übertrafen die Lernenden mit mindestens einer Testphase diejenigen, die ausschließlich durch Lesen gelernt hatten, aber auch die Lernenden mit nur einer Lesephase und drei Testphasen übertrafen die Lernenden mit drei Lesephasen und einer einzigen Testphase. Auf einen weiteren möglichen Moderator, die Komplexität des Lernmaterials, wollen wir im Folgenden detaillierter eingehen.

4 Die Komplexität des Lernmaterials: ein Moderator des Testungseffekts?

Dafür, dass der (direkte) Testungseffekt hinsichtlich seiner Ausprägung davon abhängt, wie komplex das Lernmaterial ist, argumentierten van Gog und Sweller (2015). Mehr noch: Die Autor*innen stellten sogar fest, dass der Testungseffekt auf wenig komplexe Lernmaterialien beschränkt ist. Das entsprechende Argument entwickelten sie in einem Sonderheft der Zeitschrift Educational Psychology Review. Auf Basis früher experimenteller Arbeiten (z. B. Kühn 1914; Gates 1917) und in dem Sonderheft versammelter aktueller Studien folgerten sie, dass der Testungseffekt auf Lernmaterialien geringer Komplexität begrenzt ist. Komplexität definierten sie dabei als die Anzahl der Elemente und deren Verbindungen untereinander, die Lernende gleichzeitig im Arbeitsgedächtnis halten müssen, um die für das Verständnis des Lerninhalts notwendigen Inferenzen zu ziehen. In der Cognitive Load Theory wird dies als Elementinteraktivität bezeichnet (z. B. Paas et al. 2003). Materialien mit einer geringen Elementinteraktivität sind beispielsweise Wortlisten oder Vokabeln (s. bereits Gates 1917). Jedes einzelne Item oder Vokabelpaar steht hier für sich und muss weder auf eine andere Information bezogen noch müssen Inferenzen gezogen werden. Materialien mit hoher Elementinteraktivität sind hingegen Materialien, deren Verständnis von den Relationen unterschiedlicher Aussagen zueinander abhängt. Ein Beispiel hierfür wäre die Rückbeziehung von Experimentalergebnissen auf die Gültigkeit einer Theorie. Hier muss ein Abgleich zwischen Theorie und Hypothesen, Ergebnissen und Hypothesen und Hypothesen und Theorie erfolgen.

Van Gog und Sweller (2015) kategorisierten eine Reihe von einschlägigen Experimenten zum Testungseffekt bezüglich der Komplexität der genutzten Lernmaterialien. Der Eindruck, den diese Übersicht vermittelt, ist eindeutig: Nur in zwei der 15 Studien mit komplexen Materialien zeigte sich ein Testungseffekt, verglichen mit 29 von 33 Studien mit einfacheren Materialien. Dies legt nahe, dass das Auftreten des Testungseffekts tatsächlich auf wenig komplexen Lernstoff mit niedriger Elementinteraktivität begrenzt ist.

Warum sollte dies der Fall sein? Van Gog und Sweller (2015) nehmen Bezug auf Erklärungen, die den direkten Testungseffekt darauf zurückführen, dass durch den aktiven Informationsabruf Beziehungen zwischen Elementen in stärkerem Maß etabliert oder verstärkt werden als bei wiederholtem Lesen. Laut ihrer Argumentation sollte dies vor allem bei solchen Materialien nützlich sein, die es nicht ohnehin erfordern, mehrere Elemente miteinander zu verbinden, also bei Materialien mit niedriger Elementinteraktivität. Komplexe Materialien mit hoher Elementinteraktivität erfordern es dagegen, auch ohne Abrufinstruktion, verschiedene Elemente miteinander in Beziehung zu setzen, sodass hier kein zusätzlicher Gewinn durch Testung zu erwarten wäre.

5 Was macht die Komplexität von Lernmaterialien aus?

Bereits im Special Issue äußern die eingeladenen Diskutanten Kritik am Vorgehen von van Gog und Sweller (2015; s. Karpicke und Aue 2015; Rawson 2015). Karpicke und Aue (2015) kritisierten die Subjektivität der Post-hoc-Kategorisierung der Lernmaterialien in den bereits publizierten Studien in hohe, mittlere oder niedrige Elementinteraktivität. Tatsächlich bleiben die Klassifikationskriterien weitgehend unklar, und bei vielen Studien haben van Gog und Sweller (2015) ihre Einstufung mit Fragezeichen versehen. Karpicke und Aue (2015) schlugen deshalb eine Kategorisierung auf Basis von etablierten Textkomplexitäts- und Textkohäsionsmetriken wie Flesch reading ease (Flesch 1948) oder Coh-Metrix (Graesser et al. 2014) vor. Der Flesch Lesbarkeitsindex ergibt sich aus der durchschnittlichen Satz- und Wortlänge; anhand von Coh-Metrix lässt sich (im Englischen) etwa die referentielle Kohäsion bestimmen, das Ausmaß, in dem Ideen in einem Text und entsprechend zwischen Sätzen überlappen, was laut Karpicke und Aue (2015) ein besonders gutes objektives Maß für Elementinteraktivität sein könnte. Die Analyse von Texten auf Basis dieser Metriken führte zu anderen Komplexitätszuschreibungen als den von van Gog und Sweller (2015) vorgeschlagenen. Diese Inkonsistenz macht deutlich, dass zunächst näher bestimmt werden sollte, was komplexe Lernmaterialien von einfachen unterscheidet, bevor Aussagen zur Auswirkung von Komplexität auf den Nutzen von Abrufübung getroffen werden können. Ein Problem der von Karpicke und Aue (2015) herangezogenen Metriken besteht allerdings darin, dass sie sich ausschließlich auf Texte beziehen und damit ein Großteil der im Sonderheft versammelten Studien gar nicht klassifiziert werden kann, da sich diese mit mathematischem Problemlösen befassen. Das zentrale Problem des Vorgehens von Karpicke und Aue (2015) ist aus unserer Sicht hingegen ein anderes und liegt in dem Umstand, dass durch die Gleichsetzung von Komplexität und Textkomplexität die Komplexität der vermittelten Lerninhalte gar nicht berücksichtigt wird.

Dies führt zu einem Kernproblem der Komplexitätserfassung und -manipulation, nämlich zur Frage, ob Elementinteraktivität eine Eigenschaft des Lernstoffs oder eine Eigenschaft der instruktionalen Umsetzung, etwa der Formulierung des Lerntexts darstellt bzw. in der Terminologie der Cognitive Load Theory (z. B. Paas et al. 2003), ob sich Elementinteraktivität auf intrinsische oder auf extrinsische kognitive Belastung bezieht. Diese Frage mag zunächst überraschen, denn in der Cognitive Load Theory (z. B. Paas et al. 2003) gilt die Elementinteraktivität ausdrücklich als Maß intrinsischer kognitiver Belastung (in Interaktion mit Vorwissen und Arbeitsgedächtniskapazität der Lernenden). Die von Karpicke und Aue (2015) ins Spiel gebrachten Komplexitätsmetriken beziehen sich allerdings eindeutig auf die Textkomplexität. Entsprechend bliebe Karpicke und Aues (2015) Kritik einer mangelnden Objektivität der Erfassung der Elementinteraktivität bei van Gog und Sweller (2015) zwar gerechtfertigt, ihre Vorschläge zu einer objektiven Erfassung gingen aber am eigentlichen Konzept der Elementinteraktivität vorbei.

In einer späteren Version der Cognitive Load Theory ist die Ausgangssituation allerdings weniger klar bzw. sogar eine explizit andere. Sweller (2010, S. 125) schlägt vor, Elementinteraktivität nicht allein auf intrinsische Belastung, sondern auch auf extrinsische Belastung zu beziehen: „I suggest that element interactivity is the major source of working memory load underlying extraneous as well as intrinsic cognitive load. If element interactivity can be reduced without altering what is learned, the load is extraneous; if element interactivity only can be altered by altering what is learned, the load is intrinsic“. Entsprechend dieser Konzeptualisierung könnte sich eine hohe Elementinteraktivität also sowohl aus den Inhalten als auch aus deren Darstellung ergeben und die von Karpicke und Aue (2015) genutzten Textkomplexitätsmetriken wie Flesch reading ease (Flesch 1948) wären eine Möglichkeit, Letzteres objektiv zu erfassen. Es erscheint uns allerdings äußerst fraglich, ob eine hohe Elementinteraktivität in diesem Sinn die von van Gog und Sweller (2015) angeführten Folgen für den Nutzen von Abrufübung hat. Das Argument von van Gog und Sweller (2015) bezieht sich darauf, dass Materialien hoher Komplexität es ohnehin erfordern, viele Verbindungen zwischen verschiedenen Elementen zu ziehen, was eher der Elementinteraktivität als Quelle intrinsischer Belastung entspricht und damit der Komplexität des Inhalts. In diesem Fall wären die von Karpicke und Aue (2015) ins Spiel gebrachten Textkomplexitätsmetriken dem Vorgehen von van Gog und Sweller (2015) zwar in puncto Objektivität überlegen, die fehlende Validität macht diesen Vorteil aber zunichte. Auch der Einsatz von Coh-Metrix (Graesser et al. 2014) zur Erfassung der lokalen Textkohäsion, was laut Karpicke und Aue (2015) dem Konzept der Elementinteraktivität am nächsten kommt, ist wenig überzeugend. So lässt sich anhand von Argumentüberlappung zwar erfassen, wie viele explizite referentielle Bezüge in den Texten enthalten sind, aber nicht, ob es für das Verstehen erforderlich ist, mehrere Konzepte gleichzeitig im Arbeitsgedächtnis verfügbar zu halten. Zudem sind lokal kohärentere Texte eher leichter verständlich (z. B. Burkhart et al. 2020; Lachner et al. 2017).

Ein weiterer zentraler und aus unserer Sicht gravierender Kritikpunkt von Karpicke und Aue (2015) an den Schlussfolgerungen von van Gog und Sweller (2015) war, dass keines der berichteten Experimente tatsächlich Komplexität oder Elementinteraktivität manipulierte, weder im Hinblick auf lernstoffbezogene noch im Hinblick auf textbezogene Aspekte. Stattdessen enthielten die Experimente nur solche Materialien, von denen angenommen wurde, dass sie komplex (oder weniger komplex) sind.

Auf Basis der bisherigen Datengrundlage ist es daher schwer zu ergründen, ob Komplexität bzw. hohe Elementinteraktivität des Lernmaterials tatsächlich eine Randbedingung für das Auftreten eines Testungseffekt darstellt. Wie bereits dargelegt, ist ein wesentlicher Grund hierfür die Unklarheit darüber, wie die Komplexität von Lernmaterialien möglichst objektiv erfasst werden kann. Dieses Problem ist nur dann einigermaßen gut gelöst, wenn sich die Erfassung der Komplexität ausschließlich auf die sprachliche Komplexität von Texten bezieht. Wenn es jedoch um die Elementinteraktivität des Lerninhalts geht, sieht die Situation anders aus. Hier fehlen bislang überzeugende, objektive und reproduzierbare Maße, die über eine verbale Beschreibung der miteinander in Verbindung zu bringenden Elemente hinausgehen. Eine der Ursachen für das Fehlen einer entsprechenden Metrik ist, dass bereits die Bestimmung eines Elements subjektive Aspekte enthält. So wird als typisches Beispiel für Lernmaterial, bei dem nur isolierte Elemente gelernt werden müssen, das Vokalbellernen genannt (Sweller 2010). Ein Vokabelpaar wird also als ein Element angesehen. Aus unserer Perspektive ist allerdings mindestens ebenso plausibel anzunehmen, dass das Vokabellernen die Verbindung von zwei Elementen erfordert – dem muttersprachlichen und dem fremdsprachlichen Begriff – und erst wenn diese Verbindung gelernt wurde, kann das Vokabelpaar gespeichert werden.

Allein dieser Punkt veranschaulicht, wie schwer es ist, die Anzahl von Elementen zu bestimmen, die gleichzeitig im Arbeitsgedächtnis gehalten werden müssen. Zudem muss bestimmt werden, ob die Gesamtheit der Elemente gleichzeitig verarbeitet und miteinander in Verbindung gebracht werden muss, um einen Text zu verstehen, oder ob ein Verständnis auch erreicht werden kann, indem einzelne Teilkomplexe zunächst separat und damit konsekutiv verarbeitet und verstanden werden. In jedem Fall beinhaltet eine Entscheidung über die Anzahl der zeitgleich zu repräsentierenden Elemente große subjektive Spielräume. Insgesamt macht dies deutlich, dass der Begriff Elementinteraktivität eine Präzision nahelegt, die die entsprechenden Operationalisierungsversuche nicht einlösen können (s. hierzu auch Karpicke und Aue 2015).

6 Eine Alternativerklärung für den Einfluss von Komplexität auf den Testungseffekt

Neben diesen messtheoretischen Problemen besteht unserer Auffassung nach allerdings noch ein weiteres Problem: Selbst, wenn man davon ausgeht, dass die als komplex eingestuften Materialien in Studien, die keinen Testungseffekt zeigten, tatsächlich komplex bzw. von hoher Elementinteraktivität waren, gibt es eine Alternativerklärung für diese Befunde. Komplexe Inhalte sind schwerer verständlich als weniger komplexe und erfordern daher in der Regel ein besonders aufmerksames Lesen oder ein erneutes Lesen kritischer Textpassagen und damit typischerweise eine längere Lernzeit. Es ist daher möglich, dass die initiale Lernzeit in den Studien mit komplexen Materialien schlicht nicht ausreichend war, um ein solides Verständnis zu gewährleisten. In diesem Fall könnte es durchaus sein, dass die Lernenden zu dem Zeitpunkt, zu dem die Wiederholungsphasen begannen, noch nicht über eine ausreichend gute Wissensbasis verfügten. Der Abruf in den Übungstests wäre dann unvollständig, und es könnte sogar sein, dass einige der Übungsfragen auf der Basis von Fehlkonzepten falsch beantwortet wurden. Fehler bzw. Fehlkonzepte würden unter diesen Umständen konsolidiert, vor allem dann, wenn es keine Möglichkeit gibt, die Lernmaterialien erneut anzuschauen oder in anderer Form Feedback zu erhalten. Insbesondere der Nutzen des direkten Testungseffekts sollte so eingeschränkt sein, aber auch indirekte Testungseffekte (bzw. Effekte des testpotenzierten Lernens) sollten hier eher gering ausfallen. So ist davon auszugehen, dass Feedback (etwa durch die erneute Vorlage eines Textes) bei mangelndem Verständnis weniger gezielt genutzt werden kann, als wenn nur einzelne Wissenslücken geschlossen oder überschaubar wenige und klar benennbare Verständnisprobleme abgeklärt werden müssen.

In klassischen Experimenten zum Testungseffekt geht der Konsolidierungsphase, in der typischerweise eine Lese- und eine Testungsphase verglichen werden, eine einzelne Lesephase voraus. Bei komplexen Texten könnte eine Wiederholung in Form einer Verlängerung der Lesephase als Verlängerung der initialen Lernphase genutzt werden, um das zunächst mangelnde Verständnis nach der ersten Lernphase zu kompensieren und so ein Grundverständnis sicherzustellen. Im Falle einfacher Materialien wäre eine solche Verlängerung nicht oder kaum erforderlich, und das erneute Lesen würde allein der Konsolidierung des Gelernten dienen. Da Testung allerdings ein effektiveres Mittel der Konsolidierung darstellt als passives Lesen, käme es in diesem Fall zu einem Testungseffekt. Bei komplexen Lernmaterialien würde die bessere Konsolidierung durch Testung hingegen gerade ausreichen, um den Nachteil durch das initial schlechtere Verständnis auszugleichen. Dieser Argumentation folgend wäre es allerdings naheliegend anzunehmen, dass Testung auch bei komplexem Material effektiv sein kann, wenn die Lernenden bis zum Beginn der Wiederholungsphasen ein hinreichend gutes Verständnis des Lernstoffs erlangt haben und so mit dem Testen und erneuten Lesen (oder anderen Bedingungen, in denen das Lernmaterial weiter bzw. erneut verfügbar ist) tatsächlich zwei Wiederholungsgelegenheiten miteinander verglichen werden. Sollte dies der Fall sein, so wäre eher das Textverständnis als die Komplexität eine Randbedingung für den Testungseffekt. Dies vorausgesetzt, würde sich nicht die Frage stellen, ob man bei komplexen Lernmaterialien auf Testung verzichten sollte, sondern wann mit dem Testen begonnen werden sollte und wie initiale Lernbedingungen gestaltet werden sollten, um die Vorteile der Testung auch bei komplexen Materialien zu ermöglichen.

Der eingangs beschriebene Befund, dass der langfristige Nutzen der Testung mit der Anzahl der Übungstests steigt, legt nahe, dass für einen dauerhaften Nutzen die Abrufübung so früh wie möglich in den Lernprozess einbezogen werden sollte, damit das Wissen in möglichst vielen (erfolgreichen) Abrufversuchen gefestigt werden kann. Die Überlegungen zum Testen mit komplexen Materialien lassen hier allerdings die Frage aufkommen, wann dieser früheste Zeitpunkt ist. Aus dem Umstand, dass eine angemessene Wissensbasis eine notwendige Voraussetzung dafür ist, dass der Abruf der entsprechenden Informationen gelingen und das Wissen konsolidiert werden kann, ergibt sich, dass nicht zu früh mit der Abrufübung begonnen werden sollte. Wenn ein Sachverhalt noch nicht ausreichend verstanden wurde, kann nichts Substanzielles gefestigt werden oder es könnten sogar Fehlkonzepte gefestigt werden, vor allem dann, wenn es kein Feedback gab, anhand dessen die entsprechenden Fehlkonzepte korrigiert werden konnten (für ein ähnliches Argument s. Roelle und Nückles 2019; Rummer 2021). Für die Frage, wann man im Verlauf des Lernprozesses mit dem Testen beginnen sollte, gilt es also, eine Balance zu finden zwischen „so früh wie möglich“, um mehrere Gelegenheiten zum Üben des Abrufs zu ermöglichen (und den Abruf „schwer“ zu gestalten), und „nicht zu früh“, um zu vermeiden, dass konsolidiert wird, bevor ausreichend Wissen aufgebaut worden ist.Footnote 2

Eine einfache Möglichkeit, die Lernbedingungen so zu verändern, dass sie sowohl ausreichende Lerngelegenheiten als auch optimale Übungsmöglichkeiten für den Abruf ermöglichen, könnte entsprechend darin bestehen, die initiale Lernphase bei komplexen Lernmaterialien länger zu gestalten als bei weniger komplexen Inhalten (s. auch Rummer 2021). Alternativ könnten die Lernenden bereits vor der ersten Lernphase besser auf das Verständnis komplexer Materialien vorbereitet werden, etwa im Sinne eines „pre-training“ (z. B. Mayer et al. 2002). Hier werden den Lernenden die Eigenschaften zentraler Konzepte vermittelt, bevor die eigentliche Instruktion beginnt. Dies könnte auch das Verständnis komplexer Sachverhalte in der Lernphase verbessern, so dass die Lernenden von der Abrufübung profitieren können.

Allerdings ist es an dieser Stelle wichtig, darauf hinzuweisen, dass diese Überlegungen zur Rolle der Komplexität in Bezug auf den Testungseffekt bislang spekulativ sind und noch nicht empirisch überprüft wurden. Hier wäre es erforderlich, sowohl die Komplexität des Lernmaterials zu manipulieren (unter Berücksichtigung der bereits beschriebenen Schwierigkeiten) als auch die Gestaltung der initialen Lernphase(n). Sollten sich in solchen Studien unsere Annahmen bestätigen, wäre nicht die Komplexität oder Elementinteraktivität des Materials ausschlaggebend für das (Nicht‑)Auftreten eines Testungseffekts, sondern das erreichte Verständnis zum Zeitpunkt der Konsolidierungsphase, das wiederum von der Komplexität des Lernmaterials, dem Vorwissen der Lernenden und der ihnen zur Verfügung stehenden initialen Lernzeit abhängt. Insgesamt lässt sich jedoch festhalten, dass zurzeit sowohl aufgrund der bislang unzureichenden Befundlage als auch aufgrund der Unklarheit bezüglich der Frage, was die Komplexität von Lernmaterialien ausmacht, Komplexität nicht als etablierte Randbedingung für das Auftreten eines Testungseffekts gelten kann.

7 Open-Book-Testung als Möglichkeit der Flexibilisierung des Lernens

Ein vielversprechender Ansatz, um einerseits das Verständnis zu fördern und andererseits bereits früh Abrufübung zu ermöglichen, könnte die Verwendung von Open-Book-Tests anstelle der typischerweise verwendeten Closed-Book-Tests sein. In Open-Book-Tests müssen die Lernenden wie in einer typischen Testungsbedingung Übungsfragen beantworten, können dazu aber die Lernmaterialien, also Texte oder eventuell gemachte Notizen, zu Rate ziehen. Wenn Lernende mit einer Frage konfrontiert werden, die sie nicht unmittelbar beantworten können, bietet ein Open-Book-Test die Möglichkeit, bestimmte Textpassagen erneut zu studieren und das anfängliche Verständnis zu verbessern, um dann dazu in der Lage zu sein, die Frage zu beantworten. Dies sollte besonders dann hilfreich sein, wenn es sich um komplexe Lernmaterialien handelt, die die Lernenden nach einer initialen Lesephase noch nicht ausreichend verstanden haben. In diesem Fall böte, wie bereits für das wiederholte Lesen argumentiert, die Verfügbarkeit des Textes die Möglichkeit, das unzureichende Textverständnis zu kompensieren. Anders als das rein wiederholende Lesen regt Open-Book-Testung jedoch trotzdem zur Abrufübung an. Die Beantwortung von Übungsfragen mit verfügbaren Materialien sollte allerdings im Vergleich zu einem Closed-Book-Test das Ausmaß an Abrufübung reduzieren, wenn – wie gerade ausgeführt – zumindest einige Informationen nicht aus dem Gedächtnis abgerufen, sondern im Text nachgeschlagen werden (für ein ähnliches Argument s. Roelle und Nückles in diesem Themenheft; Rummer et al. 2019).

Bei Open-Book-Tests müssen die Lernenden also eine Balance zwischen erneutem Lesen und aktivem Abrufen herstellen. Ideal aus Sicht der Testungsliteratur wäre, wenn sich die Lernenden dabei darum bemühen würden, zunächst so viele Informationen wie möglich aus dem Gedächtnis abzurufen und von der Möglichkeit der Materialeinsicht nur dann Gebrauch zu machen, wenn sie bestimmte Informationen, auch mit viel Anstrengung, nicht abrufen können. In diesem Fall sollten sie sowohl in stärkerem Maße vom direkten Testungseffekt profitieren als auch, wenn sie sich erneut dem Text zuwenden, vom indirekten Testungseffekt. Darüber hinaus kann der verfügbare Text genutzt werden, um die abgerufenen Antworten hinsichtlich ihrer Korrektheit zu überprüfen oder Antworten zu präzisieren. Voraussetzung für ein solches Vorgehen wäre allerdings das Wissen um die prinzipielle Nützlichkeit von Abrufübung. Dass Lernende tatsächlich eine solche Strategie verwenden, ist aus unserer Sicht eher unwahrscheinlich (s. auch Waldeyer et al. 2020). Unserer Einschätzung nach ist es wahrscheinlicher, Lernende beantworten allenfalls die Fragen, deren Beantwortung ihnen besonders leichtfällt, ohne Einsicht in das Lernmaterial zu nehmen, und alle anderen Fragen mehr oder weniger unter Einsichtnahme in die Lerntexte. Allerdings sind dies Spekulationen, die einer weiteren experimentellen Prüfung unterzogen werden müssten.

Eine Möglichkeit, den Lernprozess effektiver zu gestalten, bestünde nach dem bisher Gesagten darin, die Lernenden ausdrücklich dazu aufzufordern, zunächst alle Fragen zu beantworten, ohne die Materialien einzusehen, und die Texte erst dann zu nutzen, wenn die Fragen nicht ohne erneute Materialeinsicht beantwortet werden können. Auf diese Art und Weise könnten die Lernenden sowohl vom direkten als auch vom indirekten Testungseffekt profitieren. Ähnlich gingen Waldeyer et al. (2020) in einer Bedingung vor, die den Lernenden den flexiblen Wechsel zwischen einer Closed-Book- und einer Open-Book-Bearbeitung ermöglichte. Der Text war hier standardmäßig nicht sichtbar, konnte aber von den Lernenden sichtbar gemacht werden und verschwand dann wieder, entweder auf Initiative der Lernenden oder automatisch nach 30 s. Im Vergleich zu einer reinen Open-Book- und einer reinen Closed-Book-Bearbeitung führte diese Bedingung zum größten Lernerfolg, während sich die anderen Bedingungen nicht unterschieden.

8 Zusammenfassung und Schlussfolgerung für die Praxis

Zusammenfassend lässt sich feststellen, dass der Testungseffekt durchaus robust ist und für unterschiedliche Testungsverfahren und im Vergleich zu unterschiedlichen Kontrollgruppen sowohl im Labor als auch im Feld nachgewiesen werden konnte. Allerdings ist es eine vieldiskutierte und noch immer offene Frage, ob sich der Testungseffekt auch unter Verwendung komplexer Lernmaterialien zuverlässig zeigt. Laut van Gog und Sweller (2015) sollte dies nicht der Fall sein, da bei der Verarbeitung von Materialien mit hoher Elementinteraktivität auch ohne Abrufübung zahlreiche Verbindungen zwischen den einzelnen Elementen hergestellt werden (müssen) und so kein zusätzlicher Nutzen durch Testung zu erwarten ist. Sie verweisen auf eine Reihe von Experimenten, die diese Hypothese unterstützen und bei komplexen Materialien keinen Testungseffekt zeigen. Allerdings wurde die von van Gog und Sweller (2015) vorgenommene subjektive Kategorisierung der Materialkomplexität vehement kritisiert (Karpicke und Aue 2015). Wir haben dafür argumentiert, dass diese Diskussion zum einen durch unausgesprochene Unterschiede in der Interpretation des Konzepts Komplexität bzw. Elementinteraktivität erschwert wird und dass nicht die Komplexität selbst für das Ausbleiben von Testungseffekten verantwortlich ist, sondern der damit einhergehende Umstand, dass die Inhalte zum Zeitpunkt der Testung noch nicht ausreichend gut verstanden waren. Sollte sich diese Annahme bestätigen, ergäben sich daraus andere praktische Implikationen als aus der Annahme, Komplexität sei eine Randbedingung für den Testungseffekt. In diesem Fall wäre es ratsam, bei komplexen Materialien nicht auf Testung zu verzichten, sondern mittels ausreichender Lesezeit und anderen Methoden der Verständnissicherung (z. B. Pre-Training zur Einführung von Schlüsselbegriffen) dafür zu sorgen, dass zum Zeitpunkt der Testung die Inhalte weitgehend verstanden sind. In diesem Kontext könnten bei komplexen Inhalten auch Open-Book-Testungen hilfreich sein, die es den Lernenden erlauben, selbständig aus einem Abrufmodus wieder in einen Lesemodus zu wechseln, wenn sie auf Verständnisprobleme stoßen. Ein effektiver Einsatz setzt allerdings sowohl das metakognitive Wissen über den Nutzen von Abrufübung als auch gute metakognitive Monitoring- und Regulationsfähigkeiten voraus, um Verständnisprobleme zu entdecken und entsprechend darauf zu reagieren (s. auch Roelle und Renkl 2020).