Einleitung

Die Messung von Schülerleistungen beim praktischen Arbeiten im naturwissenschaftlichen Unterricht erfordert Assessments, die Schülerinnen und Schüler mit experimentell lösbaren Problemstellungen konfrontieren und deren Bewältigung authentische hands-on Aktivitäten erfordern. Solche sogenannten Performance Assessments – wir werden in diesem Beitrag im Weiteren von hands-on Experimentiertests sprechen – wurden seit den 1970er-Jahren vor allem im angloamerikanischen Raum sowohl für den Einsatz im Large-scale als auch in Laborstudien zur Messung von Schülerleistungen entwickelt und erprobt (z. B. Erickson et al. 1992 (BCA); Harmon et al. 1997 (TIMSS); Millar et al. 1996 (PACKS); Shavelson et al. 1991; Stecher und Klein 1996 (RAND)). Im deutschsprachigen Raum gelangten hands-on Experimentiertests erst mit der Einführung von Bildungsstandards zu Beginn dieses Jahrhunderts als potenzielles Instrument zur Messung experimenteller und praktischer Fähigkeiten in den Fokus von Fachdidaktikerinnen und Fachdidaktikern sowie Testentwicklerinnen und Testentwicklern (z. B. Gut 2012; Gut et al. 2014; Heidrich 2017; Schmidt 2016; Schreiber 2012). Insbesondere in neueren Studien wird vermehrt der Frage der Validität nachgegangen, weil sich gezeigt hat, dass bei hands-on Experimentiertests die valide Interpretation der Testwerte herausfordernd ist. Die Auseinandersetzung mit Validitätsfragen bei hands-on Experimentiertests erhält somit im fachdidaktischen Forschungsdiskurs grundsätzlich immer mehr Gewicht. Deshalb soll mit einem systematischen Review eine ordnende Sicht auf die Validierungspraxis von hands-on Experimentiertests eingenommen werden. Eine solche Betrachtung ist notwendig, um neue Impulse für die Validierungspraxis bei hands-on Experimentiertests zu gewinnen.

Zielsetzung, Fragestellungen und Aufbau des Reviews

In dieser Arbeit geht es konkret um die folgenden Forschungsfragen:

F1

Entwicklung eines Ordnungssystem für Validierungsstudien: Anhand welcher Regeln und Evidenzen aus der allgemeinen Literatur zur Validierung von Tests kann eine potenzielle Validierungspraxis bei hands-on Experimentiertests systematisch beschrieben werden?

F2

Empirische Erfassung der Validierungspraxis: Wie ist die typische, publizierte Validierungspraxis bei hands-on Experimentiertests?

F3

Bewertung der Validierungspraxis: Wie steht die publizierte Validierungspraxis zu den normativen Anforderungen, die sich aus der allgemeinen Literatur zur Validierung von Tests ergeben?

Zur Beantwortung der Fragestellungen wird im Kapitel zur theoriebasierten Phänomenologie von Validierungen auf Basis eines narrativen Literaturreviews ein theoretisches Ordnungssystem für Validierungen von hands-on Experimentiertests entwickelt und gerechtfertigt (Forschungsfrage F1). Im folgenden Kapitel wird anhand des Ordnungssystems ein Review von Publikationen zu Validierungsstudien aus dem Zeitraum von 1990 bis heute vorgestellt und die analysierte, publizierte Validierungspraxis systematisch beschrieben (Forschungsfrage F2). Daraus werden Impulse für nächste Schritte und schließlich Desiderata für die künftige Validierungspraxis abgeleitet (Forschungsfrage F3).

Herausforderung bei der Systematisierung von Validierungsstudien

Um das Ziel des Reviews zu erreichen, werden Studien zu hands-on Experimentiertests hinsichtlich der publizierten Validierungspraxis der Tests analysiert und geordnet. Das Ordnungssystem ist dabei mit der Herausforderung verbunden, dass sich im untersuchten Zeitraum von 1990 bis heute das Verständnis, was unter dem Begriff der Validität eines Tests zu verstehen ist, verändert hat. Die Veränderung im Verständnis kann gemäß Newton und Shaw (2014) in drei Phasen eingeteilt werden, die vereinfacht mit den Namen Cronbach und Meehl (1955), Messick (1993) und Kane (2006) verknüpft werden können. In allen Phasen ist allerdings ein zentrales Anliegen im Validitätsdiskurs zu erkennen:

[…] different phases can be characterized by different kinds of answer to a central question: how much of what kind of logical analysis and empirical evidence is required in order to substantiate a claim to validity? (Newton und Shaw 2014, S. 16)

Zur Beantwortung dieser Frage ist folglich eine Argumentation zur Validität – im Weiteren als Validitätsargumentation bezeichnet – zu führen, die durch Logik und Evidenzen zu stützen ist. Die Idee der Notwendigkeit einer Validitätsargumentation ist der gemeinsame Kern aller Verständnisse von Validität über die verschiedenen Phasen hinweg und bildet somit für einen Vergleich von Studien hinsichtlich der Validität eine tragfähige Basis für ein zu entwickelndes Ordnungssystem.

Theoriebasierte Phänomenologie von Validierungen – Ein Ordnungssystem für die Systematisierung von Validierungen

Beantwortung von Forschungsfrage F1: „Anhand welcher Regeln und Evidenzen aus der allgemeinen Literatur zur Validierung von Tests kann eine potenzielle Validierungspraxis bei hands-on Experimentiertests systematisch beschrieben werden?“ Zur Beantwortung wird zunächst die Konzeption von Testvalidierungen als Argumentation erläutert, auf deren Basis ein Ordnungssystem für Validierungsstudien anhand eines Literaturreviews hergeleitet wird. Daran schließt eine Rechtfertigung des entwickelten Ordnungssystems an.

Konzeption von Testvalidierungen als Argumentation

Beim Testen von Personen werden Testwerte generiert, die als Maß für Ausprägungen zumeist komplexer personaler Merkmale wie Wissen, Kompetenzen, Einstellungen, Interessen, Motivationen u. a. interpretiert und bildungspolitisch genutzt werden. Die Interpretation und Nutzung von Testwerten basieren dabei auf einer Reihe von interpretierenden und verallgemeinernden Schlussfolgerungen hinsichtlich der Entwicklung, dem Einsatz und der Auswertung eines Tests. Diese Schlussfolgerungen beruhen selbst meist auf impliziten, seltener auf in der Literatur explizit gemachten Annahmen (Kane 2006). In einem kritischen Forschungsdiskurs werden solche Annahmen und Schlussfolgerungen hinterfragt. Um einer solchen Kritik zu begegnen, wird von den Testanwenderinnen und Testanwendern nun erwartet, dass sie die impliziten Annahmen und Schlussfolgerungen explizit machen und mit Bezug auf Evidenz für eine bestimmte Testwert-Interpretation und gegen einen vorgebrachten Einwand argumentieren. Die Generierung entsprechender Evidenz und der Ausführung einer rechtfertigenden Validitätsargumentation gegen bestimmte Einwände wird als „Validierung eines Tests“ bezeichnetFootnote 1. Verschiedene Validierungen einer bestimmten Testwert-Interpretation und -Nutzung werden dabei gerne in umfangreicheren Validierungsstudien zusammengefasst.

Unabhängig vom jeweiligen zugrundeliegenden Verständnis von Validität geht man im Weiteren von der dargelegten Interpretation der Testvalidierung als rechtfertigendem, auf logischer Analyse und Evidenz aufbauenden Argumentationsprozess aus, wobei der Prozess der Validierung einer Testwertinterpretation prinzipiell nie als abgeschlossen betrachtet werden kann (Cronbach 1988). Die zur Validierung einer Interpretation zusammengetragene Evidenz und die logischen Analysen können selbst immer wieder infrage gestellt werden. Die Validierung einer Testwertinterpretation ist epistemologisch vergleichbar mit der Verifizierung einer Theorie. Eine Testwert-Interpretation kann zwar immer besser mit Evidenz plausibel gemacht und gerechtfertigt werden, jedoch nie als die einzig richtige, gültige Interpretation bewiesen werden (Cronbach 1988, S. 5; Messick 1995, S. 741).

Grundlegende Überlegungen zum Aufbau des Ordnungssystems

Um Validierungen im Hinblick auf das geplante Review ordnen und vergleichen zu können, wird, wie oben dargestellt, ein Ordnungssystem für Validitätsargumentationen benötigt. Ein solches Ordnungssystem muss sämtliche in der Literatur beschriebenen Evidenzen und Schlüsse, die in Validitätsargumentationen vorkommen, abbilden und strukturieren. Dazu wird zunächst ein Modell für einfache Schlussfolgerungen in Argumentationen und eine Struktur für Verknüpfungen von Schlussfolgerungen in umfassenden Validitätsargumentationen benötigt.

Ein Argumentationsmodell als Grundelement der Argumentation im Ordnungssystem:

Ein Modell für einfache Schlussfolgerungen bietet das Argumentationsmodell von Toulmin (1996, S. 86 ff.) (s. Abb. 1). Das Modell wird in vielfältigen Kontexten verwendet (Kane 2006, S. 27), insbesondere auch für die Charakterisierung von Validitätsargumentationen (siehe u. a. Kane 2013; Messick 1989; Mislevy 2007).

Abb. 1
figure 1

Argumentationsmodell von Toulmin (1996, S. 95)

Im Argumentationsmodell wird eine Argumentation von einem gegebenen Sachverhalt (Datum) zu einer Behauptung (Konklusion) als eine Schlussfolgerung beschrieben. Der Schluss basiert auf einer spezifischen Schlussregel und wird durch diese gestützt. Allerdings sind Schlussregeln nicht selbstevident. Ihre Gültigkeit gilt es vielmehr im Kontext der jeweiligen Argumentation zu begründen. Diese Begründungen basieren häufig auf Evidenzen (Stützung). Ohne gültige Evidenzen ist eine Schlussfolgerung nicht zulässig. Hierbei gilt zu beachten, dass stärkere Behauptungen auch stärkere Evidenzen benötigen als schwächere Behauptungen (Kane 2013, S. 12). Entscheidend für die benötigte Stützung der Schlussregel ist daher die Ausprägung der Behauptung, die für eine vollständige Argumentation qualifiziert sein muss. Die Qualität der Behauptung wird im Argumentationsmodell von Toulmin durch einen Operator ausgedrückt. Typische Operatoren sind Adjektive wie z. B. „wahrscheinlich“ oder „vermutlich“. Möglich sind allerdings auch quantitative Operatoren (Kane 2013, S. 12).

Validitätsargumentation als Kette einzelner Schlussfolgerungen:

Das Ergebnis einer Validierung ist meist das Resultat mehrerer aufeinander aufbauender Schlussfolgerungen. Dabei wird die Behauptung der vorangehenden Schlussfolgerung zum Datum der darauffolgenden Schlussfolgerung (s. Abb. 2).

Abb. 2
figure 2

Validitätsargumentation als Argumentationskette

Aufbau des Ordnungssystems durch Aneinanderreihung von Schlussfolgerungen:

Aus den genannten Gründen wird als Grundstruktur des Ordnungssystems eine Argumentationskette gewählt. Die Anzahl und inhaltliche Ausprägung der involvierten Schlussfolgerungen sollen im folgenden Abschnitt diskutiert werden.

Beschreibung und theoretische Fundierung eines allgemeinen Ordnungssystems für Validitätsargumentationen

Für die Herleitung eines allgemeinen Ordnungssystems orientieren wir uns zunächst an der Perspektive einer Testentwicklerin und eines Testentwicklers. Sie können für eine Validitätsargumentation die folgende Argumentationskette aufbauen (s. Abb. 34 und 5), die in Anhang 1 ausführlicher hergeleitet wird:

Beginnend mit der Festlegung des geplanten Zwecks und der geplanten Interpretationen zum zu entwickelnden Test wird gleichzeitig die Zieldomäne eingegrenzt („Intention“). Daran schließt die Modellierung des zu erhebenden Konstrukts an. Auf der Basis des dadurch bestimmten Modells (Konklusion „Modell“) wird ein Test entwickelt (Konklusion „Test“). Dazu gehört die Entwicklung von Items mit Überlegungen zum Testdesign. Die Bearbeitung jedes Items in einem Test erzeugt Performanzen (Konklusion „Performanz“) die in einem nächsten Schritt anhand von Indikatoren zu beurteilen sind (Konklusion „Indikatorenwerte“). Anhand der Indikatorenwerte wird für jedes Item ein Itemwert generiert (Konklusion „Itemwert“). Aus den Itemwerten werden schließlich (klassisch oder probabilistisch) Testwerte skaliert (Konklusion „Testwert“). Die skalierten Testwerte werden dann über alle Anforderungssituationen der Testitems zu latenten Fähigkeiten verallgemeinert (Konklusion „latente Fähigkeit“) und je nach Intention (geplante Interpretation und Nutzung der Testwerte) als transferfähige Kompetenzen interpretiert (Konklusion „Interpretierte Fähigkeit“). Schließlich sind Implikationen zu untersuchen hinsichtlich einer Testnutzung (Konklusion „Testnutzung“).

Es wird deutlich, dass Testentwicklerinnen und Testentwickler bei einer solchen Argumentationskette eine Reihe von Konklusionen durchlaufen. Für jede Konklusion sind Schlussregeln zu formulieren, die durch Evidenzen zu stützen sind. Die theoretische Fundierung der Schlussregeln und der damit verbundenen Evidenzen basiert für unserer Ordnungssystem auf Literatur, die im Zusammenhang mit verschiedenen Validitätsverständnissen zitiert wird (s. Phasen bei der Entwicklung des Validitätsbegriffs in Newton und Shaw 2014). Das entwickelte Ordnungssystem ist in den Abb. 34 und 5 dargestellt, die Details zur Entwicklung des Ordnungssystems mit der berücksichtigten Literatur sind in Anhang 1 nachzulesen.

Abb. 3
figure 3

Allgemeines Ordnungssystem für Validierungsargumentationen (gestützt durch Literatur)

Abb. 4
figure 4

Fortsetzung

Abb. 5
figure 5

Fortsetzung

Bedeutung und Rechtfertigung des Ordnungssystems

Mit dem allgemeinen Ordnungssystem (Abb. 34 und 5) wird weder der Anspruch einer wissenschaftstheoretischen Explikation des Validitätsbegriffs noch eines abschließenden, theoretisch begründeten Modells für die Validierung von hands-on Experimentiertests bzw. allgemeiner Performance Assessments erhoben. Das Ordnungssystem soll in erster Linie als pragmatisches Instrument verstanden werden, mit welchem die vielfältige Validierungspraxis über die historische Entwicklung des Validitätsverständnisses hinweg im Sinne einer Phänomenologie beschrieben und strukturiert erfasst werden kann. In zweiter Linie kann das Ordnungssystem ein Leitgerüst für die Planung von Validierungsstudien darstellen. Die Rechtfertigung des Ordnungssystems erfolgt deshalb nicht aufgrund einer theoretischen Herleitung, sondern auf der Darlegung dessen Brauchbarkeit in Bezug auf beide Funktionen. In einem ersten Schritt soll daher die retrospektive Funktion des Ordnungssystems und die Passung des Ordnungssystems zu den in der Literatur häufig referierten Ordnungssystemen von Cronbach (1988), Messick (1989, 1994, 1995) und Kane (2006) aufgezeigt werden. Dabei sollen die Grenzen der Brauchbarkeit des entwickelten Ordnungssystems thematisiert werden. Als zusätzlicher Ertrag des Reviews wird in einem zweiten Schritt der prospektive Nutzen des Ordnungssystems für die Planung von Validierungsstudien diskutiert.

Retrospektive Funktion des Ordnungssystems

Verhältnis des Ordnungssystems zu alternativen Ordnungssystemen

Im Folgenden soll auf drei Ordnungssysteme eingegangen werden, die jedes für sich stellvertretend für eine der letzten drei Entwicklungsphasen des Validitätsbegriffs steht und von wichtigen Stimmen im Validitätsdiskurs stammen (s. Abschn. „Herausforderung bei der Systematisierung von Validierungsstudien“).

  • Kategorisierung von Fragen, die zu Validitätsargumentationen führen.

    Cronbach (1988, S. 5) stellt ins Zentrum seines Validitätsdiskurses Fragen, die Testentwicklerinnen und Testentwickler in Bezug auf die Interpretation und Nutzung der generierten Testwerte stellen sollten und deren Beantwortung eine Validitätsargumentation erfordert: „The first talent needed in developing a persuasive argument is that of devil’s advocate. It is vital, […] to become mindful of the many questions that can and should be raised. Questions about tests originate in five perspectives.“ Dabei unterscheidet er Fragen zu fünf Perspektiven (vgl. Anhang 2): „functional“, „political“, „operationalist“, „economic“ und „explanatory“.

  • Kategorisierung von Evidenzen, die für Validitätsargumentationen benötigt werden.

    Messick (1993, S. 6) richtet den Fokus des Validitätsdiskurses auf die „sources of validity evidence“, wobei er ein halbes Duzend Kategorien von Evidenzen in der Regel als ausreichend erachtet, um verschiedene Validierungsansätze zu unterscheiden. Im Rahmen der von ihm vorgeschlagenen Konzeption von Konstruktvalidität als vereinheitlichendes Validitätskonzept spricht Messick (1995, S. 744 f) später von mit den Evidenzkategorien korrespondierenden „aspects of construct validity“ (vgl. Anhang 2): „content“, „substantive“, „structural“, „generalizability“, „external“ und „consequential“.

  • Kategorisierung von Schlüssen, die in Validitätsargumentationen verwendetet werden.

    Kane (2006, S. 24) analysiert die Struktur von Validitätsargumentationen und den darin enthaltenen „inferences“. Dabei identifiziert er typische, häufig oder immer vorkommende „inferences“: „scoring“, „generalization“, „extrapolation“, „theory-based interpretation“, „causal“, „implication“ und „decision“ (Kane 2006, 2013; vgl. Anhang 2).

Wie in Anhang 2 dokumentiert, können vielfältige Validitätsargumentationen aus Ordnungssystemen mit unterschiedlichsten Abgrenzungsprinzipien (relevante Fragen, relevante Evidenzen, relevante Schlüsse) und aus verschiedenen Phasen des Validitätsdiskurses im Ordnungssystem (s. Abb. 34 und 5) eindeutig und sinnvoll verortet werden. Die Struktur des Systems erweist sich daher als geeignet für ein Review.

Prinzipielle Unvollständigkeit und Nichtabgeschlossenheit eines Ordnungssystems

Die im Anhang 2 tabellarisch dargestellte Übersetzung der alternativen Ordnungssysteme von Validitätsargumentationen in das in Abb. 34 und 5 vorgestellte Ordnungssystem erweckt auf der Ebene der Evidenzen dem ersten Anschein nach den Eindruck, dass das Ordnungssystem gegenüber anderen Ordnungssystemen vollständiger und daher überlegener ist. Dieser Eindruck täuscht jedoch aus zwei Gründen: Einerseits subsumieren verschiedene Autoren unter dem Begriff Validität unterschiedliche Test- und Interpretationsmerkmale. Voneinander abgegrenzt werden gerne technische Gütekriterien wie Objektivität und Reliabilität sowie Kriterien der reinen Testwertinterpretation und Testwertnutzung (Kane 2006; Lissitz und Samuelsen 2007a). Je nach Intention der jeweiligen Autoren werden technische Gütekriterien entweder als Teil der Validität oder stillschweigend als Voraussetzung für Validität gehandelt. Da das Ordnungssystem nach Kane in simpler Weise Evidenzen aus unterschiedlichsten Quellen zusammenstellt, erscheint es notgedrungen als vollständiger. Andererseits weisen die drei oben genannten Autoren selbst darauf hin, dass „ihre“ jeweiligen Ordnungssysteme nicht als vollständig und abschließend aufzufassen sind.

Cronbach bemerkt, dass der Prozess der Validierung prinzipiell nie abgeschlossen sein kann. Die von verschiedenen Seiten betonte Formel lautet „[…] validation is never finished“ (Cronbach 1988, S. 5). Die Fragen, die es unter den von Cronbach genannten fünf Perspektiven zur Validität zu stellen gilt, sind daher nicht abschliessend aufzählbar.

Auf die Kategorisierung von Evidenzen übertragen stellt Messick (1989, S. 6) fest: „The basic sources of validity evidence are by no means unlimited.“ Die Evidenzen lassen sich daher nicht eindeutig in eine bestimmte Anzahl von Kategorien unterteilen: „Indeed, if we ask where one might turn for such evidence, we find that there are only a half dozen or so main forms. The number of forms is arbitrary, to be sure, because instances can be sorted in various ways and categories set up at different levels of generality“ (Messick 1989, S. 6). Die von Messick (1995, S. 744) vorgeschlagene Unterscheidung von sechs Validitätsaspekten verstanden als „means of addressing central issues implicit in the notion of validity as a unified concept“ wird letztlich vor allem pragmatisch gerechtfertigt: „[…] a half dozen or so categories […] seem to provide a workable level for highlighting similarities and differences among validation approaches“ (Messick 1989, S. 6). In Messicks Konzeption von Validität fehlt jedoch der theoretische Zusammenhang zwischen den verschiedenen Aspekten (Kategorien) von Validität.

Dieser Zusammenhang wird evident, wenn man mit Kane den Fokus auf die Art der Schlüsse richtet, die aufgrund der verschiedenen Kategorien von Evidenzen in Validitätsargumentationen vorkommen. Jedoch ergibt auch dieser Ansatz letztlich keine eindeutige und abschliessende Kategorisierung. Kane (2006, S. 24, 34, 43) erstellt zwar für verschiedene Testwertnutzungen (das sind „placement testing system“, „trait interpretation“, „indicators for theoretical constructs“) Validitätsargumentationen durch Ketten notwendiger, aufeinander aufbauender Schlüsse, relativiert deren Vollständigkeit und Gültigkeit jedoch selbst: „The interpretative argument may also involve various technical inferences and assumptions (e.g. equating, scaling) that are not discussed here“ (Kane 2006, S. 24). Und: „I suggest that some inferences […] are likely to occur in most if not all IUAs and that many others are commonly employed, but I do not want to suggest that IUAs have to follow any particular pattern“ (Kane 2013, S. 10). Zu den sechs von Kane (2013, S. 10) explizit diskutierten Arten von Schlüssen meint er: „The inferences discussed […] are intended as examples and not as a checklist“. Unter anderem blendet Kane (2006, S. 24) explizit in seiner Betrachtung Schlüsse aus, die mit dem „equating“ und „scaling“ (der Testwertgenerierung und Fähigkeitsskalierung) zusammenhängen. In diesem Sinne sind bei Übertragung seines Ordnungssystems in das hier entwickelte Ordnungssystem Lücken zu erwarten (vgl. Anhang 2).

Die Fragen der Vollständigkeit, Abgeschlossenheit und Gültigkeit von Ordnungssystemen für Validitätsargumentationen stellt sich vom Standpunkt der wissenschaftlich akzeptierten Konzeption von Validität als Konstrukt und der Konzeption von Validierung als evidenz-basierte Argumentation zur Rechtfertigung von Testwertinterpretationen und Testwertnutzungen nicht. Ordnungssysteme sind nicht korrekt oder falsch, sondern im Hinblick auf einen gegebenen Zweck mehr oder weniger praktikabel.

Repräsentation von Validitätsargumentationen im Ordnungssystem

Kane (2006) beschreibt die Struktur von Validitätsargumentationen als Kette von Schlüssen, die auf multiplen Evidenzen beruhen und in der Summe eine Rechtfertigung einer bestimmten Testwertinterpretation und Testwertnutzung ergeben soll. Solche Rechtfertigungen werden unabhängig von der in einer jeweiligen Epoche vorherrschenden Konzeption des Validitätsbegriffs in der Literatur als Schlüsse oder Ketten von Schlüssen beschrieben. Kane (2006, S. 19) zitiert beispielsweise einen Verallgemeinerungsschluss von Guion wie folgt:

It is legitimate to take the observed performance as an estimate of overall performance in the domain, if (a) the observed performances can be considered a representative sample from the domain, (b) the performances are evaluated appropriately and fairly, and (c) the sample is large enough to control sampling error. (Guion 1977)

Der von Guion beschriebene Rechtfertigungsschluss entspricht im Ordnungssystem einer Validitätsargumentation, die die Schlussregeln R3, R4 und R6 mit den entsprechenden Evidenzen E3-2 (a), E4‑1 und E4-2 (b), E6-1 (c) kombiniert. Auf der Ebene der Evidenzen wird der Rechtfertigungsschluss somit vollständig im Ordnungssystem repräsentiert. Auf der Ebene der Schlussregeln erscheint die Repräsentation des Rechtfertigungsschlusses im Ordnungssystem expliziter (Schlusskette reicht von der Stufe „Modell“ bis zur Stufe „Testnutzung“) als in der originalen Fassung von Guion. Das hat auch damit zu tun, dass, wie bereits von Messick (1989) betont wurde (vgl. Abschn. „Retrospektive Funktion des Ordnungssystems“), die Einordnung von Evidenzen in einem Ordnungssystem einer gewissen Beliebigkeit unterliegt. So könnte beispielsweise das Validitätskriterium der Fairness (vgl. Abb. 3) „E2-5: Die Items sind für die Zielgruppe fair“ auch an einer anderen Stelle im Ordnungssystem eingeordnet werden. Aus der Sicht von Testentwicklerinnen und Testentwicklern, die sich nun fragen, was der Test misst, gehört die Frage der Fairness zur Interpretation der skalierten Fähigkeitswerte, wobei zum Beispiel DIF-Analysen über verschiedene Populationsgruppen gerechnet würden. Für Testentwicklerinnen und Testentwickler, die einen ganz spezifischen Nutzen der Testwerte vor Augen haben, kann die Frage der Fairness bereits bei der Itemkonstruktion Thema sein, wobei man sich dabei beispielsweise auf bekannte Erkenntnisse aus der Literatur oder Expertenurteile stützen würde.

Der prospektive Nutzen des Ordnungssystems für die Planung von Validierungsstudien

Obwohl das entwickelte Ordnungssystem als Instrument zur Systematisierung verschiedenster Validierungsstudien benutzt werden soll, ist es bezüglich des Verständnisses von Validität und Validierung nicht neutral. Das Ordnungssystem baut auf einem bestimmten Validitätsverständnis auf. Wenn das Ordnungssystem daher prospektiv für die Planung einer Validierungsstudie genutzt werden soll, dann wird auch eine gewisse Konzeption von Validierung übernommen. Dazu gehören im Wesentlichen die folgenden Punkte:

  • Die Validität ist keine Eigenschaft eines Tests, sondern eine Eigenschaft der Interpretation und der Verwendung von Testergebnissen (Messick 1993, 1994, 1995). Als solche wird sie als einheitliches Konzept verstanden, das sich nicht in getrennte Teilaspekte zerlegen lässt.

  • Mit dem Ordnungssystem wird die Sichtweise des „argument-based approach“ (Cronbach 1988; Kane 1992) übernommen. „Measurement uses limited samples of observations to draw general and abstract conclusions about persons or other units (e.g., classes, schools). To validate an interpretation or use of measurement is to evaluate the rational, or argument, for the claims being made, and this in turn requires a clear statement of the proposed interpretations and uses and critical evaluation of these interpretations and uses“ (Kane 2006, S. 17). Die Interpretation von Testergebnissen wird dabei als Hypothese im Sinne einer „interpretative theory“ (Messick 1989, S. 6) verstanden, die mit Hilfe von Evidenz, die im Rahmen von Validierungsstudien geschaffen wird, überprüft. Die Überprüfung resultiert im besten Fall in einer Stützung für die intendierte Interpretation und Nutzung der Testergebnisse, die in Form einer Argumentation auf der Basis von Evidenzen erfolgt. Die Stützung betrifft dabei nicht nur die Interpretation und Nutzung bestehender Testwerte, sondern auch die Prozesse, die zu diesen Testwerten geführt haben.

  • Die Stützung der Interpretationen von Testergebnissen erfolgt analog dem hypothetisch-deduktiven Erkenntnisgewinnungsweg und ist in diesem Sinne nie abgeschlossen (vgl. die Abschnitte „Konzeption von Testvalidierungen als Argumentation“ und „Retrospektive Funktion des Ordnungssystems“).

Unter dieser Prämisse kann das vorgelegte Ordnungssystem als inhaltlich geordnete Darstellung verschiedener Schlüsse und Evidenzen für Validitätsargumentationen genutzt werden. Dabei gilt zu bedenken:

  • Die Auswahl an Evidenzen im Ordnungssystem, wie oben dargelegt, ist prinzipiell nicht vollständig und abgeschlossen.

  • Gewisse Evidenzen, wie beispielsweise die Fairness, können in verschiedenen Arbeitsschritten der Testentwicklung eine Rolle spielen, d. h. unter anderem, dass Validierung nicht einfach nur post hoc anhand von z. B. DIF-Analysen, sondern mit ihr zusammen erfolgt. Die Argumentationskette ist nicht als zeitlicher Ablauf zu verstehen.

  • Die Wahl der Argumentationsketten (Validitätsargumentationen) und die dazu verwendeten Evidenzen hängen, wie Cronbach und Meehl (1955) betonten, von der entsprechenden Intention der Testentwicklerinnen und Testentwickler und

  • deren Einschätzung, was für die Erreichung einer möglichst hohen Plausibilität, Konsistenz und Vollständigkeit der Validitätsargumentation nötig ist, ab.

Kurz: Das vorgestellte Ordnungssystem darf, wie auch jedes andere Ordnungssystem für Validitätsargumentationen, kein starres Korsett für die Planung von Validierungsstudien darstellen. Es könnte jedoch als Orientierungshilfe gewisse Dienste leisten.

Review der Validierungspraxis

Berücksichtigte Studien

Ausgangspunkt zur Erstellung des Reviews war eine breit angelegte Literaturrecherche mit dem Ziel, die einschlägigen nationalen und internationalen Publikationen von und über hands-on Experimentiertests zu finden, die den folgenden Kriterien genügen:

  • Der hands-on Experimentiertest ist in der Didaktik einer Naturwissenschaft angesiedelt.

  • Mit einem hands-on Experimentiertest ist explizit eine enaktive Durchführung mit Experimentiermaterial verbunden.

  • Der hands-on Experimentiertest liefert eine Bewertung der Performanz anhand von nummerischen Kennwerten auf Ebene der Item- und/oder Testwerte (s. Ordnungssystem in Abb. 34 und 5).

  • In der Publikation der Forschungsarbeit werden Gütekriterien des hands-on Experimentiertests thematisiert, beziehungsweise die Publikation beinhaltet Ausführungen hinsichtlich der Validität.

  • Die Forschungsarbeiten sind nach 1990 publiziert.

Eine Literaturreche anhand von Schlagwörtern mit verschiedenen Begriffen, wie z. B. Validität, hands-on Experimentiertest, erschien nicht praktikabel und zielführend. Deshalb lief die Literaturrecherche in folgenden Schritten ab:

  1. 1.

    Für die Literaturrecherche werden zunächst Autoren und Autorinnen von hands-on Experimentiertests gesammelt, die den Autoren des vorliegenden Artikels bekannt sind.

  2. 2.

    In den Forschungsarbeiten der in (1) identifizierten Autoren wird der Literaturbezug zu weiteren Autoren überprüft, die hands-on Experimentiertests entwickelt haben.

  3. 3.

    Bei allen identifizierten Autoren und Autorinnen werden die Publikationslisten durchgesehen hinsichtlich weiterer publizierter hands-on Experimentiertests. Diese Publikationen werden ebenfalls analysiert nach den beschriebenen Schritten (1) und (2).

Nach dem dargestellten Schema wurden insgesamt 23 hands-on Experimentiertests berücksichtigt (s. Tab. 1), die im Rahmen einschlägiger, nationaler und internationaler Forschungsarbeiten publiziert sind. Die für das Review genutzten Publikationen sind im Literaturverzeichnis mit * markiert. Dabei besteht kein Anspruch auf Vollständigkeit. Trotzdem ist davon auszugehen, dass ein realistischer Eindruck zur Validierungspraxis bei hands-on Experimentiertests gewonnen werden kann.

Tab. 1 Überblick über die im Review berücksichtige Experimentiertests mit Literaturangabe, die im Review berücksichtigt wurde

Vorgehen beim Review

Die beiden Autoren des vorliegenden Artikels analysierten die identifizierten Forschungsarbeiten hinsichtlich ihrer Validierungspraxis anhand des Ordnungssystems (s. Abb. 34 und 5) unabhängig voneinander. Dazu wurde zu jedem hands-on Experimentiertest kodiert, inwiefern die im Ordnungssystem aufgeführten Evidenzen in den Publikationen thematisiert wurden. Zu jeder kodierten Evidenz wurde zusätzlich der Typ der Quelle kodiert. Nach der unabhängigen Doppelkodierung wurden die Kodierungen der Autoren verglichen. Bei Unterschieden wurde ein Konsens hergestellt (Konsenskodierung). Durch dieses Vorgehen wurde nicht nur sichergestellt, dass die identifizierten Evidenzen möglichst fehlerfrei beurteilt wurden, sondern auch möglichst alle Evidenzen in den umfangreichen Publikationen identifiziert wurden.

Hinsichtlich des Typs der Quelle ist ein induktiv entwickeltes Kategoriensystem zum Einsatz gekommen:

Q1 – Eigenexpertise:

Als Testentwicklerinnen und Testentwickler sind vielfältige Entscheidungen zu treffen, die nicht immer auf Evidenzen aus Literatur, Expertenbefragung oder einer eigenen empirischen Studie beruhen. Vielmehr werden Entscheidungen auch durch Testentwicklerinnen und Testentwickler gesetzt, beispielsweise auf Basis der eigenen Expertise. Aber auch im Zusammenhang mit dem Umgang mit der Verwendung von Literatur sowie der Planung, Durchführung und Auswertung von Expertenbefragungen und empirischen Studien treffen Testentwicklerinnen und Testentwickler Entscheidungen. Kodierregel: Zur Kodierung dieser Quelle genügt die Nennung oder Begründung von für die Validierung relevanten Entscheidungen ohne auf zusätzliche Quellen aus Literatur, Expertenbefragungen oder andere Datenquellen zurückgreifen. Diese Nennung ist einer Evidenz im Sinne des Ordnungssystems zuzuordnen. Zusätzlich wird diese Quelle (Q1) auch dann kodiert, wenn eine der drei folgenden Quellen (Q2, Q3, Q4) kodiert werden.

Q2 – Daten aus der Literatur:

Mit dieser Kategorie ist gemeint, dass eine für die Validierung relevante Folgerung oder Entscheidung mit einem Bezug zur Literatur gestützt oder gerechtfertigt wird. Dazu gehören z. B. auch Reviews oder Meta-Analysen auf Basis von Literatur. Kodierregel: Zur Kodierung dieser Quelle genügt das Nennen von Literatur mit anderer Autorenschaft in den analysierten Publikationen des hands-on Experimentiertests zur jeweiligen Evidenz im Sinne des Ordnungssystems.

Q3 – Daten von Expertinnen und Experten:

Mit Expertenbefragungen wird bezweckt, von Expertinnen und Experten Empfehlungen und Beurteilungen zur Testentwicklung, Testinterpretation und Testnutzung zu erhalten. Kodierregel: Zur Kodierung dieser Quelle genügt das Nennen einer für die Validierung relevanten, durchgeführten Expertenbefragung in den analysierten Publikationen des hands-on Experimentiertests zur jeweiligen Evidenz im Sinne des Ordnungssystems.

Q4 – Daten von Probandinnen und Probanden:

Zur Stützung einer Folgerung werden von Testentwicklerinnen und Testentwicklern Daten von Probandinnen und Probanden der Zielgruppe erhoben. Bei der darauffolgenden Datenanalyse kommen vielfältige qualitative und/oder quantitative Methoden zum Einsatz. Kodierregel: Zur Kodierung dieser Quelle genügt das Nennen einer für die Validierung relevanten Datenerhebung, z.B. einem Pilottest, mit Probandinnen und Probanden der Zielgruppe in den analysierten Publikationen des hands-on Experimentiertests zur jeweiligen Evidenz im Sinne des Ordnungssystems.

Ergebnisse des Reviews

Im Folgenden werden die Ergebnisse tabellarisch dargestellt. Tab. 2 zeigt zu jeder Evidenzkategorie des Ordnungssystems die Anzahl der identifizierten Quellen: (Q1) Eigenexpertise der Testentwicklerinnen und Testentwickler, (Q2) Daten aus der Literatur, (Q3) Daten von Expertinnen und Experten und (Q4) Daten von Probandinnen und Probanden. In den kodierten Publikationen wurden im Mittel elf (Median) verschiedene Evidenzen gemäß Ordnungssystem (Abb. 34 und 5) angesprochen. Dabei wurden mindestens fünf und maximal 17 von 30 möglichen Evidenzen aufgeführt.

Tab. 2 Ergebnisse des Reviews: Anteil der vier Quellen pro Evidenzkategorie im Ordnungssystem in Prozent: (Q1) Eigenexpertise der Testentwicklerinnen und Testentwickler, (Q2) Daten aus der Literatur, (Q3) Daten von Expertinnen und Experten und (Q4) Daten von Probandinnen und Probanden

Diskussion der Ergebnisse des Reviews

Anhand der Ergebnisse werden zunächst die Schwerpunkte der Validierungspraxis festgestellt, um daraus neue Impulse für die Validierungspraxis zum Thema abzuleiten. Anschließend werden Limitationen des Reviews diskutiert.

Typische, publizierte Validierungspraxis

Beantwortung der Forschungsfrage F2 „Wie ist die Validierungspraxis bei hands-on Experimentiertests?“: Zur Beantwortung wird im Folgenden zwischen der Anwendung der Evidenzen sowie der Ausgestaltung eines allgemeinen Validierungsargumentes auf der Basis dieser Evidenz unterschieden.

Anwendung von Evidenzen

Die publizierte Validierungspraxis ist unterschiedlich umfangreich. Es werden zwischen fünf und 17 von 30 möglichen Evidenzkategorien pro Studie berücksichtigt (vgl. Tab. 2). Abb. 6 gibt einen Überblick über die Evidenzen, die bei mindestens der Hälfte der Publikationen genannt werden, und die dazugehörige Quelle, die am häufigsten angesprochen wird. Das Schema repräsentiert in diesem Sinne eine typische Publikationspraxis von Validierungsstudien.

Abb. 6
figure 6

Typische Validierungspraxis anhand der Kodierung der Datenquellen pro Evidenzkategorie in mindestens 50 % aller kodierten Studien mit der jeweils häufigsten Datenquelle

Für jede Evidenzkategorie gibt es typische Datenquellen, die vorwiegend genutzt werden. Sogar wenn verschiedene Datenquellen möglich wären, wird in der Regel neben der eigenen Expertise (Q1) nur eine weitere Datenquelle (Q2, Q3 oder Q4) herangezogen. Weitere Datenquellen zur Stützung sind eher bei der Itementwicklung zu beobachten, was auch naheliegender ist, als z. B. bei der psychometrischen Modellierung, bei der von der Sache her im Wesentlichen statistische Methoden auf der Basis von Daten der Probandinnen und Probanden zum Einsatz kommen.

Die typische Validierungspraxis anhand der Evidenzkategorien ist aus Sicht der Autoren wenig überraschend. Eine Ausnahme stellt die Evidenzkategorie E8‑3 dar. Hier werden in der Regel Zusammenhänge oder Unterschiede zwischen experimentellen Fähigkeiten und anderen externen Variablen untersucht. Dies erfolgt eher als explorative Suche nach möglichen Zusammenhängen und weniger unter der Perspektive einer konfirmativen Validierung von a priori angenommenen nomologischen Zusammenhängen. Kurz: Es ist nicht immer klar, ob die Ergebnisse solcher Analysen verstanden werden als Aussage zur Validierung des Tests oder als Aussage über die Kompetenz der untersuchten Probandinnen und Probanden. Im zweiten Fall allenfalls mit der Intention, die Ergebnisse auf Kohorten zu extrapolieren, zu denen die Probandinnen und Probanden als repräsentativ erachtet werden.

Ausgestaltung eines allgemeinen Validierungsarguments

In der Regel zeichnet sich die Validierungspraxis durch ein Abarbeiten von klassischen Testgütekriterien wie der Reliabilität, Objektivität und anderen ausgewählten Aspekten der Validität aus (s. Abb. 6). Diese Kriterien orientieren sich typischerweise am Validitätsverständnis entweder von Cronbach und Meehl (1955) oder von Messick (1995). Dagegen findet man eine zusammenhängende, die einzelnen Evidenzen verknüpfende Validitätsargumentation gemäß Kane (2006, 2013) nicht bei hands-on Experimentiertests. Allerdings finden sich im Kontext des Experimentierens Ansätze einer zusammenhängenden Validitätsargumentation bei Kalthoff (2019; schriftlicher Methodentest) und Dickmann (2016; virtueller Experimentiertest).

Impulse für nächste Schritte

Beantwortung von Forschungsfrage F3: „Wie steht die publizierte Validierungspraxis zu den normativen Anforderungen, die sich aus der allgemeinen Literatur zur Validierung von Test ergeben?“

Anhand der Validierungspraxis bei der Modellierung wird zunächst deutlich, dass fundierte Progressionsmodelle fehlen. Außerdem sollte die Modellierung nomologischer Netze stärker berücksichtigt werden, insbesondere im Hinblick auf Vollständigkeit, wenn man z. B. potenzielle Einflussfaktoren systematisch untersuchen möchte.

Für die Validierung der Itementwicklung bietet eine noch stärkere Einbindung der Expertise von Expertinnen und Experten und der Literatur als Datenquellen ein noch zu wenig ausgenutztes Potenzial.

Auf Ebene der gezeigten Performanz zeigen sich Lücken. Der Analyse der beobachtbaren Handlungen und den Denkprozessen wird bisher vergleichsweise weniger Aufmerksamkeit gewidmet. Bei der gezeigten Performanz (Evidenzkategorie E3-2) kann davon ausgegangen werden, dass die Probandinnen und Probanden experimentiert haben, was gut beobachtbar ist. Diese Beobachtung wurde möglicherweise nicht systematisch untersucht und/oder als nicht berichtenswert erachtet und deshalb auch in weniger als 50 % der analysierten Studien publiziert (s. Abschnitt zu Limitationen). Dagegen dürfte die Analyse kognitiver Prozesse, z. B. die Analyse konstruktrelevanter Überlegungen, selten untersucht worden sein.

Hinsichtlich der Bewertungen sind fundierte Begründungen von Beurteilungskategorien wünschenswert, wozu genauere Ausführungen, z. B. zur Entwicklung des Kodiermanuals gehören. Damit verbunden ist eine stärkere Transparenz bei Beurteilungskategorien, was durch die verpflichtende Veröffentlichung von Kodiermanualen erreicht werden könnte.

Die Aggregierung von Indikatorenwerten beruht bisher vor allem auf der Eigenexpertise der Testentwicklerinnen und Testentwickler. Dabei wäre es zu berücksichtigen, ob z. B. die einzelnen Indikatoren normativ und/oder empirisch gleich gewichtet werden dürfen. Oder wenn nicht, wie die Gewichtung genau begründet werden könnte.

Auf Ebene Exploration könnten als ein erster Ansatzpunkt die vorliegenden und aktuellen hands-on Experimentiertests anhand einer Stichprobe verglichen werden, um zu analysieren, inwiefern sie das gleiche Konstrukt erfassen oder welche unterschiedlichen Facetten experimenteller Fähigkeiten gemessen werden. Darüber hinaus ließen sich Evidenzen zur Extrapolation auch auf Item- und Bearbeitungsebene generieren, wenn man die Ebene von Performanztests verlässt und die Testung auf die Ebene des Handelns im Unterricht verschieben würde (Überlegungen dazu z. B. in Blömeke 2013; Kulgemeyer et al. 2018; Miller 1990).

Kompetenzmodellierungen im Sinne interpretierter Fähigkeiten werden kaum hinsichtlich Struktur und Progression untersucht. Hier sind weitere Evidenzen wünschenswert.

Ein Grund, warum es keine Untersuchungen zu Implikationen gibt, könnte auch mit einer geringen Passung zwischen fachdidaktischer Forschungsarbeit zu hands-on Experimentiertests und den Bedürfnissen in der Schulpraxis und auf der Ebene der Kultusministerien zusammenhängen. Leuders (2014) äußert eine ähnliche Vermutung bereits im Kontext mathematischer Kompetenzen. Folglich wäre eine starke Zusammenarbeit zwischen Lehrkräften in Schulen, Fachdidaktikerinnen und Fachdidaktikern sowie weiteren Interessenvertretern notwendig, damit hands-on Experimentiertests als zeugnisrelevante Beurteilungsmethode einen Weg in die Praxis von Schule finden.

Grundsätzlich gehen mit Implikationen hohe Anforderungen an Tests einher. Man kann sogar sagen, je weitreichender die Implikation, desto höhere Anforderungen müssen für die eingesetzten Tests gelten (s. z. B. Cronbach 1988). Hohe Anforderungen bedeuten also eine möglichst durch breite und qualitativ hochstehende Evidenz fundierte Validitätsargumentation zur Testwertinterpretation. Eine solche Validitätsargumentation wäre mit erheblichem Entwicklungs- und Forschungsaufwand verbunden, der vermutlich nicht durch eine Arbeitsgruppe allein geleistet werden kann. Allerdings besteht die Möglichkeit zu produktiver Zusammenarbeit mehrerer Arbeitsgruppen, die Expertise in der Entwicklung von hands-on Experimentiertests haben. Wenn Testentwicklerinnen und Testentwickler anhand eines Ordnungssystems transparent berichten und dadurch Stärken und Schwächen einer Validitätsargumentation deutlich werden, dann sollten ergänzende und herausfordernde Validierungen potenziell auch von mehreren Arbeitsgruppen parallel möglich sein.

Limitationen der Beantwortung der Forschungsfragen

Die folgenden Limitationen führen sowohl zu Unter- als auch zu Überinterpretationen der dargestellten typischen Validierungspraxis.

Überinterpretation – keine Qualität der Stützung kodiert:

Kodiert wurde nur, ob Testentwicklerinnen und Testentwickler ihre Überlegungen, Schlussfolgerungen und Entscheidungen mit Daten aus Literatur, Expertenbefragungen oder Erhebungen mit Probandinnen und Probanden zusätzlich stützen. Die Qualität der Datenquellen und der darauf basierenden Argumentation wurde nicht beurteilt. Es besteht also die Möglichkeit, dass in den Ergebnissen Validierungsargumentation aufgrund der Publikationsverhaltens mitgezählt sind, die inhaltlich oder methodisch nicht haltbar sind.

Unterinterpretation – Keine Argumentationskette kodiert:

Dem Ordnungssystem liegt eine Argumentationskette zugrunde, in der mehrere Evidenzkategorien zur Stützung der jeweiligen Schlussregel herangezogen werden. Inwiefern die zu einem Test kodierten Evidenzen eine Argumentationskette stützen würden, wird in der Regel in Publikationen nicht explizit dargestellt und wurde daher auch nicht kodiert. Das heißt: Eine wesentliche Qualität von Validierungen konnte in diesem Review grundsätzlich nicht erfasst werden.

Unterinterpretation – Kodierungen auf Basis von Publikationen:

Publizierte Artikel zeigen in der Regel das, was Testentwicklerinnen und Testentwickler, ggf. unter Aushandlung mit Gutachterinnen und Gutachtern, zum Thema als publikationswürdig und relevant erachten. Insofern können in Publikationen nicht alle Überlegungen der Testentwicklerinnen und Testentwickler berichtet werden. Zum Beispiel werden die Evidenzkategorien E2‑4 (Items sind im typischen Format der Zieldomäne entwickelt) und E3‑2 (Gezeigte Performanz ist typisch für Performanz in Zieldomäne) in Publikationen vergleichsweise schwach angesprochen. Dabei fällt auf, dass die Probandinnen und Probanden in den hands-on Experimentiertests praktisch experimentierten und Beobachtungen oder Messungen dokumentierten. Insofern handelt es sich wahrscheinlich um ein typisches Format mit typischen Handlungen in der Zieldomäne „Experimentieren in der Schule“. Es wird jedoch nicht explizit berichtet, weil es für die Autorinnen und Autoren vermutlich naheliegend ist. Folglich unterschätzen die dargestellten Ergebnisse mindestens den Umfang der eingebrachten Eigenexpertise der Testentwicklerinnen und Testentwickler. Inwiefern die Unterschätzung über die Evidenzkategorien gleichverteilt ist, kann nicht abgeschätzt werden.

Desiderata

Das Review zeigt, dass zumindest die Publikationspraxis zu hands-on Experimentiertests in der fachdidaktischen Forschung ausgebaut werden sollte. Es ist plausibel anzunehmen, dass Gleiches auch für die aktuell geführte Validierungspraxis gilt. Fragen der Validität sollten also grundsätzlich vermehrt in Publikationen thematisiert und diskutiert werden. Dies gilt vermutlich nicht nur für hands-on Experimentiertests, sondern auch für andere fachdidaktische Tests. Es gilt daher zu überprüfen, inwiefern das vorgestellte Ordnungssystem mit den nötigen Anpassungen auch auf andere fachdidaktische Tests übertragen werden kann. Es stellt sich hierbei die Frage, inwieweit bestimmte Evidenzen test- und inhaltsspezifisch dem Ordnungssystem aus Abb. 34 und 5 ergänzt oder ersetzt werden müssten.