Die Validierungspraxis bei hands-on Experimentiertests in der naturwissenschaftsdidaktischen Forschung

Schreiber, Nico; Gut, Christoph

doi:10.1007/s40573-022-00145-6

Die Validierungspraxis bei hands-on Experimentiertests in der naturwissenschaftsdidaktischen Forschung

Ein Review auf Basis eines allgemeinen Ordnungssystems für Validierungsstudien

The Validation Practice of Performance Assessments Using Practical Tasks in Science Education Research

A Review Based On a General Classification System for Validation Studies

Review
Open access
Published: 30 September 2022

Volume 28, article number 8, (2022)
Cite this article

Download PDF

You have full access to this open access article

Zeitschrift für Didaktik der Naturwissenschaften Aims and scope Submit manuscript

Die Validierungspraxis bei hands-on Experimentiertests in der naturwissenschaftsdidaktischen Forschung

Download PDF

2014 Accesses
2 Altmetric
Explore all metrics

Zusammenfassung

Seit Jahrzehnten werden in der naturwissenschaftsdidaktischen Forschung zur Diagnostik experimenteller Fähigkeiten sogenannte Performance Assessments bzw. hands-on Experimentiertests mit praktisch zu bearbeitenden Aufgaben eingesetzt. Dabei erhält die Frage der Validität von Experimentiertests immer mehr Gewicht. Mit einem systematischen Review soll daher die Validierungspraxis von hands-on Experimentiertests analysiert werden. Dazu wird in einem ersten theoretischen Teil literaturbasiert ein Ordnungssystem für Validierungsargumentationen im Rahmen von Validierungsstudien entwickelt. In einem zweiten Teil werden die seit 1990 publizierten hands-on Experimentiertests identifiziert, von zwei unabhängigen Ratern auf Konsens kodiert, in das Ordnungssystem eingeordnet und schließlich diskutiert. Die Ergebnisse zeigen retrospektiv eine typische, auf wenige Elemente eingeschränkte Validierungspraxis. Prospektiv liefert das Review evidenzbasierte Argumente und Impulse für künftige Testentwicklungen und -validierungen.

Abstract

For decades, performance assessments using practical tasks have been used in science education research to assess experimental skills. The question of the validity of such tests is becoming increasingly important. Therefore, a systematic review will analyze the validation practice of hands-on tests. To this end, a literature-based classification system is first developed, and its retrospective and prospective functions are explained. Then, hands-on tests published since 1990 are identified, coded for consensus by two independent raters, classified into the ordering system, and finally discussed. The results show a limited, typical validation practice for hands-on tests. Based on these results, desiderata for future test validation are derived and discussed.

Einleitung

Die Messung von Schülerleistungen beim praktischen Arbeiten im naturwissenschaftlichen Unterricht erfordert Assessments, die Schülerinnen und Schüler mit experimentell lösbaren Problemstellungen konfrontieren und deren Bewältigung authentische hands-on Aktivitäten erfordern. Solche sogenannten Performance Assessments – wir werden in diesem Beitrag im Weiteren von hands-on Experimentiertests sprechen – wurden seit den 1970er-Jahren vor allem im angloamerikanischen Raum sowohl für den Einsatz im Large-scale als auch in Laborstudien zur Messung von Schülerleistungen entwickelt und erprobt (z. B. Erickson et al. 1992 (BCA); Harmon et al. 1997 (TIMSS); Millar et al. 1996 (PACKS); Shavelson et al. 1991; Stecher und Klein 1996 (RAND)). Im deutschsprachigen Raum gelangten hands-on Experimentiertests erst mit der Einführung von Bildungsstandards zu Beginn dieses Jahrhunderts als potenzielles Instrument zur Messung experimenteller und praktischer Fähigkeiten in den Fokus von Fachdidaktikerinnen und Fachdidaktikern sowie Testentwicklerinnen und Testentwicklern (z. B. Gut 2012; Gut et al. 2014; Heidrich 2017; Schmidt 2016; Schreiber 2012). Insbesondere in neueren Studien wird vermehrt der Frage der Validität nachgegangen, weil sich gezeigt hat, dass bei hands-on Experimentiertests die valide Interpretation der Testwerte herausfordernd ist. Die Auseinandersetzung mit Validitätsfragen bei hands-on Experimentiertests erhält somit im fachdidaktischen Forschungsdiskurs grundsätzlich immer mehr Gewicht. Deshalb soll mit einem systematischen Review eine ordnende Sicht auf die Validierungspraxis von hands-on Experimentiertests eingenommen werden. Eine solche Betrachtung ist notwendig, um neue Impulse für die Validierungspraxis bei hands-on Experimentiertests zu gewinnen.

Zielsetzung, Fragestellungen und Aufbau des Reviews

In dieser Arbeit geht es konkret um die folgenden Forschungsfragen:

F1

Entwicklung eines Ordnungssystem für Validierungsstudien: Anhand welcher Regeln und Evidenzen aus der allgemeinen Literatur zur Validierung von Tests kann eine potenzielle Validierungspraxis bei hands-on Experimentiertests systematisch beschrieben werden?

F2

Empirische Erfassung der Validierungspraxis: Wie ist die typische, publizierte Validierungspraxis bei hands-on Experimentiertests?

F3

Bewertung der Validierungspraxis: Wie steht die publizierte Validierungspraxis zu den normativen Anforderungen, die sich aus der allgemeinen Literatur zur Validierung von Tests ergeben?

Zur Beantwortung der Fragestellungen wird im Kapitel zur theoriebasierten Phänomenologie von Validierungen auf Basis eines narrativen Literaturreviews ein theoretisches Ordnungssystem für Validierungen von hands-on Experimentiertests entwickelt und gerechtfertigt (Forschungsfrage F1). Im folgenden Kapitel wird anhand des Ordnungssystems ein Review von Publikationen zu Validierungsstudien aus dem Zeitraum von 1990 bis heute vorgestellt und die analysierte, publizierte Validierungspraxis systematisch beschrieben (Forschungsfrage F2). Daraus werden Impulse für nächste Schritte und schließlich Desiderata für die künftige Validierungspraxis abgeleitet (Forschungsfrage F3).

Herausforderung bei der Systematisierung von Validierungsstudien

Um das Ziel des Reviews zu erreichen, werden Studien zu hands-on Experimentiertests hinsichtlich der publizierten Validierungspraxis der Tests analysiert und geordnet. Das Ordnungssystem ist dabei mit der Herausforderung verbunden, dass sich im untersuchten Zeitraum von 1990 bis heute das Verständnis, was unter dem Begriff der Validität eines Tests zu verstehen ist, verändert hat. Die Veränderung im Verständnis kann gemäß Newton und Shaw (2014) in drei Phasen eingeteilt werden, die vereinfacht mit den Namen Cronbach und Meehl (1955), Messick (1993) und Kane (2006) verknüpft werden können. In allen Phasen ist allerdings ein zentrales Anliegen im Validitätsdiskurs zu erkennen:

[…] different phases can be characterized by different kinds of answer to a central question: how much of what kind of logical analysis and empirical evidence is required in order to substantiate a claim to validity? (Newton und Shaw 2014, S. 16)

Zur Beantwortung dieser Frage ist folglich eine Argumentation zur Validität – im Weiteren als Validitätsargumentation bezeichnet – zu führen, die durch Logik und Evidenzen zu stützen ist. Die Idee der Notwendigkeit einer Validitätsargumentation ist der gemeinsame Kern aller Verständnisse von Validität über die verschiedenen Phasen hinweg und bildet somit für einen Vergleich von Studien hinsichtlich der Validität eine tragfähige Basis für ein zu entwickelndes Ordnungssystem.

Theoriebasierte Phänomenologie von Validierungen – Ein Ordnungssystem für die Systematisierung von Validierungen

Beantwortung von Forschungsfrage F1: „Anhand welcher Regeln und Evidenzen aus der allgemeinen Literatur zur Validierung von Tests kann eine potenzielle Validierungspraxis bei hands-on Experimentiertests systematisch beschrieben werden?“ Zur Beantwortung wird zunächst die Konzeption von Testvalidierungen als Argumentation erläutert, auf deren Basis ein Ordnungssystem für Validierungsstudien anhand eines Literaturreviews hergeleitet wird. Daran schließt eine Rechtfertigung des entwickelten Ordnungssystems an.

Konzeption von Testvalidierungen als Argumentation

Beim Testen von Personen werden Testwerte generiert, die als Maß für Ausprägungen zumeist komplexer personaler Merkmale wie Wissen, Kompetenzen, Einstellungen, Interessen, Motivationen u. a. interpretiert und bildungspolitisch genutzt werden. Die Interpretation und Nutzung von Testwerten basieren dabei auf einer Reihe von interpretierenden und verallgemeinernden Schlussfolgerungen hinsichtlich der Entwicklung, dem Einsatz und der Auswertung eines Tests. Diese Schlussfolgerungen beruhen selbst meist auf impliziten, seltener auf in der Literatur explizit gemachten Annahmen (Kane 2006). In einem kritischen Forschungsdiskurs werden solche Annahmen und Schlussfolgerungen hinterfragt. Um einer solchen Kritik zu begegnen, wird von den Testanwenderinnen und Testanwendern nun erwartet, dass sie die impliziten Annahmen und Schlussfolgerungen explizit machen und mit Bezug auf Evidenz für eine bestimmte Testwert-Interpretation und gegen einen vorgebrachten Einwand argumentieren. Die Generierung entsprechender Evidenz und der Ausführung einer rechtfertigenden Validitätsargumentation gegen bestimmte Einwände wird als „Validierung eines Tests“ bezeichnet^{Footnote 1}. Verschiedene Validierungen einer bestimmten Testwert-Interpretation und -Nutzung werden dabei gerne in umfangreicheren Validierungsstudien zusammengefasst.

Unabhängig vom jeweiligen zugrundeliegenden Verständnis von Validität geht man im Weiteren von der dargelegten Interpretation der Testvalidierung als rechtfertigendem, auf logischer Analyse und Evidenz aufbauenden Argumentationsprozess aus, wobei der Prozess der Validierung einer Testwertinterpretation prinzipiell nie als abgeschlossen betrachtet werden kann (Cronbach 1988). Die zur Validierung einer Interpretation zusammengetragene Evidenz und die logischen Analysen können selbst immer wieder infrage gestellt werden. Die Validierung einer Testwertinterpretation ist epistemologisch vergleichbar mit der Verifizierung einer Theorie. Eine Testwert-Interpretation kann zwar immer besser mit Evidenz plausibel gemacht und gerechtfertigt werden, jedoch nie als die einzig richtige, gültige Interpretation bewiesen werden (Cronbach 1988, S. 5; Messick 1995, S. 741).

Grundlegende Überlegungen zum Aufbau des Ordnungssystems

Um Validierungen im Hinblick auf das geplante Review ordnen und vergleichen zu können, wird, wie oben dargestellt, ein Ordnungssystem für Validitätsargumentationen benötigt. Ein solches Ordnungssystem muss sämtliche in der Literatur beschriebenen Evidenzen und Schlüsse, die in Validitätsargumentationen vorkommen, abbilden und strukturieren. Dazu wird zunächst ein Modell für einfache Schlussfolgerungen in Argumentationen und eine Struktur für Verknüpfungen von Schlussfolgerungen in umfassenden Validitätsargumentationen benötigt.

Ein Argumentationsmodell als Grundelement der Argumentation im Ordnungssystem:

Ein Modell für einfache Schlussfolgerungen bietet das Argumentationsmodell von Toulmin (1996, S. 86 ff.) (s. Abb. 1). Das Modell wird in vielfältigen Kontexten verwendet (Kane 2006, S. 27), insbesondere auch für die Charakterisierung von Validitätsargumentationen (siehe u. a. Kane 2013; Messick 1989; Mislevy 2007).

Im Argumentationsmodell wird eine Argumentation von einem gegebenen Sachverhalt (Datum) zu einer Behauptung (Konklusion) als eine Schlussfolgerung beschrieben. Der Schluss basiert auf einer spezifischen Schlussregel und wird durch diese gestützt. Allerdings sind Schlussregeln nicht selbstevident. Ihre Gültigkeit gilt es vielmehr im Kontext der jeweiligen Argumentation zu begründen. Diese Begründungen basieren häufig auf Evidenzen (Stützung). Ohne gültige Evidenzen ist eine Schlussfolgerung nicht zulässig. Hierbei gilt zu beachten, dass stärkere Behauptungen auch stärkere Evidenzen benötigen als schwächere Behauptungen (Kane 2013, S. 12). Entscheidend für die benötigte Stützung der Schlussregel ist daher die Ausprägung der Behauptung, die für eine vollständige Argumentation qualifiziert sein muss. Die Qualität der Behauptung wird im Argumentationsmodell von Toulmin durch einen Operator ausgedrückt. Typische Operatoren sind Adjektive wie z. B. „wahrscheinlich“ oder „vermutlich“. Möglich sind allerdings auch quantitative Operatoren (Kane 2013, S. 12).

Validitätsargumentation als Kette einzelner Schlussfolgerungen:

Das Ergebnis einer Validierung ist meist das Resultat mehrerer aufeinander aufbauender Schlussfolgerungen. Dabei wird die Behauptung der vorangehenden Schlussfolgerung zum Datum der darauffolgenden Schlussfolgerung (s. Abb. 2).

Aufbau des Ordnungssystems durch Aneinanderreihung von Schlussfolgerungen:

Aus den genannten Gründen wird als Grundstruktur des Ordnungssystems eine Argumentationskette gewählt. Die Anzahl und inhaltliche Ausprägung der involvierten Schlussfolgerungen sollen im folgenden Abschnitt diskutiert werden.

Beschreibung und theoretische Fundierung eines allgemeinen Ordnungssystems für Validitätsargumentationen

Für die Herleitung eines allgemeinen Ordnungssystems orientieren wir uns zunächst an der Perspektive einer Testentwicklerin und eines Testentwicklers. Sie können für eine Validitätsargumentation die folgende Argumentationskette aufbauen (s. Abb. 3, 4 und 5), die in Anhang 1 ausführlicher hergeleitet wird:

Beginnend mit der Festlegung des geplanten Zwecks und der geplanten Interpretationen zum zu entwickelnden Test wird gleichzeitig die Zieldomäne eingegrenzt („Intention“). Daran schließt die Modellierung des zu erhebenden Konstrukts an. Auf der Basis des dadurch bestimmten Modells (Konklusion „Modell“) wird ein Test entwickelt (Konklusion „Test“). Dazu gehört die Entwicklung von Items mit Überlegungen zum Testdesign. Die Bearbeitung jedes Items in einem Test erzeugt Performanzen (Konklusion „Performanz“) die in einem nächsten Schritt anhand von Indikatoren zu beurteilen sind (Konklusion „Indikatorenwerte“). Anhand der Indikatorenwerte wird für jedes Item ein Itemwert generiert (Konklusion „Itemwert“). Aus den Itemwerten werden schließlich (klassisch oder probabilistisch) Testwerte skaliert (Konklusion „Testwert“). Die skalierten Testwerte werden dann über alle Anforderungssituationen der Testitems zu latenten Fähigkeiten verallgemeinert (Konklusion „latente Fähigkeit“) und je nach Intention (geplante Interpretation und Nutzung der Testwerte) als transferfähige Kompetenzen interpretiert (Konklusion „Interpretierte Fähigkeit“). Schließlich sind Implikationen zu untersuchen hinsichtlich einer Testnutzung (Konklusion „Testnutzung“).

Es wird deutlich, dass Testentwicklerinnen und Testentwickler bei einer solchen Argumentationskette eine Reihe von Konklusionen durchlaufen. Für jede Konklusion sind Schlussregeln zu formulieren, die durch Evidenzen zu stützen sind. Die theoretische Fundierung der Schlussregeln und der damit verbundenen Evidenzen basiert für unserer Ordnungssystem auf Literatur, die im Zusammenhang mit verschiedenen Validitätsverständnissen zitiert wird (s. Phasen bei der Entwicklung des Validitätsbegriffs in Newton und Shaw 2014). Das entwickelte Ordnungssystem ist in den Abb. 3, 4 und 5 dargestellt, die Details zur Entwicklung des Ordnungssystems mit der berücksichtigten Literatur sind in Anhang 1 nachzulesen.

Bedeutung und Rechtfertigung des Ordnungssystems

Mit dem allgemeinen Ordnungssystem (Abb. 3, 4 und 5) wird weder der Anspruch einer wissenschaftstheoretischen Explikation des Validitätsbegriffs noch eines abschließenden, theoretisch begründeten Modells für die Validierung von hands-on Experimentiertests bzw. allgemeiner Performance Assessments erhoben. Das Ordnungssystem soll in erster Linie als pragmatisches Instrument verstanden werden, mit welchem die vielfältige Validierungspraxis über die historische Entwicklung des Validitätsverständnisses hinweg im Sinne einer Phänomenologie beschrieben und strukturiert erfasst werden kann. In zweiter Linie kann das Ordnungssystem ein Leitgerüst für die Planung von Validierungsstudien darstellen. Die Rechtfertigung des Ordnungssystems erfolgt deshalb nicht aufgrund einer theoretischen Herleitung, sondern auf der Darlegung dessen Brauchbarkeit in Bezug auf beide Funktionen. In einem ersten Schritt soll daher die retrospektive Funktion des Ordnungssystems und die Passung des Ordnungssystems zu den in der Literatur häufig referierten Ordnungssystemen von Cronbach (1988), Messick (1989, 1994, 1995) und Kane (2006) aufgezeigt werden. Dabei sollen die Grenzen der Brauchbarkeit des entwickelten Ordnungssystems thematisiert werden. Als zusätzlicher Ertrag des Reviews wird in einem zweiten Schritt der prospektive Nutzen des Ordnungssystems für die Planung von Validierungsstudien diskutiert.

Retrospektive Funktion des Ordnungssystems

Verhältnis des Ordnungssystems zu alternativen Ordnungssystemen

Im Folgenden soll auf drei Ordnungssysteme eingegangen werden, die jedes für sich stellvertretend für eine der letzten drei Entwicklungsphasen des Validitätsbegriffs steht und von wichtigen Stimmen im Validitätsdiskurs stammen (s. Abschn. „Herausforderung bei der Systematisierung von Validierungsstudien“).

Kategorisierung von Fragen, die zu Validitätsargumentationen führen.

Cronbach (1988, S. 5) stellt ins Zentrum seines Validitätsdiskurses Fragen, die Testentwicklerinnen und Testentwickler in Bezug auf die Interpretation und Nutzung der generierten Testwerte stellen sollten und deren Beantwortung eine Validitätsargumentation erfordert: „The first talent needed in developing a persuasive argument is that of devil’s advocate. It is vital, […] to become mindful of the many questions that can and should be raised. Questions about tests originate in five perspectives.“ Dabei unterscheidet er Fragen zu fünf Perspektiven (vgl. Anhang 2): „functional“, „political“, „operationalist“, „economic“ und „explanatory“.
Kategorisierung von Evidenzen, die für Validitätsargumentationen benötigt werden.

Messick (1993, S. 6) richtet den Fokus des Validitätsdiskurses auf die „sources of validity evidence“, wobei er ein halbes Duzend Kategorien von Evidenzen in der Regel als ausreichend erachtet, um verschiedene Validierungsansätze zu unterscheiden. Im Rahmen der von ihm vorgeschlagenen Konzeption von Konstruktvalidität als vereinheitlichendes Validitätskonzept spricht Messick (1995, S. 744 f) später von mit den Evidenzkategorien korrespondierenden „aspects of construct validity“ (vgl. Anhang 2): „content“, „substantive“, „structural“, „generalizability“, „external“ und „consequential“.
Kategorisierung von Schlüssen, die in Validitätsargumentationen verwendetet werden.

Kane (2006, S. 24) analysiert die Struktur von Validitätsargumentationen und den darin enthaltenen „inferences“. Dabei identifiziert er typische, häufig oder immer vorkommende „inferences“: „scoring“, „generalization“, „extrapolation“, „theory-based interpretation“, „causal“, „implication“ und „decision“ (Kane 2006, 2013; vgl. Anhang 2).

Wie in Anhang 2 dokumentiert, können vielfältige Validitätsargumentationen aus Ordnungssystemen mit unterschiedlichsten Abgrenzungsprinzipien (relevante Fragen, relevante Evidenzen, relevante Schlüsse) und aus verschiedenen Phasen des Validitätsdiskurses im Ordnungssystem (s. Abb. 3, 4 und 5) eindeutig und sinnvoll verortet werden. Die Struktur des Systems erweist sich daher als geeignet für ein Review.

Prinzipielle Unvollständigkeit und Nichtabgeschlossenheit eines Ordnungssystems

Die im Anhang 2 tabellarisch dargestellte Übersetzung der alternativen Ordnungssysteme von Validitätsargumentationen in das in Abb. 3, 4 und 5 vorgestellte Ordnungssystem erweckt auf der Ebene der Evidenzen dem ersten Anschein nach den Eindruck, dass das Ordnungssystem gegenüber anderen Ordnungssystemen vollständiger und daher überlegener ist. Dieser Eindruck täuscht jedoch aus zwei Gründen: Einerseits subsumieren verschiedene Autoren unter dem Begriff Validität unterschiedliche Test- und Interpretationsmerkmale. Voneinander abgegrenzt werden gerne technische Gütekriterien wie Objektivität und Reliabilität sowie Kriterien der reinen Testwertinterpretation und Testwertnutzung (Kane 2006; Lissitz und Samuelsen 2007a). Je nach Intention der jeweiligen Autoren werden technische Gütekriterien entweder als Teil der Validität oder stillschweigend als Voraussetzung für Validität gehandelt. Da das Ordnungssystem nach Kane in simpler Weise Evidenzen aus unterschiedlichsten Quellen zusammenstellt, erscheint es notgedrungen als vollständiger. Andererseits weisen die drei oben genannten Autoren selbst darauf hin, dass „ihre“ jeweiligen Ordnungssysteme nicht als vollständig und abschließend aufzufassen sind.

Cronbach bemerkt, dass der Prozess der Validierung prinzipiell nie abgeschlossen sein kann. Die von verschiedenen Seiten betonte Formel lautet „[…] validation is never finished“ (Cronbach 1988, S. 5). Die Fragen, die es unter den von Cronbach genannten fünf Perspektiven zur Validität zu stellen gilt, sind daher nicht abschliessend aufzählbar.

Auf die Kategorisierung von Evidenzen übertragen stellt Messick (1989, S. 6) fest: „The basic sources of validity evidence are by no means unlimited.“ Die Evidenzen lassen sich daher nicht eindeutig in eine bestimmte Anzahl von Kategorien unterteilen: „Indeed, if we ask where one might turn for such evidence, we find that there are only a half dozen or so main forms. The number of forms is arbitrary, to be sure, because instances can be sorted in various ways and categories set up at different levels of generality“ (Messick 1989, S. 6). Die von Messick (1995, S. 744) vorgeschlagene Unterscheidung von sechs Validitätsaspekten verstanden als „means of addressing central issues implicit in the notion of validity as a unified concept“ wird letztlich vor allem pragmatisch gerechtfertigt: „[…] a half dozen or so categories […] seem to provide a workable level for highlighting similarities and differences among validation approaches“ (Messick 1989, S. 6). In Messicks Konzeption von Validität fehlt jedoch der theoretische Zusammenhang zwischen den verschiedenen Aspekten (Kategorien) von Validität.

Dieser Zusammenhang wird evident, wenn man mit Kane den Fokus auf die Art der Schlüsse richtet, die aufgrund der verschiedenen Kategorien von Evidenzen in Validitätsargumentationen vorkommen. Jedoch ergibt auch dieser Ansatz letztlich keine eindeutige und abschliessende Kategorisierung. Kane (2006, S. 24, 34, 43) erstellt zwar für verschiedene Testwertnutzungen (das sind „placement testing system“, „trait interpretation“, „indicators for theoretical constructs“) Validitätsargumentationen durch Ketten notwendiger, aufeinander aufbauender Schlüsse, relativiert deren Vollständigkeit und Gültigkeit jedoch selbst: „The interpretative argument may also involve various technical inferences and assumptions (e.g. equating, scaling) that are not discussed here“ (Kane 2006, S. 24). Und: „I suggest that some inferences […] are likely to occur in most if not all IUAs and that many others are commonly employed, but I do not want to suggest that IUAs have to follow any particular pattern“ (Kane 2013, S. 10). Zu den sechs von Kane (2013, S. 10) explizit diskutierten Arten von Schlüssen meint er: „The inferences discussed […] are intended as examples and not as a checklist“. Unter anderem blendet Kane (2006, S. 24) explizit in seiner Betrachtung Schlüsse aus, die mit dem „equating“ und „scaling“ (der Testwertgenerierung und Fähigkeitsskalierung) zusammenhängen. In diesem Sinne sind bei Übertragung seines Ordnungssystems in das hier entwickelte Ordnungssystem Lücken zu erwarten (vgl. Anhang 2).

Die Fragen der Vollständigkeit, Abgeschlossenheit und Gültigkeit von Ordnungssystemen für Validitätsargumentationen stellt sich vom Standpunkt der wissenschaftlich akzeptierten Konzeption von Validität als Konstrukt und der Konzeption von Validierung als evidenz-basierte Argumentation zur Rechtfertigung von Testwertinterpretationen und Testwertnutzungen nicht. Ordnungssysteme sind nicht korrekt oder falsch, sondern im Hinblick auf einen gegebenen Zweck mehr oder weniger praktikabel.

Repräsentation von Validitätsargumentationen im Ordnungssystem

Kane (2006) beschreibt die Struktur von Validitätsargumentationen als Kette von Schlüssen, die auf multiplen Evidenzen beruhen und in der Summe eine Rechtfertigung einer bestimmten Testwertinterpretation und Testwertnutzung ergeben soll. Solche Rechtfertigungen werden unabhängig von der in einer jeweiligen Epoche vorherrschenden Konzeption des Validitätsbegriffs in der Literatur als Schlüsse oder Ketten von Schlüssen beschrieben. Kane (2006, S. 19) zitiert beispielsweise einen Verallgemeinerungsschluss von Guion wie folgt:

It is legitimate to take the observed performance as an estimate of overall performance in the domain, if (a) the observed performances can be considered a representative sample from the domain, (b) the performances are evaluated appropriately and fairly, and (c) the sample is large enough to control sampling error. (Guion 1977)

Der von Guion beschriebene Rechtfertigungsschluss entspricht im Ordnungssystem einer Validitätsargumentation, die die Schlussregeln R3, R4 und R6 mit den entsprechenden Evidenzen E3-2 (a), E4‑1 und E4-2 (b), E6-1 (c) kombiniert. Auf der Ebene der Evidenzen wird der Rechtfertigungsschluss somit vollständig im Ordnungssystem repräsentiert. Auf der Ebene der Schlussregeln erscheint die Repräsentation des Rechtfertigungsschlusses im Ordnungssystem expliziter (Schlusskette reicht von der Stufe „Modell“ bis zur Stufe „Testnutzung“) als in der originalen Fassung von Guion. Das hat auch damit zu tun, dass, wie bereits von Messick (1989) betont wurde (vgl. Abschn. „Retrospektive Funktion des Ordnungssystems“), die Einordnung von Evidenzen in einem Ordnungssystem einer gewissen Beliebigkeit unterliegt. So könnte beispielsweise das Validitätskriterium der Fairness (vgl. Abb. 3) „E2-5: Die Items sind für die Zielgruppe fair“ auch an einer anderen Stelle im Ordnungssystem eingeordnet werden. Aus der Sicht von Testentwicklerinnen und Testentwicklern, die sich nun fragen, was der Test misst, gehört die Frage der Fairness zur Interpretation der skalierten Fähigkeitswerte, wobei zum Beispiel DIF-Analysen über verschiedene Populationsgruppen gerechnet würden. Für Testentwicklerinnen und Testentwickler, die einen ganz spezifischen Nutzen der Testwerte vor Augen haben, kann die Frage der Fairness bereits bei der Itemkonstruktion Thema sein, wobei man sich dabei beispielsweise auf bekannte Erkenntnisse aus der Literatur oder Expertenurteile stützen würde.

Der prospektive Nutzen des Ordnungssystems für die Planung von Validierungsstudien

Obwohl das entwickelte Ordnungssystem als Instrument zur Systematisierung verschiedenster Validierungsstudien benutzt werden soll, ist es bezüglich des Verständnisses von Validität und Validierung nicht neutral. Das Ordnungssystem baut auf einem bestimmten Validitätsverständnis auf. Wenn das Ordnungssystem daher prospektiv für die Planung einer Validierungsstudie genutzt werden soll, dann wird auch eine gewisse Konzeption von Validierung übernommen. Dazu gehören im Wesentlichen die folgenden Punkte:

Die Validität ist keine Eigenschaft eines Tests, sondern eine Eigenschaft der Interpretation und der Verwendung von Testergebnissen (Messick 1993, 1994, 1995). Als solche wird sie als einheitliches Konzept verstanden, das sich nicht in getrennte Teilaspekte zerlegen lässt.
Mit dem Ordnungssystem wird die Sichtweise des „argument-based approach“ (Cronbach 1988; Kane 1992) übernommen. „Measurement uses limited samples of observations to draw general and abstract conclusions about persons or other units (e.g., classes, schools). To validate an interpretation or use of measurement is to evaluate the rational, or argument, for the claims being made, and this in turn requires a clear statement of the proposed interpretations and uses and critical evaluation of these interpretations and uses“ (Kane 2006, S. 17). Die Interpretation von Testergebnissen wird dabei als Hypothese im Sinne einer „interpretative theory“ (Messick 1989, S. 6) verstanden, die mit Hilfe von Evidenz, die im Rahmen von Validierungsstudien geschaffen wird, überprüft. Die Überprüfung resultiert im besten Fall in einer Stützung für die intendierte Interpretation und Nutzung der Testergebnisse, die in Form einer Argumentation auf der Basis von Evidenzen erfolgt. Die Stützung betrifft dabei nicht nur die Interpretation und Nutzung bestehender Testwerte, sondern auch die Prozesse, die zu diesen Testwerten geführt haben.
Die Stützung der Interpretationen von Testergebnissen erfolgt analog dem hypothetisch-deduktiven Erkenntnisgewinnungsweg und ist in diesem Sinne nie abgeschlossen (vgl. die Abschnitte „Konzeption von Testvalidierungen als Argumentation“ und „Retrospektive Funktion des Ordnungssystems“).

Unter dieser Prämisse kann das vorgelegte Ordnungssystem als inhaltlich geordnete Darstellung verschiedener Schlüsse und Evidenzen für Validitätsargumentationen genutzt werden. Dabei gilt zu bedenken:

Die Auswahl an Evidenzen im Ordnungssystem, wie oben dargelegt, ist prinzipiell nicht vollständig und abgeschlossen.
Gewisse Evidenzen, wie beispielsweise die Fairness, können in verschiedenen Arbeitsschritten der Testentwicklung eine Rolle spielen, d. h. unter anderem, dass Validierung nicht einfach nur post hoc anhand von z. B. DIF-Analysen, sondern mit ihr zusammen erfolgt. Die Argumentationskette ist nicht als zeitlicher Ablauf zu verstehen.
Die Wahl der Argumentationsketten (Validitätsargumentationen) und die dazu verwendeten Evidenzen hängen, wie Cronbach und Meehl (1955) betonten, von der entsprechenden Intention der Testentwicklerinnen und Testentwickler und
deren Einschätzung, was für die Erreichung einer möglichst hohen Plausibilität, Konsistenz und Vollständigkeit der Validitätsargumentation nötig ist, ab.

Kurz: Das vorgestellte Ordnungssystem darf, wie auch jedes andere Ordnungssystem für Validitätsargumentationen, kein starres Korsett für die Planung von Validierungsstudien darstellen. Es könnte jedoch als Orientierungshilfe gewisse Dienste leisten.

Review der Validierungspraxis

Berücksichtigte Studien

Ausgangspunkt zur Erstellung des Reviews war eine breit angelegte Literaturrecherche mit dem Ziel, die einschlägigen nationalen und internationalen Publikationen von und über hands-on Experimentiertests zu finden, die den folgenden Kriterien genügen:

Der hands-on Experimentiertest ist in der Didaktik einer Naturwissenschaft angesiedelt.
Mit einem hands-on Experimentiertest ist explizit eine enaktive Durchführung mit Experimentiermaterial verbunden.
Der hands-on Experimentiertest liefert eine Bewertung der Performanz anhand von nummerischen Kennwerten auf Ebene der Item- und/oder Testwerte (s. Ordnungssystem in Abb. 3, 4 und 5).
In der Publikation der Forschungsarbeit werden Gütekriterien des hands-on Experimentiertests thematisiert, beziehungsweise die Publikation beinhaltet Ausführungen hinsichtlich der Validität.
Die Forschungsarbeiten sind nach 1990 publiziert.

Eine Literaturreche anhand von Schlagwörtern mit verschiedenen Begriffen, wie z. B. Validität, hands-on Experimentiertest, erschien nicht praktikabel und zielführend. Deshalb lief die Literaturrecherche in folgenden Schritten ab:

1.
Für die Literaturrecherche werden zunächst Autoren und Autorinnen von hands-on Experimentiertests gesammelt, die den Autoren des vorliegenden Artikels bekannt sind.
2.
In den Forschungsarbeiten der in (1) identifizierten Autoren wird der Literaturbezug zu weiteren Autoren überprüft, die hands-on Experimentiertests entwickelt haben.
3.
Bei allen identifizierten Autoren und Autorinnen werden die Publikationslisten durchgesehen hinsichtlich weiterer publizierter hands-on Experimentiertests. Diese Publikationen werden ebenfalls analysiert nach den beschriebenen Schritten (1) und (2).

Nach dem dargestellten Schema wurden insgesamt 23 hands-on Experimentiertests berücksichtigt (s. Tab. 1), die im Rahmen einschlägiger, nationaler und internationaler Forschungsarbeiten publiziert sind. Die für das Review genutzten Publikationen sind im Literaturverzeichnis mit * markiert. Dabei besteht kein Anspruch auf Vollständigkeit. Trotzdem ist davon auszugehen, dass ein realistischer Eindruck zur Validierungspraxis bei hands-on Experimentiertests gewonnen werden kann.

Tab. 1 Überblick über die im Review berücksichtige Experimentiertests mit Literaturangabe, die im Review berücksichtigt wurde

Full size table

Vorgehen beim Review

Die beiden Autoren des vorliegenden Artikels analysierten die identifizierten Forschungsarbeiten hinsichtlich ihrer Validierungspraxis anhand des Ordnungssystems (s. Abb. 3, 4 und 5) unabhängig voneinander. Dazu wurde zu jedem hands-on Experimentiertest kodiert, inwiefern die im Ordnungssystem aufgeführten Evidenzen in den Publikationen thematisiert wurden. Zu jeder kodierten Evidenz wurde zusätzlich der Typ der Quelle kodiert. Nach der unabhängigen Doppelkodierung wurden die Kodierungen der Autoren verglichen. Bei Unterschieden wurde ein Konsens hergestellt (Konsenskodierung). Durch dieses Vorgehen wurde nicht nur sichergestellt, dass die identifizierten Evidenzen möglichst fehlerfrei beurteilt wurden, sondern auch möglichst alle Evidenzen in den umfangreichen Publikationen identifiziert wurden.

Hinsichtlich des Typs der Quelle ist ein induktiv entwickeltes Kategoriensystem zum Einsatz gekommen:

Q1 – Eigenexpertise:

Als Testentwicklerinnen und Testentwickler sind vielfältige Entscheidungen zu treffen, die nicht immer auf Evidenzen aus Literatur, Expertenbefragung oder einer eigenen empirischen Studie beruhen. Vielmehr werden Entscheidungen auch durch Testentwicklerinnen und Testentwickler gesetzt, beispielsweise auf Basis der eigenen Expertise. Aber auch im Zusammenhang mit dem Umgang mit der Verwendung von Literatur sowie der Planung, Durchführung und Auswertung von Expertenbefragungen und empirischen Studien treffen Testentwicklerinnen und Testentwickler Entscheidungen. Kodierregel: Zur Kodierung dieser Quelle genügt die Nennung oder Begründung von für die Validierung relevanten Entscheidungen ohne auf zusätzliche Quellen aus Literatur, Expertenbefragungen oder andere Datenquellen zurückgreifen. Diese Nennung ist einer Evidenz im Sinne des Ordnungssystems zuzuordnen. Zusätzlich wird diese Quelle (Q1) auch dann kodiert, wenn eine der drei folgenden Quellen (Q2, Q3, Q4) kodiert werden.

Q2 – Daten aus der Literatur:

Mit dieser Kategorie ist gemeint, dass eine für die Validierung relevante Folgerung oder Entscheidung mit einem Bezug zur Literatur gestützt oder gerechtfertigt wird. Dazu gehören z. B. auch Reviews oder Meta-Analysen auf Basis von Literatur. Kodierregel: Zur Kodierung dieser Quelle genügt das Nennen von Literatur mit anderer Autorenschaft in den analysierten Publikationen des hands-on Experimentiertests zur jeweiligen Evidenz im Sinne des Ordnungssystems.

Q3 – Daten von Expertinnen und Experten:

Mit Expertenbefragungen wird bezweckt, von Expertinnen und Experten Empfehlungen und Beurteilungen zur Testentwicklung, Testinterpretation und Testnutzung zu erhalten. Kodierregel: Zur Kodierung dieser Quelle genügt das Nennen einer für die Validierung relevanten, durchgeführten Expertenbefragung in den analysierten Publikationen des hands-on Experimentiertests zur jeweiligen Evidenz im Sinne des Ordnungssystems.

Q4 – Daten von Probandinnen und Probanden:

Zur Stützung einer Folgerung werden von Testentwicklerinnen und Testentwicklern Daten von Probandinnen und Probanden der Zielgruppe erhoben. Bei der darauffolgenden Datenanalyse kommen vielfältige qualitative und/oder quantitative Methoden zum Einsatz. Kodierregel: Zur Kodierung dieser Quelle genügt das Nennen einer für die Validierung relevanten Datenerhebung, z. B. einem Pilottest, mit Probandinnen und Probanden der Zielgruppe in den analysierten Publikationen des hands-on Experimentiertests zur jeweiligen Evidenz im Sinne des Ordnungssystems.

Ergebnisse des Reviews

Im Folgenden werden die Ergebnisse tabellarisch dargestellt. Tab. 2 zeigt zu jeder Evidenzkategorie des Ordnungssystems die Anzahl der identifizierten Quellen: (Q1) Eigenexpertise der Testentwicklerinnen und Testentwickler, (Q2) Daten aus der Literatur, (Q3) Daten von Expertinnen und Experten und (Q4) Daten von Probandinnen und Probanden. In den kodierten Publikationen wurden im Mittel elf (Median) verschiedene Evidenzen gemäß Ordnungssystem (Abb. 3, 4 und 5) angesprochen. Dabei wurden mindestens fünf und maximal 17 von 30 möglichen Evidenzen aufgeführt.

Tab. 2 Ergebnisse des Reviews: Anteil der vier Quellen pro Evidenzkategorie im Ordnungssystem in Prozent: (Q1) Eigenexpertise der Testentwicklerinnen und Testentwickler, (Q2) Daten aus der Literatur, (Q3) Daten von Expertinnen und Experten und (Q4) Daten von Probandinnen und Probanden

Full size table

Diskussion der Ergebnisse des Reviews

Anhand der Ergebnisse werden zunächst die Schwerpunkte der Validierungspraxis festgestellt, um daraus neue Impulse für die Validierungspraxis zum Thema abzuleiten. Anschließend werden Limitationen des Reviews diskutiert.

Typische, publizierte Validierungspraxis

Beantwortung der Forschungsfrage F2 „Wie ist die Validierungspraxis bei hands-on Experimentiertests?“: Zur Beantwortung wird im Folgenden zwischen der Anwendung der Evidenzen sowie der Ausgestaltung eines allgemeinen Validierungsargumentes auf der Basis dieser Evidenz unterschieden.

Anwendung von Evidenzen

Die publizierte Validierungspraxis ist unterschiedlich umfangreich. Es werden zwischen fünf und 17 von 30 möglichen Evidenzkategorien pro Studie berücksichtigt (vgl. Tab. 2). Abb. 6 gibt einen Überblick über die Evidenzen, die bei mindestens der Hälfte der Publikationen genannt werden, und die dazugehörige Quelle, die am häufigsten angesprochen wird. Das Schema repräsentiert in diesem Sinne eine typische Publikationspraxis von Validierungsstudien.

Für jede Evidenzkategorie gibt es typische Datenquellen, die vorwiegend genutzt werden. Sogar wenn verschiedene Datenquellen möglich wären, wird in der Regel neben der eigenen Expertise (Q1) nur eine weitere Datenquelle (Q2, Q3 oder Q4) herangezogen. Weitere Datenquellen zur Stützung sind eher bei der Itementwicklung zu beobachten, was auch naheliegender ist, als z. B. bei der psychometrischen Modellierung, bei der von der Sache her im Wesentlichen statistische Methoden auf der Basis von Daten der Probandinnen und Probanden zum Einsatz kommen.

Die typische Validierungspraxis anhand der Evidenzkategorien ist aus Sicht der Autoren wenig überraschend. Eine Ausnahme stellt die Evidenzkategorie E8‑3 dar. Hier werden in der Regel Zusammenhänge oder Unterschiede zwischen experimentellen Fähigkeiten und anderen externen Variablen untersucht. Dies erfolgt eher als explorative Suche nach möglichen Zusammenhängen und weniger unter der Perspektive einer konfirmativen Validierung von a priori angenommenen nomologischen Zusammenhängen. Kurz: Es ist nicht immer klar, ob die Ergebnisse solcher Analysen verstanden werden als Aussage zur Validierung des Tests oder als Aussage über die Kompetenz der untersuchten Probandinnen und Probanden. Im zweiten Fall allenfalls mit der Intention, die Ergebnisse auf Kohorten zu extrapolieren, zu denen die Probandinnen und Probanden als repräsentativ erachtet werden.

Ausgestaltung eines allgemeinen Validierungsarguments

In der Regel zeichnet sich die Validierungspraxis durch ein Abarbeiten von klassischen Testgütekriterien wie der Reliabilität, Objektivität und anderen ausgewählten Aspekten der Validität aus (s. Abb. 6). Diese Kriterien orientieren sich typischerweise am Validitätsverständnis entweder von Cronbach und Meehl (1955) oder von Messick (1995). Dagegen findet man eine zusammenhängende, die einzelnen Evidenzen verknüpfende Validitätsargumentation gemäß Kane (2006, 2013) nicht bei hands-on Experimentiertests. Allerdings finden sich im Kontext des Experimentierens Ansätze einer zusammenhängenden Validitätsargumentation bei Kalthoff (2019; schriftlicher Methodentest) und Dickmann (2016; virtueller Experimentiertest).

Impulse für nächste Schritte

Beantwortung von Forschungsfrage F3: „Wie steht die publizierte Validierungspraxis zu den normativen Anforderungen, die sich aus der allgemeinen Literatur zur Validierung von Test ergeben?“

Anhand der Validierungspraxis bei der Modellierung wird zunächst deutlich, dass fundierte Progressionsmodelle fehlen. Außerdem sollte die Modellierung nomologischer Netze stärker berücksichtigt werden, insbesondere im Hinblick auf Vollständigkeit, wenn man z. B. potenzielle Einflussfaktoren systematisch untersuchen möchte.

Für die Validierung der Itementwicklung bietet eine noch stärkere Einbindung der Expertise von Expertinnen und Experten und der Literatur als Datenquellen ein noch zu wenig ausgenutztes Potenzial.

Auf Ebene der gezeigten Performanz zeigen sich Lücken. Der Analyse der beobachtbaren Handlungen und den Denkprozessen wird bisher vergleichsweise weniger Aufmerksamkeit gewidmet. Bei der gezeigten Performanz (Evidenzkategorie E3-2) kann davon ausgegangen werden, dass die Probandinnen und Probanden experimentiert haben, was gut beobachtbar ist. Diese Beobachtung wurde möglicherweise nicht systematisch untersucht und/oder als nicht berichtenswert erachtet und deshalb auch in weniger als 50 % der analysierten Studien publiziert (s. Abschnitt zu Limitationen). Dagegen dürfte die Analyse kognitiver Prozesse, z. B. die Analyse konstruktrelevanter Überlegungen, selten untersucht worden sein.

Hinsichtlich der Bewertungen sind fundierte Begründungen von Beurteilungskategorien wünschenswert, wozu genauere Ausführungen, z. B. zur Entwicklung des Kodiermanuals gehören. Damit verbunden ist eine stärkere Transparenz bei Beurteilungskategorien, was durch die verpflichtende Veröffentlichung von Kodiermanualen erreicht werden könnte.

Die Aggregierung von Indikatorenwerten beruht bisher vor allem auf der Eigenexpertise der Testentwicklerinnen und Testentwickler. Dabei wäre es zu berücksichtigen, ob z. B. die einzelnen Indikatoren normativ und/oder empirisch gleich gewichtet werden dürfen. Oder wenn nicht, wie die Gewichtung genau begründet werden könnte.

Auf Ebene Exploration könnten als ein erster Ansatzpunkt die vorliegenden und aktuellen hands-on Experimentiertests anhand einer Stichprobe verglichen werden, um zu analysieren, inwiefern sie das gleiche Konstrukt erfassen oder welche unterschiedlichen Facetten experimenteller Fähigkeiten gemessen werden. Darüber hinaus ließen sich Evidenzen zur Extrapolation auch auf Item- und Bearbeitungsebene generieren, wenn man die Ebene von Performanztests verlässt und die Testung auf die Ebene des Handelns im Unterricht verschieben würde (Überlegungen dazu z. B. in Blömeke 2013; Kulgemeyer et al. 2018; Miller 1990).

Kompetenzmodellierungen im Sinne interpretierter Fähigkeiten werden kaum hinsichtlich Struktur und Progression untersucht. Hier sind weitere Evidenzen wünschenswert.

Ein Grund, warum es keine Untersuchungen zu Implikationen gibt, könnte auch mit einer geringen Passung zwischen fachdidaktischer Forschungsarbeit zu hands-on Experimentiertests und den Bedürfnissen in der Schulpraxis und auf der Ebene der Kultusministerien zusammenhängen. Leuders (2014) äußert eine ähnliche Vermutung bereits im Kontext mathematischer Kompetenzen. Folglich wäre eine starke Zusammenarbeit zwischen Lehrkräften in Schulen, Fachdidaktikerinnen und Fachdidaktikern sowie weiteren Interessenvertretern notwendig, damit hands-on Experimentiertests als zeugnisrelevante Beurteilungsmethode einen Weg in die Praxis von Schule finden.

Grundsätzlich gehen mit Implikationen hohe Anforderungen an Tests einher. Man kann sogar sagen, je weitreichender die Implikation, desto höhere Anforderungen müssen für die eingesetzten Tests gelten (s. z. B. Cronbach 1988). Hohe Anforderungen bedeuten also eine möglichst durch breite und qualitativ hochstehende Evidenz fundierte Validitätsargumentation zur Testwertinterpretation. Eine solche Validitätsargumentation wäre mit erheblichem Entwicklungs- und Forschungsaufwand verbunden, der vermutlich nicht durch eine Arbeitsgruppe allein geleistet werden kann. Allerdings besteht die Möglichkeit zu produktiver Zusammenarbeit mehrerer Arbeitsgruppen, die Expertise in der Entwicklung von hands-on Experimentiertests haben. Wenn Testentwicklerinnen und Testentwickler anhand eines Ordnungssystems transparent berichten und dadurch Stärken und Schwächen einer Validitätsargumentation deutlich werden, dann sollten ergänzende und herausfordernde Validierungen potenziell auch von mehreren Arbeitsgruppen parallel möglich sein.

Limitationen der Beantwortung der Forschungsfragen

Die folgenden Limitationen führen sowohl zu Unter- als auch zu Überinterpretationen der dargestellten typischen Validierungspraxis.

Überinterpretation – keine Qualität der Stützung kodiert:

Kodiert wurde nur, ob Testentwicklerinnen und Testentwickler ihre Überlegungen, Schlussfolgerungen und Entscheidungen mit Daten aus Literatur, Expertenbefragungen oder Erhebungen mit Probandinnen und Probanden zusätzlich stützen. Die Qualität der Datenquellen und der darauf basierenden Argumentation wurde nicht beurteilt. Es besteht also die Möglichkeit, dass in den Ergebnissen Validierungsargumentation aufgrund der Publikationsverhaltens mitgezählt sind, die inhaltlich oder methodisch nicht haltbar sind.

Unterinterpretation – Keine Argumentationskette kodiert:

Dem Ordnungssystem liegt eine Argumentationskette zugrunde, in der mehrere Evidenzkategorien zur Stützung der jeweiligen Schlussregel herangezogen werden. Inwiefern die zu einem Test kodierten Evidenzen eine Argumentationskette stützen würden, wird in der Regel in Publikationen nicht explizit dargestellt und wurde daher auch nicht kodiert. Das heißt: Eine wesentliche Qualität von Validierungen konnte in diesem Review grundsätzlich nicht erfasst werden.

Unterinterpretation – Kodierungen auf Basis von Publikationen:

Publizierte Artikel zeigen in der Regel das, was Testentwicklerinnen und Testentwickler, ggf. unter Aushandlung mit Gutachterinnen und Gutachtern, zum Thema als publikationswürdig und relevant erachten. Insofern können in Publikationen nicht alle Überlegungen der Testentwicklerinnen und Testentwickler berichtet werden. Zum Beispiel werden die Evidenzkategorien E2‑4 (Items sind im typischen Format der Zieldomäne entwickelt) und E3‑2 (Gezeigte Performanz ist typisch für Performanz in Zieldomäne) in Publikationen vergleichsweise schwach angesprochen. Dabei fällt auf, dass die Probandinnen und Probanden in den hands-on Experimentiertests praktisch experimentierten und Beobachtungen oder Messungen dokumentierten. Insofern handelt es sich wahrscheinlich um ein typisches Format mit typischen Handlungen in der Zieldomäne „Experimentieren in der Schule“. Es wird jedoch nicht explizit berichtet, weil es für die Autorinnen und Autoren vermutlich naheliegend ist. Folglich unterschätzen die dargestellten Ergebnisse mindestens den Umfang der eingebrachten Eigenexpertise der Testentwicklerinnen und Testentwickler. Inwiefern die Unterschätzung über die Evidenzkategorien gleichverteilt ist, kann nicht abgeschätzt werden.

Desiderata

Das Review zeigt, dass zumindest die Publikationspraxis zu hands-on Experimentiertests in der fachdidaktischen Forschung ausgebaut werden sollte. Es ist plausibel anzunehmen, dass Gleiches auch für die aktuell geführte Validierungspraxis gilt. Fragen der Validität sollten also grundsätzlich vermehrt in Publikationen thematisiert und diskutiert werden. Dies gilt vermutlich nicht nur für hands-on Experimentiertests, sondern auch für andere fachdidaktische Tests. Es gilt daher zu überprüfen, inwiefern das vorgestellte Ordnungssystem mit den nötigen Anpassungen auch auf andere fachdidaktische Tests übertragen werden kann. Es stellt sich hierbei die Frage, inwieweit bestimmte Evidenzen test- und inhaltsspezifisch dem Ordnungssystem aus Abb. 3, 4 und 5 ergänzt oder ersetzt werden müssten.

Notes

In dieser Form entspricht eine Validitätsargumentation einem „interpretation/use argument“ gemäß Kane (2013, S. 2 f); vgl. auch deren Umsetzung als Interpretations-Nutzungs-Argument bei Dickmann (2016).

Literatur

American Educational Research Association [AERA], American Psychological Association [APA], & National Council on Measurement in Education [NCME] (2014). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
Google Scholar
Baker, E. L., O’Neil, H. F., & Linn, R. (1993). Policy and validity: prospects for performance-based assessment. American Psychologist, 48(12), 1210–1218.
Article Google Scholar
Baxter, G. P., & Shavelson, R. J. (1994). Science performance assessments: benchmarks and surrogates. International Journal of Educational Research, 21(3), 279–298. *.
Article Google Scholar
Blömeke, S. (2013). Validierung als Aufgabe im Forschungsprogramm „Kompetenzmodellierung und Kompetenzerfassung im Hochschulsektor“. KoKoHs Working Papers, Bd. 2. Berlin, Mainz: Humboldt-Universität und Johannes Gutenberg-Universität.
Google Scholar
Brown, C. R., & Moore, J. L. (1994). Construct validity and context dependency of the assessment of practical skills in an advanced level biology examination. Research in Science and Technological Education, 12(1), 53–61. *.
Article Google Scholar
Brown, C. R., Pacini, D. J., & Taylor, D. J. (1992). Two different methods of assessing practical skills at an advanced level examination in biology: demonstration of construct validity or the appraisal of non-events? Research in Science & Technological Education, 10(1), 23–35. *.
Article Google Scholar
Crocker, L. (1997). Assessing content representativeness of performance assessment exercises. Applied Measurement in Education, 10(1), 83–95.
Article Google Scholar
Cronbach, L. J. (1988). Five perspectives on validity argument. In H. Wainer & H. I. Braun (Hrsg.), Test validity (S. 3–17). Hillsdale: Lawrence Erlbaum.
Google Scholar
Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281–197.
Article Google Scholar
Cronbach, L. J., Linn, R. L., Brennan, R. L., & Haertel, E. H. (1997). Generalizability analysis for student performance assessment of student achievement or school effectiveness. Educational and Psychological Measurements, 57(3), 373–399.
Article Google Scholar
Dickmann, M. (2016). Messung von Experimentierfähigkeiten Validierungsstudien zur Qualität eines computerbasierten Testverfahrens. Berlin: Logos.
Google Scholar
Doran, R. L., & Tamir, P. (1992). Results of practical skills testing. Studies in Educational Evaluation, 18(3), 365–392. *.
Article Google Scholar
Embretson, S. E. (1983). Construct validity: construct representation versus nomothetic span. Psychological Bulletin, 95(1), 179–197.
Google Scholar
Embretson, S. E. (2007). Construct validity: a universal validity system or just another test evaluation procedure? Educational Researcher, 36(8), 449–455.
Article Google Scholar
Emden, M. (2011). Prozessorientierte Leistungsmessung des naturwissenschaftlich-experimentellen Arbeitens. Berlin: Logos. *
Google Scholar
Erickson, G., Bartley, A. W., Blake, L., Carlisle, R. W., Meyer, K., & Stavy, R. (1992). British columbia assessment of science 1991. Technical report II: student performance component. Victoria: Queen’s Printer. *
Google Scholar
Garden, R. A. (1999). Development of TIMSS performance assessment tasks. Studies in Educational Evaluation, 25, 217–241. *.
Article Google Scholar
Germann, P. J., & Aram, R. J. (1996). Student performances on the science processes of recording data, analyzing data, drawing conclusions, and providing evidence. Journal of Research in Science Teaching, 33(7), 733–798. *.
Article Google Scholar
Germann, P. J., Aram, R. J., & Burke, G. (1996). Identifying patterns and relationships among the responses of seventh-grade students to the science process skill of designing experiments. Journal of Research in Science Teaching, 33(1), 79–99. *.
Article Google Scholar
Gorin, J. S. (2007). Reconsidering issues in validity theory. Educational Researcher, 36(8), 456–462.
Article Google Scholar
Guion, R. M. (1977). Content validity: the source of my discontent. Applied Psychological Measurement, 1(1), 1–10.
Article Google Scholar
Gut, C. (2012). Modellierung und Messung experimenteller Kompetenz. Analyse eines large-scale Experimentiertests. Berlin: Logos. *
Google Scholar
Gut, C., & Mayer, J. (2018). Experimentelle Kompetenz. In D. Krüger, I. Parchmann & H. Schecker (Hrsg.), Theorien in der naturwissenschaftsdidaktischen Forschung (S. 121–140). Berlin: Springer.
Google Scholar
Gut, C., Metzger, S., Hild, P., & Tardent, J. (2014). Problemtypenbasierte Modellierung und Messung experimenteller Kompetenzen von 12- bis 15-jährigen Jugendlichen. https://phzh.ch/MAPortrait_Data/158541/11/Gut_etal_2014_Problemtypbenbasierte_Modellierung.pdf. Zugegriffen: 16. März 2022. *.
Gut, C., Hild, P., Metzger, S., & Tardent, J. (2017). Vorvalidierung des ExKoNawi-Modells. In C. Maurer (Hrsg.), Implementation fachdidaktischer Innovation im Spiegel von Forschung und Praxis (S. 328–331). Regensburg: Universität Regensburg. *.
Google Scholar
Harmon, M., Smith, T. A., Martin, M. O., Kelly, D. L., Beaton, A. E., Mullis, I. V. S., Gonzalez, E. J., & Orpwood, G. (1997). Performance assessment in IEA’s third international mathematics and science study. Chestnut Hill: Boston College. *
Google Scholar
Heidrich, J. (2017). Erfassung von Experimentierkompetenz im universitären Kontext. Entwicklung und Validierung eines Experimentiertests zum Themenbereich Optik. https://macau.uni-kiel.de/receive/dissertation_diss_00020874. Zugegriffen: 13. Juni 2018. *.
Hild, P. (2020). Problemtypenbasierte Kompetenzmodellierung beim praktisch-naturwissenschaftlichen Arbeiten. Design, Validierung und Einsatz von Aufgaben zum effektbasierten Vergleichen. https://macau.uni-kiel.de/receive/macau_mods_00001345?lang=de. Zugegriffen: 16. März 2022. *.
Hild, P., Brückmann, M., & Gut, C. (2017). Aussagen zur Konstruktvalidität beim experimentellen Problemtyp „Effektbasiertes Vergleichen“ (Projekt ExKoNawi). In C. Maurer (Hrsg.), Implementation fachdidaktischer Innovation im Spiegel von Forschung und Praxis (S. 332–335). Regensburg: Universität Regensburg. *.
Google Scholar
Höttecke, D., & Rieß, F. (2015). Naturwissenschaftliches Experimentieren im Lichte der jüngeren Wissenschaftsforschung – Auf der Suche nach einem authentischen Experimentbegriff der Fachdidaktik. Zeitschrift für Didaktik der Naturwissenschaften, 21, 127–139.
Article Google Scholar
Kalthoff, B. (2019). Explizit oder implizit? Untersuchung der Lernwirksamkeit verschiedener fachmethodischer Instruktionen im Hinblick auf fachmethodische und fachinhaltliche Fähigkeiten von Sachunterrichtsstudierenden. Berlin: Logos. *
Google Scholar
Kanari, Z., & Millar, R. (2004). Reasoning from data: how students collect and interpret data in science investigations. Journal of Research in Science Teaching, 41(7), 748–769. *.
Article Google Scholar
Kane, M. T. (1992). An argument-based approach to validity. Psychological Bulletin, 112(3), 327–535.
Article Google Scholar
Kane, M. T. (2006). Validation. In R. L. Brennan (Hrsg.), Educational measurement (4. Aufl. S. 17–64). Westport: American Council on Education and Praeger Publishers.
Google Scholar
Kane, M. T. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50(1), 1–73.
Article Google Scholar
Kane, M. T., Crooks, T., & Cohen, A. (1999). Validating measures of performance. Educational Measurement: Issues and Practice, 18(2), 5–17.
Article Google Scholar
Kulgemeyer, C., Riese, J., Borowski, A., Schreiber, N., & Vogelsang, C. (2018). Performanztests in der naturwissenschaftlichen Lehrerbildung. In C. Maurer (Hrsg.), Qualitätsvoller Chemie- und Physikunterricht – normative und empirische Dimensionen. Gesellschaft für Didaktik der Chemie und Physik, Jahrestagung in Regensburg 2017 (S. 55–57). Regensburg: Universität Regensburg.
Google Scholar
Leuders, T. (2014). Modellierungen mathematischer Kompetenzen–Kriterien für eine Validitätsprüfung aus fachdidaktischer Sicht. Journal für Mathematik-Didaktik, 35(1), 7–48.
Article Google Scholar
Linn, R. L. (1997). Evaluating the validity of assessments: the consequences of use. Educational Measurement: Issues and Practice, 16(2), 14–15.
Article Google Scholar
Linn, R. L. (2000). Assessments and accountability. Educational Researcher, 29(4), 4–16.
Google Scholar
Linn, R. L., Baker, E. L., & Dunbar, S. B. (1991). Complex, performance-based assessment: expectations and validation criteria. Educational Researcher, 20(8), 15–21.
Article Google Scholar
Lissitz, R. W., & Samuelsen, K. (2007a). A suggested change in terminology and emphasis regarding validity and education. Educational Researcher, 36(8), 437–448.
Article Google Scholar
Lissitz, R. W., & Samuelsen, K. (2007b). Further clarification regarding validity and education. Educational Researcher, 36(8), 482–484.
Article Google Scholar
Lock, R. (1989). Assessment of practical skills. Part 1. The relationships between component skills. Research in Science and Technological Education, 7(2), 221–233. *.
Article Google Scholar
Lock, R. (1990). Assessment of practical skills. Part 2. Context dependency and construct validity. Research in Science & Technological Education, 8(1), 35–52. *.
Article Google Scholar
Messick, S. (1989). Meaning and values in test validation: the science and ethics of assessment. Educational Researcher, 18(2), 5–11.
Article Google Scholar
Messick, S. (1993). Validity. In R. L. Linn (Hrsg.), Educational measurement (3. Aufl. S. 13–103). Phoenix: The Oryx Press.
Google Scholar
Messick, S. (1994). The interplay of evidence and consequences in the validation of performance assessments. Educational Researcher, 23(2), 13–23.
Article Google Scholar
Messick, S. (1995). Validity of psychological assessment: validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50(9), 741–749.
Article Google Scholar
Millar, D. M., & Linn, R. L. (2000). Validation of performance-based assessments. Applied Psychological Measurement, 24, 367–378.
Article Google Scholar
Millar, R., Lubben, F., Gott, R., & Duggan, S. (1994). Investigation in the school science laboratory: conceptual and procedural knowledge and their influence on performance. Research Papers in Education, 9(2), 207–248. *.
Article Google Scholar
Millar, R., Gott, R., Lubben, F., & Duggan, S. (1996). Children’s performance of investigative tasks in science: a framework for considering progression. In M. Hughes (Hrsg.), Progression in learning (S. 82–108). Clevedon: Multilingual Matters. *.
Google Scholar
Miller, G. (1990). The assessment of clinical skills / competence / performance. Journal of the Association of American Medical Colleges, 65(9), 63–67.
Article Google Scholar
Mislevy, R. J. (2007). Validity by design. Educational Researcher, 36(8), 463–469.
Article Google Scholar
Newton, P. E., & Shaw, D. S. (2014). Validity in educational and psychological assessment. London: SAGE.
Book Google Scholar
Schmidt, D. (2016). Modellierung experimenteller Kompetenzen sowie ihre Diagnostik und Förderung im Biologieunterricht. Berlin: Logos. *
Google Scholar
Schreiber, N. (2012). Diagnostik experimenteller Kompetenz: Validierung technologiegestützter Testverfahren im Rahmen eines Kompetenzstrukturmodells. Berlin: Logos. *
Google Scholar
Schreiber, N., Theyßen, H., & Schecker, H. (2014). Diagnostik experimenteller Kompetenz: Kann man Realexperimente durch Simulationen ersetzen? Zeitschrift für Didaktik der Naturwissenschaften, 20(1), 161–173. *.
Article Google Scholar
Schwichow, M., Zimmerman, C., Croker, S., & Härtig, H. (2016). What students learn from hands-on activities. Journal of Research in Science Teaching, 53(4), 980–1002. *.
Article Google Scholar
Shavelson, R. J., Baxter, G. P., & Pine, J. (1991). Performance assessment in science. Applied Measurement in Education, 4(4), 347–362. *.
Article Google Scholar
Shavelson, R. J., Baxter, G. P., & Gao, X. (1993). Sampling variability of performance assessments. Journal of Educational Measurement, 30(3), 215–232. *.
Article Google Scholar
Shavelson, R. J., Solano-Flores, G., & Ruiz-Primo, M. A. (1998). Toward a science performance assessment technology. Evaluation and Program Planning, 21(2), 171–184. *.
Article Google Scholar
Shavelson, R. J., Ruiz-Primo, M. A., & Wiley, E. W. (1999). Note on sources of sampling variability in science performance assessments. Journal of Educational Measurement, 36(1), 61–71. *.
Article Google Scholar
Shaw, S., & Crisp, V. (2012). An approach to validation: developing and applying an approach for the validation of general qualifications. In Research matters, special issue 3 (S. 1–44). Cambridge: Cambridge University Press.
Google Scholar
Solano-Flores, G., & Shavelson, R. J. (1997). Development of performance assessments in science: conceptual, practical, and logistical issues. Educational Measurement: Issues and Practice, 16(3), 16–24. *.
Google Scholar
Stebler, R., Reusser, K., & Ramseier, E. (1998). Praktische Anwendungsaufgaben zur integrierten Förderung formaler und materialer Kompetenzen. Bildungsforschung und Bildungspraxis, 20(1), 28–54.
Google Scholar
Stecher, B. M., & Klein, S. P. (1996). Performance assessments in science. Hands-on tasks and scoring guides. Santa Monica: RAND Institute on Education and Training, National Science Foundation. *
Google Scholar
Stecher, B. M., & Klein, S. P. (1997). The cost of science performance assessments in large-scale testing programs. Educational Evaluation and Policy Analysis, 19(1), 1–14. *.
Article Google Scholar
Stecher, B. M., Klein, S. P., Solano-Flores, G., McCaffrey, D., Robyn, A., Shavelson, R. J., & Haertel, E. (2000). The effects of content, format, and inquiry level on science performance assessment scores. Applied Measurement in Education, 13(2), 139–160. *.
Article Google Scholar
Tamir, P., & Doran, R. L. (1992). Scoring guidelines. Studies in Educational Evaluation, 18(3), 355–363. *.
Article Google Scholar
Tamir, P., Doran, R. L., & Chye, Y. O. (1992a). Practical skills testing in science. Studies in Educational Evaluation, 18(3), 263–275. *.
Article Google Scholar
Tamir, P., Doran, R. L., Kojima, S., & Bathory, Z. (1992b). Procedures used in practical skills testing in science. Studies in Educational Evaluation, 18(3), 277–290. *.
Article Google Scholar
Toh, K.-A., & Woolnough, B. E. (1990). Assessing, through reporting, the outcomes of scientific investigations. Educational Research, 32(1), 59–65. *.
Article Google Scholar
Toh, K.-A., & Woolnough, B. E. (1994). Science process skills: are they generalisable? Research in Science & Technological Education, 12(1), 31–42. *.
Article Google Scholar
Toulmin, S. (1996). Der Gebrauch von Argumenten (2. Aufl.). Weinheim: Beltz.
Google Scholar
Webb, N. M., Schlackman, J., & Sugrue, B. (2000). The dependability and interchangeability of assessment methods in science. Applied Measurement in Education, 13(3), 277–301. *.
Article Google Scholar
Zberg, U. (2012). Experimentiertests im trinationalen Vergleich. Norderstedt: GRIN. *
Google Scholar

Download references

Funding

Open Access funding enabled and organized by Projekt DEAL.

Author information

Authors and Affiliations

Institut für Didaktik des Sachunterrichts, Westfälische Wilhelms-Universität Münster, Leonardo-Campus 11, 48149, Münster, Deutschland
Nico Schreiber
Pädagogische Hochschule Zürich, Lagerstraße 2, 8090, Zürich, Schweiz
Christoph Gut

Authors

Nico Schreiber
View author publications
You can also search for this author in PubMed Google Scholar
Christoph Gut
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Nico Schreiber.

Ethics declarations

Interessenkonflikt

N. Schreiber und C. Gut geben an, dass kein Interessenkonflikt besteht.

Additional information

(*) Im Review berücksichtige Literatur zu den analysierten Experimentiertests

Anhang

Anhang 1 Entwicklung und theoretische Begründung des Ordnungssystems

Im Folgenden wird mit Bezug zu relevanter Literatur dargelegt, wie sich die Argumentationskette aus dem in den Abb. 3, 4 und 5 des Artikels vorgestellten Ordnungssystem für einen Testentwickler bzw. eine Testentwicklerin ergibt.

Intention – Festlegungen von Zweck und Zieldomäne (Nutzung und Interpretation der Testwerte)

Für Testentwickler und Testentwicklerinnen legen internationale Standards im Hinblick auf die Validierung des Tests Folgendes nahe: „Validation logically begins with an explicit statement of the proposed interpretations of scores, along with a rationale for the relevance of the interpretation to the proposed use“ (AERA et al. 2014, S. 9). Es ist daher plausibel, wenn das zu entwickelnde Ordnungssystem ebenfalls mit der Festlegung des Zwecks (geplante Nutzung und Interpretation der Testwerte) beginnt. Damit verbunden ist auch die Festsetzung der Zieldomäne, da ohne diese die Testitems nicht zielgerichtet entwickelt werden können: „The target domain specifies the kinds of tasks and the ranges of contexts and conditions“ (Kane 2013, S. 22).

Modellierung – Modell

Mit der Festlegung von Zweck und Zieldomäne des Tests wird das mit dem Test zu messende Konstrukt implizit festgelegt. Für dieses Konstrukt wird dabei häufig ein Label vergeben, ohne dass dadurch dessen Bedeutung bereits geklärt ist. Beispielsweise wäre bei der Interpretation des Konstrukts mit dem Label „Experimentelle Fähigkeiten“ nicht ohne weiteres einsichtig, was mit diesem Label genau gemeint ist. Vor diesem Hintergrund ist eine Definition in dem Beispiel insofern relevant, als es mehrere verschiedene Facetten des Experimentierens gibt (Gut und Mayer 2018; Höttecke und Rieß 2015). Erforderlich ist somit in jedem Fall eine Modellierung des zu messenden Konstrukts.

Die Notwendigkeit einer Modellierung führt zum ersten Rechtfertigungsschritt in der Argumentationskette des Ordnungssystems: Auf Basis des festgelegten Zwecks und der Interpretation sowie der festgelegten Zieldomäne wird ein Modell entwickelt. Dieser Schritt ist allerdings nur dann gerechtfertigt, wenn die modellierten Fähigkeiten und Anforderungen relevante und repräsentative Fähigkeiten und Anforderungen der Zieldomäne abbilden und gleichzeitig eine Passung zu normativen Annahmen, empirischen Befunden und wissenschaftlich-theoretischen Explikationen des adressierten Konstrukts aufweisen (Schlussregel R1 in Abb. 3). Die Stützung dieser Schlussregel machen folgende Evidenzen notwendig.

[E1-1] zur äußeren Abgrenzung der zu modellierenden Fähigkeiten: z. B. in Bezug auf content representativeness (Crocker 1997), cognitive complexity, content representativeness (Crocker 1997), cognitive complexity, content quality und content coverage (Linn et al. 1991) oder construct relevance and representativeness, (Linn 2000; Messick 1995).
[E1-2] zur inneren Differenzierung von Teilfähigkeiten (Embretson 2007): z. B. identifying the domain processes (Messick 1995).
[E1-3] zur Progression im Hinblick auf die mit den modellierten Fähigkeiten verbundenen Anforderungen: z. B. item complexity (Embretson 2007).
[E1-4] sowie zur Verortung des abgegrenzten Konstrukts in einem nomologischen Netz von hypothetisch angenommenen Wirkzusammenhänge (vgl. z. B. Embretson 1983).

Item- und Testkonstruktion – Test

Das Modell liefert den Ausgangspunkt für die Testentwicklung. Ein Test besteht in der Regel aus mehreren Items, deren Konstruktion nur dann gerechtfertigt ist, wenn die erfolgreiche Bearbeitung der Items die modellierten Fähigkeiten erfordert, repräsentative Inhalte der Zieldomäne abdecken sowie für die Stichprobe geeignet sind. Dabei ist das Testdesign auf die Intention und den Zweck des Tests abzustimmen (Schlussregel R2 in Abb. 3). Diese facettenreiche Schlussregel wird durch verschiedene Evidenzen gestützt, wenn

[E2-1] die Gesamtheit der Items alle modellierten Fähigkeiten und Anforderungen in der Zieldomäne abdeckt (Crocker 1997; Embretson 2007; Linn et al. 1991; Lissitz und Samuelsen 2007b; Messick 1995; Shaw und Crisp 2012; Solano-Flores und Shavelson 1997; Stebler et al. 1998);
[E2-2] die Items keine konstrukt-irrelevanten Fähigkeiten und Anforderungen enthalten (Messick 1995);
[E2-3] die Items aus relevanten Inhaltsbereichen der Zieldomäne stammen (Baker et al. 1993; Embretson 2007; Lissitz und Samuelsen 2007a; Solano-Flores und Shavelson 1997; Stebler et al. 1998);
[E2-4] die Items im typischen Item- und Antwortformat der Zieldomäne entwickelt sind (Embretson 2007; Shaw und Crisp 2012; Solano-Flores und Shavelson 1997);
[E2-5] die Items für die Zielgruppe authentisch sind (Baker et al. 1993; Lissitz und Samuelsen 44,45,a, b; Messick 1995; Solano-Flores und Shavelson 1997; Stebler et al. 1998);
[E2-6] die Itemkonstruktion operationalisiert ist (Cronbach 1988);
[E2-7] die Items von den Testpersonen und relevanten Interessensvertretern akzeptiert werden (Cronbach 1988; Kane 2006);
[E2-8] die Items für die Zielgruppe fair sind (Cronbach 1988; Solano-Flores und Shavelson 1997), d. h. dass die Items einerseits von den Probandinnen und Probanden potenziell erfolgreich bearbeitet werden können und andererseits auch in Bezug auf für die Testwertnutzung relevanten Teilstichproben (z. B. verschiedene Geschlechter, oder Migrationshintergrund) messinvariant sind (Lissitz und Samuelsen 2007a; Solano-Flores und Shavelson 1997; Stebler et al. 1998);
[E2-9] das Testdesign die Kontrolle von Fehlern gewährleistet (Cronbach et al. 1997; Guion 1977; zitiert nach Kane 2006, S. 19; Millar und Linn 2000; Shavelson et al. 1999; Webb et al. 2000);
[E2-10] das Testdesign zum intendierten psychometrischen Modell passt (Mislevy 2007);
[E2-11] der Test bei vertretbarem Aufwand den erwarteten Nutzen erbringt (Embretson 2007; Linn et al. 1991; Messick 1994; Solano-Flores und Shavelson 1997; Stebler et al. 1998).

Erhebung – Generierung von Performanzen

Nach der Testkonstruktion folgt die Bearbeitung des Tests durch eine Personenstichprobe. Für die dabei stimulierte beobachtbare Performanz muss gelten, dass sie der repräsentativen Performanz der Zieldomäne entspricht (Schlussregel R3 in Abb. 4). Zur Stützung der Schlussregel (R3) sind Evidenzen auf Sicht- als auch auf Tiefenstrukturebene notwendig. So sind Evidenzen zu generieren, die darauf hinweisen, dass

[E3-1] die Datenerhebung standardisiert durchgeführt wurde (Cronbach 1988);
[E3-2] die beobachteten Performanzen im Test mit typischen, z. B. aus der Literatur bekannten Performanzen aus der Zieldomäne übereinstimmen (Cronbach 1988; Baker et al. 1993; Guion 1977; zitiert nach Kane 2006; Lissitz und Samuelsen 2007a; Messick 1994, 1995; Shaw und Crisp 2012; Solano-Flores und Shavelson 1997; Stebler et al. 1998);
[E3-3] die kognitiven Prozesse bei der Erzeugung der Performanz zu den typischen kognitiven Prozessen der Zieldomäne passen (Baker et al. 1993; Kane 2006; Linn et al. 1991; Messick 1995; Shaw und Crisp 2012; Stebler et al. 1998).

Bewertung von Performanz – Indikatorenwerte

Bei der Bewertung von Performanzen gilt es, Indikatorenwerte und Itemwerte zu unterscheiden. Eine Performanz kann anhand verschiedener Indikatoren bewertet werden. Dabei erzeugt jeder Indikator eine Bewertung (Indikatorwert) einer bestimmten Facette der Performanz. Häufig werden die Indikatorenwerte nicht separat ausgewertet, sondern zu einer Gesamtbewertung (Itemwert) der Performanz aggregiert. Wird bei einer Performanz nur eine Bewertung vorgenommen oder wird jede Bewertung derselben Performanz als eigenständige Messung behandelt, entspricht der Indikatorwert gerade dem Itemwert. In diesem Fall ist die folgende Schlussregel S4 auch auf einen Itemwert zu übertragen.

Eine Performanz wird in der Regel mit mindestens einem Indikator bewertet. Es kann aber auch mehrere Indikatoren geben (Beispielsweise kann die Durchführung einer Messung hinsichtlich der Adäquatheit der Messtechnik (Facette A) als auch der Genauigkeit des Messresultats (Facette B) bewertet werden). Zu jeder Facette wird somit eine Bewertung vorliegen, die durch einen Indikatorenwert gekennzeichnet ist. Wenn beispielsweise nun eine komplexe Performanz, wie beim Experimentieren, nach diesem Schema auf einzelne Indiaktorenwerte reduziert wird, dann muss sichergestellt sein, dass die Performanz durch Indikatorenwerte (möglichst) vollständig und genau repräsentiert wird (Schlussregel R4 in Abb. 4). Zur Stützung der Schlussregel R4 ist daher anhand von Evidenzen zu zeigen, dass

[E4-1] die Indikatoren relevant für das adressierte Konstrukt sind (Kane 2006; Kane et al. 1999; Messick 1995; Solano-Flores und Shavelson 1997; Shaw und Crisp 2012);
[E4-2] die Indikatorenwerte standardisiert und replizierbar generiert werden (Baker et al. 1993; Cronbach 1988; Guion 1977 zitiert nach Kane 2006; Lissitz und Samuelsen 2007a; Shaw und Crisp 2012).

Aggregierung von Indikatorenwerten – Itemwerte

Liegen für jede einzelne Performanz, die mit einer bestimmten Fähigkeit verknüpft werden, mehrere Indikatorenwerte vor, müssen diese Werte in einem nächsten Schritt zu einem Itemwert aggregiert werden (vgl. z. B. die Auswertung von Experimentieraufgaben bei Brown et al. 1992, Brown und Moore 1994; Gut et al. 2014). Die Aggregierung ist allerdings nur dann gerechtfertigt, wenn die Reduktion der Indikatorenwerte auf einen Itemwert die globale Beurteilung einer Performanz immer noch angemessen repräsentiert (Schlussregel R5 in Abb. 4). Dazu sind Evidenzen zu generieren,

[E5-1] die die (rechnerische oder logische) Zusammenführung der Indikatorenwerte zu einem die Zieldomäne repräsentierenden Itemwert begründen (Embretson 2007; Kane 2006; Shaw und Crisp 2012).

Fähigkeitsschätzung – Testwert

Die bisherigen Ausführungen zu Performanz, Indikatoren- und Itemwerten beziehen sich nur auf ein einzelnes Item. Tatsächlich wird ein Test aus mehreren Items bestehen. Folglich sind die bisherigen Ausführungen auf jedes verwendete Item im Test zu übertragen. Außerdem wird jedes Item in der Regel nicht nur von einer Testperson bearbeitet, sondern von mehreren Testpersonen. Somit liegt pro Item für jede Testperson eine Performanz vor. Zu jeder Performanz gibt es mehrere Indikatorenwerte und schließlich für jede Performanz einen Itemwert. Folglich liegen für jede Testperson so viele Itemwerte vor, wie Items bearbeitet wurden (unter der Annahme keiner missing data). Anhand der Gesamtheit aller Testpersonen und der dazugehörigen Itemwerte wird für jede Testperson ein Testwert berechnet. Dieser Testwert soll Ausdruck einer Fähigkeitsschätzung sein. Dafür muss zunächst gelten, dass mittels Itemwerten möglichst genaue Testwerte für eine repräsentative Stichprobe erzeugt werden können (Schlussregel R6 in Abb. 4). Im Zusammenhang mit dieser Schlussregel sind Evidenzen zu generieren hinsichtlich

[E6-1] einer genügend repräsentativen Stichprobe, um den Stichprobenfehler zu kontrollieren (Kane 2006; Shaw und Crisp 2012);
[E6-2] Itemwerten, die ein begründet ausgewähltes psychometrisches Modell fitten (Embretson 2007; Shaw und Crisp 2012);
[E6-3] Testwerten, die reliabel generiert (Embretson 2007; Kane 2006; Lissitz und Samuelsen 2007a) und generalisierbar sind (Stebler et al. 1998; Kane 2006; Lissitz und Samuelsen 2007a).

Extrapolation – Latente Fähigkeit

Liegen Testwerte für jede Testperson vor, werden sie zu einer latenten Fähigkeit extrapoliert. Dabei ändern sich die Testwerte der Testperson nicht, es wird jedoch davon ausgegangen, dass die Testwerte den Fähigkeiten entsprechen, die die Testperson in alltäglichen bzw. anderen Anforderungssituationen der Zieldomäne außerhalb der Testsituation zeigen würde, könnte man sie in diesen Situationen testen. Diese Extrapolation legt nahe, dass die Testsituationen so repräsentativ wie möglich für Anforderungssituationen der Zieldomäne sind (Schlussregel R7 in Abb. 4). Die Rechtfertigung der Regel erfordert einerseits Evidenzen auf Item- und Performanzebene (Kane 2006, S. 35 f) derart, dass für jede Testperson die bearbeiteten Items und die entsprechenden Performanzen analysiert werden (vgl. z. B. Kane 2006, S. 35), was bereits in den Schlussregeln R2 und R3 berücksichtigt wurde. Andererseits kommt die Bedingung an die Testwerte, dass

[E7-1] diese mit einem allfälligen repräsentativen Kriterium der Zieldomäne übereinstimmen (Kane 2006; Messick 1995; Shaw und Crisp 2012).

Interpretation – Interpretierte Fähigkeit

Erst auf Basis des extrapolierten Testwertes sind Interpretationen im Hinblick auf das zu erhebende Konstrukt möglich. Interpretierbar wird der Testwert vor dem Hintergrund der Theorie allerdings erst dann, wenn das psychometrische Modell auf Basis von Testwerten (Empirie) und das Modell der Zieldomäne auf Basis theoretischer Begründungen (Theorie) sich entsprechen (Schlussregel R8 in Abb. 5). Um die Schlussregel zu rechtfertigen sind Evidenzen notwendig, die

die Angemessenheit der Indikatoren sowie die Vorhersagen aus der Theorie unterstützen (Kane 2006) (Die Angemessenheit der Indikatoren wurden bereits im Zusammenhang mit Schlussregel R4 untersucht, genauso wie die einzelnen Indikatoren in den nächsten Schritten zu einem Testwert weiterverarbeitet wurden);
[E8‑1, E8‑2, E8-3] die theoretischen Vorhersagen aus der Modellierung (betrifft die Struktur, Progression und die a priori postulierten Zusammenhänge zu externen Variablen in Form eines nomologischen Netzes) bestätigen (Messick 1995; Kane 2006).

Implikationen – Testnutzung

Letztlich werden die interpretierten Testwerte für bestimmte Zwecke genutzt, die bereits zu Beginn gesetzt wurden (Beispielsweise werden Testergebnisse für Entscheidungen über den Zugang zu höheren Bildungsangeboten benutzt). Eine solche Nutzung von Testwerten ist nur dann gerechtfertigt, wenn sie den Intentionen der politischen Entscheidungsträger, der involvierten Gesellschaft und betroffenen Wirtschaft entsprechen (Schlussregel R9 in Abb. 5). Hierfür muss sichergestellt werden, dass

[E9-1] die Teilnahme an bildungsrelevanten Tests keine negativen Auswirkungen auf die Testpersonen haben (Cronbach 1988; Kane 2006; Linn 1997; Messick 1995);
[E9-2] die Nutzung von Testergebnissen einem demokratisch abgestützten Konsens unterliegt (Cronbach 1988).

Anhang 2

Rights and permissions

Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de.

Reprints and permissions

About this article

Cite this article

Schreiber, N., Gut, C. Die Validierungspraxis bei hands-on Experimentiertests in der naturwissenschaftsdidaktischen Forschung. ZfDN 28, 8 (2022). https://doi.org/10.1007/s40573-022-00145-6

Download citation

Received: 01 April 2022
Accepted: 28 August 2022
Published: 30 September 2022
DOI: https://doi.org/10.1007/s40573-022-00145-6

Schlüsselwörter

Keywords

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

Die Validierungspraxis bei hands-on Experimentiertests in der naturwissenschaftsdidaktischen Forschung

Zusammenfassung

Abstract

Einleitung

Zielsetzung, Fragestellungen und Aufbau des Reviews

F1

F2

F3

Herausforderung bei der Systematisierung von Validierungsstudien

Theoriebasierte Phänomenologie von Validierungen – Ein Ordnungssystem für die Systematisierung von Validierungen

Konzeption von Testvalidierungen als Argumentation

Grundlegende Überlegungen zum Aufbau des Ordnungssystems

Ein Argumentationsmodell als Grundelement der Argumentation im Ordnungssystem:

Validitätsargumentation als Kette einzelner Schlussfolgerungen:

Aufbau des Ordnungssystems durch Aneinanderreihung von Schlussfolgerungen:

Beschreibung und theoretische Fundierung eines allgemeinen Ordnungssystems für Validitätsargumentationen

Bedeutung und Rechtfertigung des Ordnungssystems

Retrospektive Funktion des Ordnungssystems

Verhältnis des Ordnungssystems zu alternativen Ordnungssystemen

Prinzipielle Unvollständigkeit und Nichtabgeschlossenheit eines Ordnungssystems

Repräsentation von Validitätsargumentationen im Ordnungssystem

Der prospektive Nutzen des Ordnungssystems für die Planung von Validierungsstudien

Review der Validierungspraxis

Berücksichtigte Studien

Vorgehen beim Review

Q1 – Eigenexpertise:

Q2 – Daten aus der Literatur:

Q3 – Daten von Expertinnen und Experten:

Q4 – Daten von Probandinnen und Probanden:

Ergebnisse des Reviews

Diskussion der Ergebnisse des Reviews

Typische, publizierte Validierungspraxis

Anwendung von Evidenzen

Ausgestaltung eines allgemeinen Validierungsarguments

Impulse für nächste Schritte

Limitationen der Beantwortung der Forschungsfragen

Überinterpretation – keine Qualität der Stützung kodiert:

Unterinterpretation – Keine Argumentationskette kodiert:

Unterinterpretation – Kodierungen auf Basis von Publikationen:

Desiderata

Notes

Literatur

Funding

Author information

Authors and Affiliations

Corresponding author

Ethics declarations

Interessenkonflikt

Additional information

Anhang

Anhang

Anhang 1 Entwicklung und theoretische Begründung des Ordnungssystems

Intention – Festlegungen von Zweck und Zieldomäne (Nutzung und Interpretation der Testwerte)

Modellierung – Modell

Item- und Testkonstruktion – Test

Erhebung – Generierung von Performanzen

Bewertung von Performanz – Indikatorenwerte

Aggregierung von Indikatorenwerten – Itemwerte

Fähigkeitsschätzung – Testwert

Extrapolation – Latente Fähigkeit

Interpretation – Interpretierte Fähigkeit

Implikationen – Testnutzung

Anhang 2

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Keywords

Search

Navigation