Faire Vergleiche? – Berücksichtigung von Kontextbedingungen des Lernens beim Vergleich von Testergebnissen aus deutschen Vergleichsarbeiten

Fiege, Christiane; Reuther, Franziska; Nachtigall, Christof

doi:10.1007/s35834-011-0009-x

Faire Vergleiche? – Berücksichtigung von Kontextbedingungen des Lernens beim Vergleich von Testergebnissen aus deutschen Vergleichsarbeiten

Fair comparisons?—Controlling for student background in German comparative performance tests

Originalbeitrag
Published: 14 July 2011

Volume 1, pages 133–149, (2011)
Cite this article

Zeitschrift für Bildungsforschung Aims and scope Submit manuscript

Christiane Fiege¹,
Franziska Reuther¹ &
Christof Nachtigall²

771 Accesses
5 Citations
Explore all metrics

Zusammenfassung

Eine wesentliche Säule der Gesamtstrategie zum Bildungsmonitoring (KMK 2006) bilden die landesweiten Vergleichsarbeiten. Diese erheben den Lern- und Leistungsstand von Schülern mittels standardisierter Tests, welche den Vergleich der Schülerleistungen zwischen verschiedenen Klassen ermöglichen. Daraus werden u. a. Aussagen über Unterrichtseffekte auf die Schülerleistung abgeleitet, die Grundlage für Unterrichtsentwicklungsmaßnahmen sein sollen. Ein Problem bei solchen Vergleichen ist, dass Klassenunterschiede nicht nur aufgrund der Unterrichtseffekte zustande kommen können, sondern auch aufgrund unterschiedlicher Ausgangsvoraussetzungen der Schüler (z. B. ihr sozioökonomischer Status). Deshalb werden bspw. einfache Mittelwertsvergleiche der Testleistungen verschiedener Klassen als unfair angesehen. Für faire Vergleiche müssen Adjustierungsverfahren verwendet werden, um diesen Unterschieden Rechnung zu tragen.

Der vorliegende Beitrag stellt die Bedeutung und Anwendung fairer Vergleiche im Kontext von deutschen Vergleichsarbeiten dar. Vor diesem Hintergrund werden die derzeit verwendeten statistischen Adjustierungsverfahren systematisiert, um sie hinsichtlich der Fairness sowie Praktikabilitätskriterien beurteilen zu können.

Abstract

The Standing Conference of the Ministers of Education and Cultural Affairs of the German states (KMK 2006) is currently conducting extensive monitoring of educational achievement in Germany. An important part of these efforts are the so-called “Vergleichsarbeiten” (comparative performance tests) that aim at assessing student achievement with standardized tests. By measuring students’ achievement on one common scale, these tests allow for comparing the achievement scores of classes to assess the effects of instruction on students’ outcomes. An ultimate goal of these comparisons is to identify and develop successful classroom practices. Unadjusted comparisons between classes—in the sense of naïve mean comparisons—are not fair because differences between the average achievement levels may result not only from school practice (e.g. teachers’ performance) but also from pre-existing differences among students, such as socio economic status. In order to yield unbiased comparisons, adjustment procedures need to be implemented.

This article describes the significance and the implementation of fair comparisons in the context of comparative performance testing in Germany. Against this background, the currently implemented adjustment procedures are systematically evaluated in terms of fairness and practicability.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Notes

Der Begriff Kovariaten bezieht sich im Folgenden sowohl auf individuelle Merkmale von Schülern, als auch auf Kontextvariablen.
Im Rahmen von Adjustierungsverfahren werden Zusammenhänge zwischen Variablen – hier der Testleistung der Schüler und den Kovariaten – mittels mathematischer Modelle dargestellt. Voraussetzung dabei ist, dass das gewählte statistische Modell die tatsächlichen Zusammenhänge zwischen diesen Variablen abbildet. Dabei gibt es eine Vielzahl mathematischer Modelle, deren detaillierte Darstellung jedoch weit über den Rahmen dieses Artikels hinaus geht. Der interessierte Leser sei auf weiterführende Literatur wie bspw. Bortz (2005) verwiesen.
Ab dem Jahr 2010 werden im Rahmen der Rückmeldungen zu Lernstand 8 in Hamburg die schulartspezifischen Mittelwerte (also bspw. die mittlere Testleistung aller Haupt- und Realschulen) als Referenzwerte zurückgemeldet. Außerdem kann sich eine Schule hinsichtlich der schulartspezifischen Kompetenzniveauverteilungen vergleichen (F. Thonke, persönl. Mitteilung, 08.06.2010). Dieses Vorgehen entspricht nun also dem Vorgehen gemäß Strategie II.
Dabei wird die Annahme gemacht, dass der Einzugsbereich einer Schule und der soziale Hintergrund der Schüler über mehrere Jahre relativ stabil bleibt (vgl. Freie und Hansestadt Hamburg 2009).
Das Projekt VERA in Landau wertet derzeit die Testergebnisse der Vergleichsarbeiten in Klassenstufe 3 für insgesamt acht Bundesländer aus (Baden-Württemberg, Bremen, Mecklenburg-Vorpommern, Niedersachen, Nordrhein-Westfalen, Rheinland-Pfalz, Saarland, Schleswig-Holstein). Für Klassenstufe 8 werden die Testergebnisse aus vier Bundesländern (Bremen, Niedersachen, Rheinland-Pfalz, Saarland) ausgewertet.
Das Projekt „kompetenztest.de“ wertet auch die Testergebnisse der Vergleichsarbeiten in Hessen, Mecklenburg-Vorpommern und Sachsen mit diesem Verfahren aus. Allerdings liegen in diesen Ländern keine Längsschnittdaten vor, so dass nur in Thüringen der Vortestwert als Kovariate berücksichtigt werden kann.
Das Vorgehen in Strategie IV ist bis zu diesem Analyseschritt identisch zu Strategie II, wobei in letzterer zumeist nur die Kovariaten Schulart und Geschlecht berücksichtigt werden. Zudem werden in Strategie II die auf diese Weise adjustierten Werte nicht auf Klassenebene aggregiert, sondern pro Kovariatenkonstellation zurückgemeldet. So wird im Rahmen von Strategie II bspw. dem Testleistungsmittelwert der Mädchen einer Gymnasialklasse der Mittelwert aller anderen weiblichen Gymnasiasten vergleichend gegenübergestellt.
Der Vortestwert eines Schülers oder einer Schülerin kann nur dann in die Analyse einbezogen werden, sofern diese Information zur Verfügung steht. Für Individuen, die bspw. aufgrund eines Umzugs erst ab Klassenstufe 8 Teil des Thüringer Schulsystems sind, liegen keine Daten aus früheren Kompetenztests vor.

Literatur

Ackeren, I. van, & Bellenberg, G. (2004). Parallelarbeiten, Vergleichsarbeiten und Zentrale Abschlussprüfungen – Bestandsaufnahme und Perspektiven. In H. G. Holtappels, K. Klemm, H. Pfeiffer, H.-G. Rolff, & R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (S. 125–160). Weinheim: Juventa.
Google Scholar
Baumert, J., & Schümer, G. (2001). Familiäre Lebensverhältnisse, Bildungsbeteiligung und Kompetenzerwerb. In J. Baumert et al. (Hrsg.), PISA 2000– Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 323–410). Opladen: Leske + Budrich.
Google Scholar
Baumert, J., Klieme, E., Neubrand, M., Prenzel, M., Schiefele, U., Schneider, W., Stanat, P., Tillmann, K.-J., & Weiß, M. (Hrsg.). (2001). PISA 2000 – Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Opladen: Leske + Budrich.
Bonsen, M., Bos, W., Gröhlich, C., Harney, B., Imhäuser, K., Makles, A., Schräpler, J.-P., Terpoorten, T., Weishaupt, H., & Wendt, H. (2010). Zur Konstruktion von Sozialindizes – Ein Beitrag zur Analyse sozialräumlicher Benachteiligung von Schulen als Voraussetzung für qualitative Schulentwicklung. Bildungsforschung Band 31, Herausgegeben vom Bundesministerium für Bildung und Forschung (BMBF), Berlin.
Bortz, J. (2005). Statistik: für Human- und Sozialwissenschaftler (6. vollst. überarb. u. aktualisierte Aufl.). Heidelberg: Springer.
Google Scholar
Bos, W., Bonsen, M., Gröhlich, C., Guill, K., May, P., Rau, A., Stubbe, T.C., Vieluf, U., & Wocken, H. (2007). KESS 7 – Kompetenzen und Einstellungen von Schülerinnen und Schülern – Jahrgangsstufe 7. http://www.ifs-dortmund.de/files/KESS-7-Bericht_170309.pdf. Zugegriffen: 14. Mai 2010.
Braun, H., & Wainer, H. (2007). Value-added modeling. In C. R. Rao & S. Sinharay (Hrsg.), Handbook of statistics 26: Psychometrics (S. 867–892). Boston: Elsevier.
Braun, H., Chudowsky, N., & Koenig, J. (2010). Getting value out of value-added: Report of a workshop. Committee on Value-Added Methodology for Instructional Improvement, Program Evaluation, and Accountability; National Research Council.
Briggs, D. C. (2008). The goals and uses of value-added models. Paper prepared for a workshop held by the Committee on Value-Added Methodology for Instructional Improvement, Program Evaluation and Educational Accountability sponsored by the National Research Council and the National Academy of Education, Washington, November 13–14, 2008.
Emmrich, R. (2010). Rückmeldungen VERA 8: Rückmeldeformate und Nutzungsmöglichkeiten Schuljahr 2009/10. http://www.isq-bb.de/uploads/media/VERA8_2010_Rueckmeldungen_Engl.pdf. Zugegriffen: 14. Mai 2010.
Emmrich, R., Harych, P., Hammer, U., & Hüsemann, D. (2010). VERA 8: Vergleichsarbeiten in der Jahrgangsstufe 8 im Schuljahr 2008/2009– Länderbericht Brandenburg. ISQ (Hrsg.). http://www.isq-bb.de/uploads/media/Bericht_Brandenburg_2010_02_15_final.pdf. Zugegriffen: 14. Mai 2010.
Fiege, C. (2007). Faire Vergleiche in Schulleistungsuntersuchungen und ihre kausaltheoretische Grundlage. Unveröffentlichte Diplomarbeit, Friedrich-Schiller-Universität Jena.
Fiege, C., Steyer, R., & Nachtigall, C. (2010, Juli). Which kinds of causal effects are we looking for in educational research? – An application of the theory of causal effects. Vortrag auf dem Symposium on Causality, Dornburg, Deutschland.
Freie und Hansestadt Hamburg, Behörde für Schule und Berufsbildung, Institut für Bildungsmonitoring. (Hrsg.). (2009). Bildungsbericht Hamburg 2009. http://www.bildungsmonitoring.hamburg.de/index.php/file/download/1359. Zugegriffen: 21. Juni 2010.
Hartig, J., & Klieme, E. (2006). Kompetenz und Kompetenzdiagnostik. In K. Schweizer (Hrsg.), Leistung und Leistungsdiagnostik (S. 127–143). Heidelberg: Springer.
Hartig, J., Klieme, E., & Leutner, D. (Hrsg.). (2008). Assessment of competencies in educational settings: State of the art and future prospects. Göttingen: Hogrefe.
Hedges, L. V., & Hedberg, E. C. (2007). Intraclass correlations for planning group-randomized experiments in education. Educational Evaluation and Policy Analysis, 29, 60–87.
Article Google Scholar
Helmke, A., & Hosenfeld, I. (2004). Vergleichsarbeiten – Kompetenzmodelle – Standards. In M. Wosnitza, A. Frey, & R. S. Jäger (Hrsg.), Lernprozesse, Lernumgebungen und Lerndiagnostik. Wissenschaftliche Beiträge zum Lernen im 21. Jahrhundert (S. 56–75). Landau: Verlag Empirische Pädagogik.
Google Scholar
Helmke, A., & Hosenfeld, I. (2005). Standardbasierte Unterrichtsevaluation. In G. Brägger, B. Bucher, & N. Landwehr (Hrsg.), Schlüsselfragen zur externen Schulevaluation (S. 127–151). Bern: h.e.p.
Google Scholar
Helmke, A., Hosenfeld, I., & Schrader, F.-W. (2004). Vergleichsarbeiten als Instrument zur Verbesserung der Diagnosekompetenz von Lehrkräften. In R. Arnold & C. Griese (Hrsg.), Schulleitung und Schulentwicklung (S. 119–144). Hohengehren: Schneider.
Google Scholar
Hovestadt, G., & Kessler, N. (2005). 16 Bundesländer – Eine Übersicht zu Bildungsstandards und Evaluationen. In G. Becker, A. Bremerich-Vos, M. Demmer, K. Maag Merki, B. Priebe, K. Schwippert, L. Stäudel, & K. J. Tillmann (Hrsg.), Standards – Unterrichten zwischen Kompetenzen, zentralen Prüfungen und Vergleichsarbeiten (Friedrich Jahresheft XXIII 2005, S. 8–10). Seelze: Friedrich.
Google Scholar
Isaac, K., & Hosenfeld, I. (2008). Faire Ergebnisrückmeldungen bei Vergleichsarbeiten. In J. Ramseger, & M. Wagener (Hrsg.), Chancenungleichheit in der Grundschule – Ursachen und Wege aus der Krise (S. 143–146). Wiesbaden: VS-Verlag für Sozialwissenschaften.
Chapter Google Scholar
Klieme, E., & Leutner, D. (2006). Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen. Beschreibung eines neu eingerichteten Schwerpunktprogramms der DFG. Z Pädagogik, 52, 876–903.
Google Scholar
Klieme, E., & Hartig, J. (2008). Kompetenzkonzepte in den Sozialwissenschaften und im erziehungswissenschaftlichen Diskurs. In M. Prenzel, I. Gogolin, & H.-H. Krüger (Hrsg.), Kompetenzdiagnostik (Sonderheft 8 der Zeitschrift für Erziehungswissenschaft, S. 11–29). Wiesbaden: VS Verlag für Sozialwissenschaften.
Chapter Google Scholar
KMK (Hrsg.). (2006). Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring. Bonn: LinkLuchterhand.
Google Scholar
Kuper, H., & Schneewind, J. (Hrsg.). (2006). Rückmeldung und Rezeption von Forschungsergebnissen – Zur Verwendung wissenschaftlichen Wissens im Bildungssystem. Münster: Waxmann.
Maier, U. (2008). Vergleichsarbeiten im Vergleich – Akzeptanz und wahrgenommener Nutzen standardbasierter Leistungsmessungen in Baden-Württemberg und Thüringen. Z Erziehungswissensch, 11, 453–474.
Article Google Scholar
McCaffrey, D. F., Lockwood, J. R., Koretz, D., & Hamilton, L. S. (2003). Evaluating value-added models for teacher accountability. Santa Monica: RAND Corporation.
Google Scholar
Meyer, R. (1997). Value-added indicators of school performance: A primer. Economics of Education Review, 16, 283–301.
Article Google Scholar
Mill, J. S. (1843). Of the four methods of experimental inquiry. A system of logic, ratiocinative and inductive: Being a connected view of the principles of evidence, and the methods of scientific investigation (Bd. 1). London: Longmans, Green, and Co.
Google Scholar
Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen. (2005). Zentrale Lernstandserhebungen in Jahrgangsstufe 9 – Schulische Standorttypen und Referenzwerte: Verfahren 2005. http://www.standardsicherung.schulministerium.nrw.de/lernstand8/upload/download/mat_2005/Standorttypenkonzept_2005.pdf. Zugegriffen: 14. Mai 2010.
Moosbrugger, H., & Kelava, A. (Hrsg.). (2007). Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Müller, A. (2010). Rückmeldungen nach Vergleichsarbeiten im Kontext des schulischen Qualitätsmanagements. Drei explorative Studien zu Gestaltung und Rezeption im Anschluss an KOALA-S. Berlin: Mensch und Buch.
Google Scholar
Nachtigall, C., & Kröhne, U. (2006). Methodische Anforderungen an schulische Leistungsmessung – Auf dem Weg zu fairen Vergleichen. In H. Kuper, & J. Schneewind (Hrsg.), Rückmeldung und Rezeption von Forschungsergebnissen – Zur Verwendung wissenschaftlichen Wissens im Bildungssystem (S. 59–74). Münster: Waxmann.
Google Scholar
Nachtigall, C., Kröhne, U., Enders, U., & Steyer, R. (2008). Causal effects and fair comparisons: Considering the influence of context variables on student competencies. In J. Hartig, E. Klieme, & D. Leutner (Hrsg.), Assessment of competencies in educational contexts: State of the art and future prospects (S. 315–336). Göttingen: Hogrefe.
Google Scholar
Nachtigall, C., Storbeck, I., & Landmann, M. (2009). Belastung oder Chance? Zur Nutzung von Vergleichsarbeiten, Lernstandserhebungen, Kompetenztests, Orientierungsarbeiten und Co. Schulleitung und Schulentwicklung, 45, 1–17.
Google Scholar
Orth, G. (2002). Vergleichsarbeiten. In H.-G. Rolff, & J. Schmidt (Hrsg.), Schulaufsicht und Schulleitung in Deutschland. Neuwied: Luchterhand.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research.
Google Scholar
Raudenbush, S. W., & Willms, J. D. (1995). The estimation of school effects. Journal of Educational and Behavioral Statistics, 20, 307–335.
Google Scholar
Rheinberg, F. (2001). Bezugsnormen und schulische Leistungsbeurteilung. In F. E Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 59–71). Weinheim: Beltz.
Google Scholar
Rolff, H.-G. (2002). Rückmeldung und Nutzung der Ergebnisse von großflächigen Leistungsuntersuchungen. Grenzen und Chancen. In R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (S. 75–98). Weinheim: Juventa.
Google Scholar
Schafer, J. L., & Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7, 147–177.
Article Google Scholar
Schrader, F.-W., & Helmke, A. (2008). Determinanten der Schulleistung. In M. Schweer (Hrsg.), Lehrer-Schüler-Interaktion: Inhaltsfelder, Forschungsperspektiven und methodische Zugänge (2. Aufl., S. 285–302). Wiesbaden: VS Verlag für Sozialwissenschaften.
Google Scholar
Steyer, R., Partchev, I., Kröhne, U., Nagengast, B., & Fiege, C. (in Druck). Probability and causality. New York: Springer.
Watermann, R., & Stanat, P. (2004). Schulrückmeldungen in PISA 2000: Sozialnorm- und kriteriumsorientierte Rückmeldeverfahren. Empirische Pädagogik, 18, 40–61.
Google Scholar
Watermann, R., Stanat, P., Kunter, M., Klieme, E., & Baumert, J. (2003). Schulrückmeldungen im Rahmen von Schulleistungsuntersuchungen: Das Disseminationskonzept von PISA-2000. Z Pädagogik, 49, 92–111.
Google Scholar
Wegscheider, K. (2004). Methodische Anforderungen an Einrichtungsvergleiche (‚Profiling‘) im Gesundheitswesen. Z Ärztliche Fortbildung Qualität Gesundheitswesen, 98, 647–654.
Google Scholar
Weinert, F. E. (Hrsg.). (2002). Leistungsmessungen an Schulen. Weinheim: Beltz.

Download references

Author information

Authors and Affiliations

Lehrstuhl für Methodenlehre und Evaluationsforschung, Institut für Psychologie, Friedrich-Schiller-Universität Jena, Projekt Faire Vergleiche, Jena, Deutschland
Christiane Fiege & Franziska Reuther
Lehrstuhl für Methodenlehre und Evaluationsforschung, Institut für Psychologie, Friedrich-Schiller-Universität Jena, Projekt kompetenztest.de, Jena, Deutschland
Christof Nachtigall

Authors

Christiane Fiege
View author publications
You can also search for this author in PubMed Google Scholar
Franziska Reuther
View author publications
You can also search for this author in PubMed Google Scholar
Christof Nachtigall
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Christiane Fiege.

Additional information

Dieser Artikel stellt erste Ergebnisse des Projekts „Faire Vergleiche in der Schulleistungsforschung – Methodologische Grundlagen und Anwendung auf Vergleichsarbeiten“ (siehe URL: http://www.fair.uni-jena.de) dar. Dieses Projekt wird vom Bundesministerium für Bildung und Forschung (BMBF) gemäß dem Rahmenprogramm zur Förderung der empirischen Bildungsforschung finanziert.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Fiege, C., Reuther, F. & Nachtigall, C. Faire Vergleiche? – Berücksichtigung von Kontextbedingungen des Lernens beim Vergleich von Testergebnissen aus deutschen Vergleichsarbeiten. Z f Bildungsforsch 1, 133–149 (2011). https://doi.org/10.1007/s35834-011-0009-x

Download citation

Accepted: 22 March 2011
Published: 14 July 2011
Issue Date: July 2011
DOI: https://doi.org/10.1007/s35834-011-0009-x

Schlüsselwörter

Keywords

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Faire Vergleiche? – Berücksichtigung von Kontextbedingungen des Lernens beim Vergleich von Testergebnissen aus deutschen Vergleichsarbeiten

Zusammenfassung

Abstract

Access this article

Notes

Literatur

Author information

Authors and Affiliations

Corresponding author

Additional information

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Keywords

Search

Navigation