Zusammenfassung
Eine wesentliche Säule der Gesamtstrategie zum Bildungsmonitoring (KMK 2006) bilden die landesweiten Vergleichsarbeiten. Diese erheben den Lern- und Leistungsstand von Schülern mittels standardisierter Tests, welche den Vergleich der Schülerleistungen zwischen verschiedenen Klassen ermöglichen. Daraus werden u. a. Aussagen über Unterrichtseffekte auf die Schülerleistung abgeleitet, die Grundlage für Unterrichtsentwicklungsmaßnahmen sein sollen. Ein Problem bei solchen Vergleichen ist, dass Klassenunterschiede nicht nur aufgrund der Unterrichtseffekte zustande kommen können, sondern auch aufgrund unterschiedlicher Ausgangsvoraussetzungen der Schüler (z. B. ihr sozioökonomischer Status). Deshalb werden bspw. einfache Mittelwertsvergleiche der Testleistungen verschiedener Klassen als unfair angesehen. Für faire Vergleiche müssen Adjustierungsverfahren verwendet werden, um diesen Unterschieden Rechnung zu tragen.
Der vorliegende Beitrag stellt die Bedeutung und Anwendung fairer Vergleiche im Kontext von deutschen Vergleichsarbeiten dar. Vor diesem Hintergrund werden die derzeit verwendeten statistischen Adjustierungsverfahren systematisiert, um sie hinsichtlich der Fairness sowie Praktikabilitätskriterien beurteilen zu können.
Abstract
The Standing Conference of the Ministers of Education and Cultural Affairs of the German states (KMK 2006) is currently conducting extensive monitoring of educational achievement in Germany. An important part of these efforts are the so-called “Vergleichsarbeiten” (comparative performance tests) that aim at assessing student achievement with standardized tests. By measuring students’ achievement on one common scale, these tests allow for comparing the achievement scores of classes to assess the effects of instruction on students’ outcomes. An ultimate goal of these comparisons is to identify and develop successful classroom practices. Unadjusted comparisons between classes—in the sense of naïve mean comparisons—are not fair because differences between the average achievement levels may result not only from school practice (e.g. teachers’ performance) but also from pre-existing differences among students, such as socio economic status. In order to yield unbiased comparisons, adjustment procedures need to be implemented.
This article describes the significance and the implementation of fair comparisons in the context of comparative performance testing in Germany. Against this background, the currently implemented adjustment procedures are systematically evaluated in terms of fairness and practicability.
Notes
Der Begriff Kovariaten bezieht sich im Folgenden sowohl auf individuelle Merkmale von Schülern, als auch auf Kontextvariablen.
Im Rahmen von Adjustierungsverfahren werden Zusammenhänge zwischen Variablen – hier der Testleistung der Schüler und den Kovariaten – mittels mathematischer Modelle dargestellt. Voraussetzung dabei ist, dass das gewählte statistische Modell die tatsächlichen Zusammenhänge zwischen diesen Variablen abbildet. Dabei gibt es eine Vielzahl mathematischer Modelle, deren detaillierte Darstellung jedoch weit über den Rahmen dieses Artikels hinaus geht. Der interessierte Leser sei auf weiterführende Literatur wie bspw. Bortz (2005) verwiesen.
Ab dem Jahr 2010 werden im Rahmen der Rückmeldungen zu Lernstand 8 in Hamburg die schulartspezifischen Mittelwerte (also bspw. die mittlere Testleistung aller Haupt- und Realschulen) als Referenzwerte zurückgemeldet. Außerdem kann sich eine Schule hinsichtlich der schulartspezifischen Kompetenzniveauverteilungen vergleichen (F. Thonke, persönl. Mitteilung, 08.06.2010). Dieses Vorgehen entspricht nun also dem Vorgehen gemäß Strategie II.
Dabei wird die Annahme gemacht, dass der Einzugsbereich einer Schule und der soziale Hintergrund der Schüler über mehrere Jahre relativ stabil bleibt (vgl. Freie und Hansestadt Hamburg 2009).
Das Projekt VERA in Landau wertet derzeit die Testergebnisse der Vergleichsarbeiten in Klassenstufe 3 für insgesamt acht Bundesländer aus (Baden-Württemberg, Bremen, Mecklenburg-Vorpommern, Niedersachen, Nordrhein-Westfalen, Rheinland-Pfalz, Saarland, Schleswig-Holstein). Für Klassenstufe 8 werden die Testergebnisse aus vier Bundesländern (Bremen, Niedersachen, Rheinland-Pfalz, Saarland) ausgewertet.
Das Projekt „kompetenztest.de“ wertet auch die Testergebnisse der Vergleichsarbeiten in Hessen, Mecklenburg-Vorpommern und Sachsen mit diesem Verfahren aus. Allerdings liegen in diesen Ländern keine Längsschnittdaten vor, so dass nur in Thüringen der Vortestwert als Kovariate berücksichtigt werden kann.
Das Vorgehen in Strategie IV ist bis zu diesem Analyseschritt identisch zu Strategie II, wobei in letzterer zumeist nur die Kovariaten Schulart und Geschlecht berücksichtigt werden. Zudem werden in Strategie II die auf diese Weise adjustierten Werte nicht auf Klassenebene aggregiert, sondern pro Kovariatenkonstellation zurückgemeldet. So wird im Rahmen von Strategie II bspw. dem Testleistungsmittelwert der Mädchen einer Gymnasialklasse der Mittelwert aller anderen weiblichen Gymnasiasten vergleichend gegenübergestellt.
Der Vortestwert eines Schülers oder einer Schülerin kann nur dann in die Analyse einbezogen werden, sofern diese Information zur Verfügung steht. Für Individuen, die bspw. aufgrund eines Umzugs erst ab Klassenstufe 8 Teil des Thüringer Schulsystems sind, liegen keine Daten aus früheren Kompetenztests vor.
Literatur
Ackeren, I. van, & Bellenberg, G. (2004). Parallelarbeiten, Vergleichsarbeiten und Zentrale Abschlussprüfungen – Bestandsaufnahme und Perspektiven. In H. G. Holtappels, K. Klemm, H. Pfeiffer, H.-G. Rolff, & R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (S. 125–160). Weinheim: Juventa.
Baumert, J., & Schümer, G. (2001). Familiäre Lebensverhältnisse, Bildungsbeteiligung und Kompetenzerwerb. In J. Baumert et al. (Hrsg.), PISA 2000– Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 323–410). Opladen: Leske + Budrich.
Baumert, J., Klieme, E., Neubrand, M., Prenzel, M., Schiefele, U., Schneider, W., Stanat, P., Tillmann, K.-J., & Weiß, M. (Hrsg.). (2001). PISA 2000 – Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Opladen: Leske + Budrich.
Bonsen, M., Bos, W., Gröhlich, C., Harney, B., Imhäuser, K., Makles, A., Schräpler, J.-P., Terpoorten, T., Weishaupt, H., & Wendt, H. (2010). Zur Konstruktion von Sozialindizes – Ein Beitrag zur Analyse sozialräumlicher Benachteiligung von Schulen als Voraussetzung für qualitative Schulentwicklung. Bildungsforschung Band 31, Herausgegeben vom Bundesministerium für Bildung und Forschung (BMBF), Berlin.
Bortz, J. (2005). Statistik: für Human- und Sozialwissenschaftler (6. vollst. überarb. u. aktualisierte Aufl.). Heidelberg: Springer.
Bos, W., Bonsen, M., Gröhlich, C., Guill, K., May, P., Rau, A., Stubbe, T.C., Vieluf, U., & Wocken, H. (2007). KESS 7 – Kompetenzen und Einstellungen von Schülerinnen und Schülern – Jahrgangsstufe 7. http://www.ifs-dortmund.de/files/KESS-7-Bericht_170309.pdf. Zugegriffen: 14. Mai 2010.
Braun, H., & Wainer, H. (2007). Value-added modeling. In C. R. Rao & S. Sinharay (Hrsg.), Handbook of statistics 26: Psychometrics (S. 867–892). Boston: Elsevier.
Braun, H., Chudowsky, N., & Koenig, J. (2010). Getting value out of value-added: Report of a workshop. Committee on Value-Added Methodology for Instructional Improvement, Program Evaluation, and Accountability; National Research Council.
Briggs, D. C. (2008). The goals and uses of value-added models. Paper prepared for a workshop held by the Committee on Value-Added Methodology for Instructional Improvement, Program Evaluation and Educational Accountability sponsored by the National Research Council and the National Academy of Education, Washington, November 13–14, 2008.
Emmrich, R. (2010). Rückmeldungen VERA 8: Rückmeldeformate und Nutzungsmöglichkeiten Schuljahr 2009/10. http://www.isq-bb.de/uploads/media/VERA8_2010_Rueckmeldungen_Engl.pdf. Zugegriffen: 14. Mai 2010.
Emmrich, R., Harych, P., Hammer, U., & Hüsemann, D. (2010). VERA 8: Vergleichsarbeiten in der Jahrgangsstufe 8 im Schuljahr 2008/2009– Länderbericht Brandenburg. ISQ (Hrsg.). http://www.isq-bb.de/uploads/media/Bericht_Brandenburg_2010_02_15_final.pdf. Zugegriffen: 14. Mai 2010.
Fiege, C. (2007). Faire Vergleiche in Schulleistungsuntersuchungen und ihre kausaltheoretische Grundlage. Unveröffentlichte Diplomarbeit, Friedrich-Schiller-Universität Jena.
Fiege, C., Steyer, R., & Nachtigall, C. (2010, Juli). Which kinds of causal effects are we looking for in educational research? – An application of the theory of causal effects. Vortrag auf dem Symposium on Causality, Dornburg, Deutschland.
Freie und Hansestadt Hamburg, Behörde für Schule und Berufsbildung, Institut für Bildungsmonitoring. (Hrsg.). (2009). Bildungsbericht Hamburg 2009. http://www.bildungsmonitoring.hamburg.de/index.php/file/download/1359. Zugegriffen: 21. Juni 2010.
Hartig, J., & Klieme, E. (2006). Kompetenz und Kompetenzdiagnostik. In K. Schweizer (Hrsg.), Leistung und Leistungsdiagnostik (S. 127–143). Heidelberg: Springer.
Hartig, J., Klieme, E., & Leutner, D. (Hrsg.). (2008). Assessment of competencies in educational settings: State of the art and future prospects. Göttingen: Hogrefe.
Hedges, L. V., & Hedberg, E. C. (2007). Intraclass correlations for planning group-randomized experiments in education. Educational Evaluation and Policy Analysis, 29, 60–87.
Helmke, A., & Hosenfeld, I. (2004). Vergleichsarbeiten – Kompetenzmodelle – Standards. In M. Wosnitza, A. Frey, & R. S. Jäger (Hrsg.), Lernprozesse, Lernumgebungen und Lerndiagnostik. Wissenschaftliche Beiträge zum Lernen im 21. Jahrhundert (S. 56–75). Landau: Verlag Empirische Pädagogik.
Helmke, A., & Hosenfeld, I. (2005). Standardbasierte Unterrichtsevaluation. In G. Brägger, B. Bucher, & N. Landwehr (Hrsg.), Schlüsselfragen zur externen Schulevaluation (S. 127–151). Bern: h.e.p.
Helmke, A., Hosenfeld, I., & Schrader, F.-W. (2004). Vergleichsarbeiten als Instrument zur Verbesserung der Diagnosekompetenz von Lehrkräften. In R. Arnold & C. Griese (Hrsg.), Schulleitung und Schulentwicklung (S. 119–144). Hohengehren: Schneider.
Hovestadt, G., & Kessler, N. (2005). 16 Bundesländer – Eine Übersicht zu Bildungsstandards und Evaluationen. In G. Becker, A. Bremerich-Vos, M. Demmer, K. Maag Merki, B. Priebe, K. Schwippert, L. Stäudel, & K. J. Tillmann (Hrsg.), Standards – Unterrichten zwischen Kompetenzen, zentralen Prüfungen und Vergleichsarbeiten (Friedrich Jahresheft XXIII 2005, S. 8–10). Seelze: Friedrich.
Isaac, K., & Hosenfeld, I. (2008). Faire Ergebnisrückmeldungen bei Vergleichsarbeiten. In J. Ramseger, & M. Wagener (Hrsg.), Chancenungleichheit in der Grundschule – Ursachen und Wege aus der Krise (S. 143–146). Wiesbaden: VS-Verlag für Sozialwissenschaften.
Klieme, E., & Leutner, D. (2006). Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen. Beschreibung eines neu eingerichteten Schwerpunktprogramms der DFG. Z Pädagogik, 52, 876–903.
Klieme, E., & Hartig, J. (2008). Kompetenzkonzepte in den Sozialwissenschaften und im erziehungswissenschaftlichen Diskurs. In M. Prenzel, I. Gogolin, & H.-H. Krüger (Hrsg.), Kompetenzdiagnostik (Sonderheft 8 der Zeitschrift für Erziehungswissenschaft, S. 11–29). Wiesbaden: VS Verlag für Sozialwissenschaften.
KMK (Hrsg.). (2006). Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring. Bonn: LinkLuchterhand.
Kuper, H., & Schneewind, J. (Hrsg.). (2006). Rückmeldung und Rezeption von Forschungsergebnissen – Zur Verwendung wissenschaftlichen Wissens im Bildungssystem. Münster: Waxmann.
Maier, U. (2008). Vergleichsarbeiten im Vergleich – Akzeptanz und wahrgenommener Nutzen standardbasierter Leistungsmessungen in Baden-Württemberg und Thüringen. Z Erziehungswissensch, 11, 453–474.
McCaffrey, D. F., Lockwood, J. R., Koretz, D., & Hamilton, L. S. (2003). Evaluating value-added models for teacher accountability. Santa Monica: RAND Corporation.
Meyer, R. (1997). Value-added indicators of school performance: A primer. Economics of Education Review, 16, 283–301.
Mill, J. S. (1843). Of the four methods of experimental inquiry. A system of logic, ratiocinative and inductive: Being a connected view of the principles of evidence, and the methods of scientific investigation (Bd. 1). London: Longmans, Green, and Co.
Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen. (2005). Zentrale Lernstandserhebungen in Jahrgangsstufe 9 – Schulische Standorttypen und Referenzwerte: Verfahren 2005. http://www.standardsicherung.schulministerium.nrw.de/lernstand8/upload/download/mat_2005/Standorttypenkonzept_2005.pdf. Zugegriffen: 14. Mai 2010.
Moosbrugger, H., & Kelava, A. (Hrsg.). (2007). Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Müller, A. (2010). Rückmeldungen nach Vergleichsarbeiten im Kontext des schulischen Qualitätsmanagements. Drei explorative Studien zu Gestaltung und Rezeption im Anschluss an KOALA-S. Berlin: Mensch und Buch.
Nachtigall, C., & Kröhne, U. (2006). Methodische Anforderungen an schulische Leistungsmessung – Auf dem Weg zu fairen Vergleichen. In H. Kuper, & J. Schneewind (Hrsg.), Rückmeldung und Rezeption von Forschungsergebnissen – Zur Verwendung wissenschaftlichen Wissens im Bildungssystem (S. 59–74). Münster: Waxmann.
Nachtigall, C., Kröhne, U., Enders, U., & Steyer, R. (2008). Causal effects and fair comparisons: Considering the influence of context variables on student competencies. In J. Hartig, E. Klieme, & D. Leutner (Hrsg.), Assessment of competencies in educational contexts: State of the art and future prospects (S. 315–336). Göttingen: Hogrefe.
Nachtigall, C., Storbeck, I., & Landmann, M. (2009). Belastung oder Chance? Zur Nutzung von Vergleichsarbeiten, Lernstandserhebungen, Kompetenztests, Orientierungsarbeiten und Co. Schulleitung und Schulentwicklung, 45, 1–17.
Orth, G. (2002). Vergleichsarbeiten. In H.-G. Rolff, & J. Schmidt (Hrsg.), Schulaufsicht und Schulleitung in Deutschland. Neuwied: Luchterhand.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research.
Raudenbush, S. W., & Willms, J. D. (1995). The estimation of school effects. Journal of Educational and Behavioral Statistics, 20, 307–335.
Rheinberg, F. (2001). Bezugsnormen und schulische Leistungsbeurteilung. In F. E Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 59–71). Weinheim: Beltz.
Rolff, H.-G. (2002). Rückmeldung und Nutzung der Ergebnisse von großflächigen Leistungsuntersuchungen. Grenzen und Chancen. In R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (S. 75–98). Weinheim: Juventa.
Schafer, J. L., & Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7, 147–177.
Schrader, F.-W., & Helmke, A. (2008). Determinanten der Schulleistung. In M. Schweer (Hrsg.), Lehrer-Schüler-Interaktion: Inhaltsfelder, Forschungsperspektiven und methodische Zugänge (2. Aufl., S. 285–302). Wiesbaden: VS Verlag für Sozialwissenschaften.
Steyer, R., Partchev, I., Kröhne, U., Nagengast, B., & Fiege, C. (in Druck). Probability and causality. New York: Springer.
Watermann, R., & Stanat, P. (2004). Schulrückmeldungen in PISA 2000: Sozialnorm- und kriteriumsorientierte Rückmeldeverfahren. Empirische Pädagogik, 18, 40–61.
Watermann, R., Stanat, P., Kunter, M., Klieme, E., & Baumert, J. (2003). Schulrückmeldungen im Rahmen von Schulleistungsuntersuchungen: Das Disseminationskonzept von PISA-2000. Z Pädagogik, 49, 92–111.
Wegscheider, K. (2004). Methodische Anforderungen an Einrichtungsvergleiche (‚Profiling‘) im Gesundheitswesen. Z Ärztliche Fortbildung Qualität Gesundheitswesen, 98, 647–654.
Weinert, F. E. (Hrsg.). (2002). Leistungsmessungen an Schulen. Weinheim: Beltz.
Author information
Authors and Affiliations
Corresponding author
Additional information
Dieser Artikel stellt erste Ergebnisse des Projekts „Faire Vergleiche in der Schulleistungsforschung – Methodologische Grundlagen und Anwendung auf Vergleichsarbeiten“ (siehe URL: http://www.fair.uni-jena.de) dar. Dieses Projekt wird vom Bundesministerium für Bildung und Forschung (BMBF) gemäß dem Rahmenprogramm zur Förderung der empirischen Bildungsforschung finanziert.
Rights and permissions
About this article
Cite this article
Fiege, C., Reuther, F. & Nachtigall, C. Faire Vergleiche? – Berücksichtigung von Kontextbedingungen des Lernens beim Vergleich von Testergebnissen aus deutschen Vergleichsarbeiten. Z f Bildungsforsch 1, 133–149 (2011). https://doi.org/10.1007/s35834-011-0009-x
Accepted:
Published:
Issue Date:
DOI: https://doi.org/10.1007/s35834-011-0009-x