Zusammenfassung
Bei landesweiten Vergleichsarbeiten wird die Auswertung der Test-Items von Lehrkräften auf Basis vorgegebener Manuale eigenständig durchgeführt. Inder vorliegenden Studie wird die Frage untersucht, ob mangelnde Auswertungsobjektivität (hier: mangelnde Manual-Treue) bei der Kodierung der Items durch die Lehrkräfte mit abweichenden Antwortmustern von Schüler-Lösungen in Bezug auf das bei Vergleichsarbeiten häufig verwendete Testmodell von Rasch (1980) einhergeht. Die Testhefte von Schulklassen mit niedriger und mit durchschnittlicher Modellpassung bei den nordrhein-westfälischen Vergleichsarbeiten in der achten Jahrgangsstufe im Fach Mathematik wurden von externen Beurteilern erneut ausgewertet und die Modellpassung und korrespondierende Schätzungen der Schülerkompetenzen dieser neuen Beurteilungen bestimmt. Die Ergebnisse verdeutlichen, dass (1) eine niedrige durchschnittliche Modellpassung dieser Schulklassen auf mangelnde Manual-Treue der Lehrkräfte zurückzuführen ist und dass (2) die Abweichungen im Vergleich zur manual-treuen Auswertung mit höheren mittleren Schülerkompetenzen einhergehen. Implikationen dieses Beurteilungseffektes für die Arbeit mit Vergleichsarbeiten in der Mathematik werden abschließend diskutiert.
Abstract
With state-wide administered large-scale assessments of competencies students’ solutions of test items are independently coded by their teachers according to an instructions manual. The study at hand evaluates whether lack of conformity to the manual by the coding teacher goes along with aberrant responses in the psychometric model of Rasch (1980). Answer sheets of both low and average fitting classes from a state-wide administered large-scale assessment in the German state of Northrhine-Westfalia were re-analysed, and model fit was re-computed. Results show that (1) low fit is correlated with lack of conformity to the manual and that (2) higher scoring ability estimates were computed when being attributed to this lack of conformity. Concluding remarks are given for the work with large-scale assessments of competencies.
Notes
Dieser Vorschlag wurde dem Erstautor während der Veranstaltung „Komm mit! – Fördern statt Sitzenbleiben“ (Münster, 17.04.2010) unterbreitet und fand zu diesem Zeitpunkt im Plenum aus Fachlehrkräften Unterstützung.
Literatur
Birkel, P. (2005). Beurteilungsübereinstimmung bei Mathematikarbeiten? Journal für Mathematik-Didaktik, 26, 28–51.
Bos, W., Hornberg, S., Arnold, K.-H., Faust, G., Fried, L., Lankes, E.-M., Schwippert, K., & Valtin, R. (Hrsg.) (2007). IGLU 2006. Lesekompetenzen von Grundschulkindern in Deutschland im internationalen Vergleich. Münster: Waxmann.
Bruder, R. (2008). Vielseitig mit Aufgaben arbeiten – Mathematische Kompetenzen nachhaltig entwickeln und sichern. In R. Bruder, T. Leuders, & A. Büchter (Hrsg.), Mathematikunterricht entwickeln – Bausteine für kompetenzorientiertes Unterrichten (S. 18–52). Berlin: Cornelsen Scriptor.
Büchter, A., & Leuders, T. (2005a). From students’ achievement to the development of teaching: requirements for feedback in comparative tests. ZDM Zentralblatt für Didaktik der Mathematik, 37, 324–334.
Büchter, A., & Leuders, T. (2005b). Mathematikaufgaben selbst entwickeln. Lernen fördern – Leistung überprüfen. Berlin: Cornelsen Scriptor.
Büchter, A., & Pallack, A. (2012). Methodische Überlegungen und empirische Analysen zur impliziten Standardsetzung durch zentrale Prüfungen. Journal für Mathematik-Didaktik, 33, 59–85.
Christiansen, B., & Walther, G. (1986). Task and activity. In B. Christiansen, A. G. Howson, & M. Otte (Hrsg.), Perspectives on mathematics education (S. 243–307). Dordrecht: Reidel.
Cizek, G. J. (1999). Cheating on tests: how to do it, detect it, and prevent it. Mahwah: Lawrence Erlbaum.
De Boeck, P., Bakker, M., Zwitser, R., Nivard, M., Hofman, A., Tuerlinckx, F., & Partchev, I. (2011). The estimation of item response models with the lmer function from the lme4 package in R. Journal of Statistical Software, 39(12), 1–28.
De Wolf, I. F., & Janssens, F. J. G. (2007). Effects and side effects of inspections and accountability in education: an overview of empirical studies. Oxford Review of Education, 33, 379–396.
Dodeen, H., & Darabi, M. (2009). Person-fit: relationship with four personality tests in mathematics. Research Papers in Education, 24, 115–126.
Eckes, T. (2005). Examining rater effects in TestDaF writing and speaking performance assessments: a many-facet Rasch analysis. Language Assessment Quarterly, 2, 197–221.
Fleischer, J., Spoden, C., Wirth, J., & Leutner, D. (2008). Flächendeckende Lernstandserhebungen – Spezifische Herausforderungen und Lösungsansätze. Das Beispiel lernstand 8 in Nordrhein-Westfalen. In W. Böttcher, W. Bos, H. Döbert, & H. G. Holtappels (Hrsg.), Bildungsmonitoring und Bildungscontrolling in nationaler und internationaler Perspektive. Dokumentation zur Herbsttagung der Kommission Bildungsorganisation planung, -recht (KBBB) (S. 195–207). Münster: Waxmann.
Hadfield, J. D. (2010). MCMC methods for multi-response generalized linear mixed models: the MCMCglmm R package. Journal of Statistical Software, 33(2), 1–22.
Heymann, H. W., & Pallack, A. (2007). Aufgabenkonstruktion für die Lernstandserhebung Mathematik. In Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen (Hrsg.), Lernstandserhebungen Mathematik in Nordrhein-Westfalen. Impulse zum Umgang mit zentralen Tests (S. 14–46). Stuttgart: Klett.
Hosenfeld, I. (2007). September. Wie zuverlässig sind Auswertungen von Vergleichsarbeiten durch Lehrkräfte? Vortrag auf der Tagung der Arbeitsgruppe Empirisch Pädagogische Forschung (AEPF) in Lüneburg.
Hoyt, W. T. (2000). Rater bias in psychological research: when is it a problem and what can we do about it? Psychological Methods, 5, 64–86.
Ingenkamp, K., & Lissmann, U. (2008). Lehrbuch der pädagogischen Diagnostik (6. Aufl.) Weinheim: Beltz.
Jacob, B. A., & Levitt, S. D. (2003a). Rotten apples: an investigation of the prevalence and predictors of teacher cheating. The Quarterly Journal of Economics, 118, 843–877.
Jacob, B. A., & Levitt, S. D. (2003b). Catching cheating teachers: the results of an unusual experiment in implementing theory. In W. G. Gale & J. Rothenberg Pack (Hrsg.), Brookings-Wharton papers on urban affairs (S. 185–209). Washington: Brookings Institution Press.
Kamata, A. (2001). Item analysis by the hierarchical generalized linear model. Journal of Educational Measurement, 38, 79–93.
Karabatsos, G. (2003). Comparing the aberrant response detection performance of thirty-six person-fit statistics. Applied Measurement in Education, 16, 277–298.
Klieme, E., Artelt, C., Hartig, J., Jude, N., Köller, O., Prenzel, M., Schneider, W., & Stanat, P. (Hrsg.) (2010). PISA 2009: Bilanz nach einem Jahrzehnt. Münster: Waxmann.
KMK & IQB (Hrsg.) (2006). Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring. München: Wolters Kluwer.
Köller, O. (2008). Bildungsstandards in Deutschland: Implikationen für die Qualitätssicherung und Unterrichtsqualität. Zeitschrift für Erziehungswissenschaft (Sonderheft), 9, 47–59.
Kubiszyn, T., & Borich, G. D. (2009). Educational testing and measurement: classroom application and practice. Hoboken: Wiley.
Kühle, B., & Peek, R. (2007). Lernstandserhebungen in Nordrhein-Westfalen. Evaluationsbefunde zur Rezeption und zum Umgang mit Ergebnisrückmeldungen in Schulen. Empirische Pädagogik, 21, 428–447.
Leisen, J. (2006). Aufgabenkultur im mathematisch-naturwissenschaftlichen Unterricht. Der mathematische und naturwissenschaftliche Unterricht, 59, 260–266.
Leuders, T., Barzel, B., & Hußmann, S. (2005). Outcome standards and core curricula: a new orientation for mathematics teachers in Germany. ZDM Zentralblatt für Didaktik der Mathematik, 37, 275–286.
Leutner, D., Fleischer, J., Spoden, C., & Wirth, J. (2007). Landesweite Lernstandserhebungen zwischen Bildungsmonitoring und Individualdiagnostik. Zeitschrift für Erziehungswissenschaft (Sonderheft), 8, 149–167.
Marx, A., & Rinkens, H.-D. (2008). Anforderungsmerkmale der MT21-Items und ihre Weiterentwicklung aus mathematikdidaktischer Sieht. In S. Blömeke, G. Kaiser, & R. Lehmann (Hrsg.), Professionelle Kompetenz angehender Lehrerinnen und Lehrer (S. 425–452). Münster: Waxmann
Meijer, R. R. (1997). Person-fit and criterion-related validity: an extension of the Schmitt, Cortina and Whitney study. Applied Psychological Measurement, 21, 99–113.
Meijer, R. R., & Nering, M. L. (1997). Trait level estimation for nonfitting response vectors. Applied Psychological Measurement, 21, 321–336.
Meijer, R. R., & Sijtsma, K. (2001). Methodology review: evaluating person fit. Applied Psychological Measurement, 25, 107–135.
Miller, M. D. (1986). Time allocation and patterns of item response. Journal of Educational Measurement, 23, 147–156.
Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen (2007). Kernlehrplan für das Gymnasium – Sekundarstufe I (G8) in Nordrhein-Westfalen. Mathematik. Frechen: Ritterbach.
Pallack, A., Dobbelstein, P., & Peek, R. (2005). Zentrale Lernstandserhebungen (Jahrgangsstufe 9) in Nordrhein-Westfalen – Konzeption. Durchführung und erste Ergebnisse zu den Fachleistungen in Mathematik im Schuljahr 2004/2005. Der mathematische und naturwissenschaftliche Unterricht, 58, 496–503.
Petridou, A., & Williams, J. (2007). Accounting for aberrant test responses using multilevel models. Journal of Educational Measurement, 44, 227–247.
Rabe-Hesketh, S., & Skrondal, A. (2010). Generalized linear mixed models. In P. Peterson, E. Baker, & B. McGaw (Hrsg.), International encyclopedia of education (3 Aufl., S. 171–177). Oxford: Elsevier.
Rasch, G. (1980). Probabilistic models for some intelligence or attainment tests (erweiterte Aufl.). Chicago: University of Chicago Press.
Rost, J. (2004). Lehrbuch Testtheorie-Testkonstruktion (2., vollständig überarbeitete und erweiterte Aufl.). Bern: Huber.
Sijtsma, K. (1986). A coefficient of deviant response patterns. Kwantitative Methoden, 7, 131–145.
Sijtsma, K., & Meijer, R. R. (1992). A method for investigating the intersection of item response function in Mokken’s non-parametric IRT model. Applied Psychological Measurement, 16, 149–157.
Schrader, F.-W., Helmke, A., Hosenfeld, I., Halt, A. C., & Hochweber, J. (2006). Komponenten der Diagnosegenauigkeit von Lehrkräften: Ergebnisse aus Vergleichsarbeiten in der Grundschule. In F. Eder, A. Gastager, & F. Hofmann (Hrsg.), Qualität durch Standards? Beiträge zum Schwerpunktthema der 67. Tagung der AEPF (S. 265–278). Münster: Waxmann.
Schukajlow, S. (2011). Mathematisches Modellieren. Schwierigkeiten und Strategien von Lernenden als Bausteine einer lernprozessorientierten Didaktik der neuen Aufgabenkultur. Münster: Waxmann.
Werner, J. (1997). Lineare Statistik. Weinheim: Beltz.
West, B. T., Welch, K. B., & Galecki, A. T. (2007). Linear mixed models: a practical guide to using statistical software. New York: Chapman & Hall/CRC.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Spoden, C., Fleischer, J. & Leutner, D. Niedrige Testmodellpassung als Resultat mangelnder Auswertungsobjektivität bei der Kodierung landesweiter Vergleichsarbeiten durch Lehrkräfte. J Math Didakt 35, 79–99 (2014). https://doi.org/10.1007/s13138-013-0056-z
Received:
Accepted:
Published:
Issue Date:
DOI: https://doi.org/10.1007/s13138-013-0056-z