Skip to main content
Log in

Niedrige Testmodellpassung als Resultat mangelnder Auswertungsobjektivität bei der Kodierung landesweiter Vergleichsarbeiten durch Lehrkräfte

Low Test Model Fit and Teacher Rater Bias—Results from a State-Wide Administered Large-Scale Assessment of Competencies

  • Originalarbeit/Original Article
  • Published:
Journal für Mathematik-Didaktik Aims and scope Submit manuscript

Zusammenfassung

Bei landesweiten Vergleichsarbeiten wird die Auswertung der Test-Items von Lehrkräften auf Basis vorgegebener Manuale eigenständig durchgeführt. Inder vorliegenden Studie wird die Frage untersucht, ob mangelnde Auswertungsobjektivität (hier: mangelnde Manual-Treue) bei der Kodierung der Items durch die Lehrkräfte mit abweichenden Antwortmustern von Schüler-Lösungen in Bezug auf das bei Vergleichsarbeiten häufig verwendete Testmodell von Rasch (1980) einhergeht. Die Testhefte von Schulklassen mit niedriger und mit durchschnittlicher Modellpassung bei den nordrhein-westfälischen Vergleichsarbeiten in der achten Jahrgangsstufe im Fach Mathematik wurden von externen Beurteilern erneut ausgewertet und die Modellpassung und korrespondierende Schätzungen der Schülerkompetenzen dieser neuen Beurteilungen bestimmt. Die Ergebnisse verdeutlichen, dass (1) eine niedrige durchschnittliche Modellpassung dieser Schulklassen auf mangelnde Manual-Treue der Lehrkräfte zurückzuführen ist und dass (2) die Abweichungen im Vergleich zur manual-treuen Auswertung mit höheren mittleren Schülerkompetenzen einhergehen. Implikationen dieses Beurteilungseffektes für die Arbeit mit Vergleichsarbeiten in der Mathematik werden abschließend diskutiert.

Abstract

With state-wide administered large-scale assessments of competencies students’ solutions of test items are independently coded by their teachers according to an instructions manual. The study at hand evaluates whether lack of conformity to the manual by the coding teacher goes along with aberrant responses in the psychometric model of Rasch (1980). Answer sheets of both low and average fitting classes from a state-wide administered large-scale assessment in the German state of Northrhine-Westfalia were re-analysed, and model fit was re-computed. Results show that (1) low fit is correlated with lack of conformity to the manual and that (2) higher scoring ability estimates were computed when being attributed to this lack of conformity. Concluding remarks are given for the work with large-scale assessments of competencies.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Abb. 1
Abb. 2

Notes

  1. Dieser Vorschlag wurde dem Erstautor während der Veranstaltung „Komm mit! – Fördern statt Sitzenbleiben“ (Münster, 17.04.2010) unterbreitet und fand zu diesem Zeitpunkt im Plenum aus Fachlehrkräften Unterstützung.

Literatur

  • Birkel, P. (2005). Beurteilungsübereinstimmung bei Mathematikarbeiten? Journal für Mathematik-Didaktik, 26, 28–51.

    Article  Google Scholar 

  • Bos, W., Hornberg, S., Arnold, K.-H., Faust, G., Fried, L., Lankes, E.-M., Schwippert, K., & Valtin, R. (Hrsg.) (2007). IGLU 2006. Lesekompetenzen von Grundschulkindern in Deutschland im internationalen Vergleich. Münster: Waxmann.

    Google Scholar 

  • Bruder, R. (2008). Vielseitig mit Aufgaben arbeiten – Mathematische Kompetenzen nachhaltig entwickeln und sichern. In R. Bruder, T. Leuders, & A. Büchter (Hrsg.), Mathematikunterricht entwickeln – Bausteine für kompetenzorientiertes Unterrichten (S. 18–52). Berlin: Cornelsen Scriptor.

    Google Scholar 

  • Büchter, A., & Leuders, T. (2005a). From students’ achievement to the development of teaching: requirements for feedback in comparative tests. ZDM Zentralblatt für Didaktik der Mathematik, 37, 324–334.

    Article  Google Scholar 

  • Büchter, A., & Leuders, T. (2005b). Mathematikaufgaben selbst entwickeln. Lernen fördern – Leistung überprüfen. Berlin: Cornelsen Scriptor.

    Google Scholar 

  • Büchter, A., & Pallack, A. (2012). Methodische Überlegungen und empirische Analysen zur impliziten Standardsetzung durch zentrale Prüfungen. Journal für Mathematik-Didaktik, 33, 59–85.

    Article  Google Scholar 

  • Christiansen, B., & Walther, G. (1986). Task and activity. In B. Christiansen, A. G. Howson, & M. Otte (Hrsg.), Perspectives on mathematics education (S. 243–307). Dordrecht: Reidel.

    Chapter  Google Scholar 

  • Cizek, G. J. (1999). Cheating on tests: how to do it, detect it, and prevent it. Mahwah: Lawrence Erlbaum.

    Google Scholar 

  • De Boeck, P., Bakker, M., Zwitser, R., Nivard, M., Hofman, A., Tuerlinckx, F., & Partchev, I. (2011). The estimation of item response models with the lmer function from the lme4 package in R. Journal of Statistical Software, 39(12), 1–28.

    Google Scholar 

  • De Wolf, I. F., & Janssens, F. J. G. (2007). Effects and side effects of inspections and accountability in education: an overview of empirical studies. Oxford Review of Education, 33, 379–396.

    Article  Google Scholar 

  • Dodeen, H., & Darabi, M. (2009). Person-fit: relationship with four personality tests in mathematics. Research Papers in Education, 24, 115–126.

    Article  Google Scholar 

  • Eckes, T. (2005). Examining rater effects in TestDaF writing and speaking performance assessments: a many-facet Rasch analysis. Language Assessment Quarterly, 2, 197–221.

    Article  Google Scholar 

  • Fleischer, J., Spoden, C., Wirth, J., & Leutner, D. (2008). Flächendeckende Lernstandserhebungen – Spezifische Herausforderungen und Lösungsansätze. Das Beispiel lernstand 8 in Nordrhein-Westfalen. In W. Böttcher, W. Bos, H. Döbert, & H. G. Holtappels (Hrsg.), Bildungsmonitoring und Bildungscontrolling in nationaler und internationaler Perspektive. Dokumentation zur Herbsttagung der Kommission Bildungsorganisation planung, -recht (KBBB) (S. 195–207). Münster: Waxmann.

    Google Scholar 

  • Hadfield, J. D. (2010). MCMC methods for multi-response generalized linear mixed models: the MCMCglmm R package. Journal of Statistical Software, 33(2), 1–22.

    Google Scholar 

  • Heymann, H. W., & Pallack, A. (2007). Aufgabenkonstruktion für die Lernstandserhebung Mathematik. In Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen (Hrsg.), Lernstandserhebungen Mathematik in Nordrhein-Westfalen. Impulse zum Umgang mit zentralen Tests (S. 14–46). Stuttgart: Klett.

    Google Scholar 

  • Hosenfeld, I. (2007). September. Wie zuverlässig sind Auswertungen von Vergleichsarbeiten durch Lehrkräfte? Vortrag auf der Tagung der Arbeitsgruppe Empirisch Pädagogische Forschung (AEPF) in Lüneburg.

  • Hoyt, W. T. (2000). Rater bias in psychological research: when is it a problem and what can we do about it? Psychological Methods, 5, 64–86.

    Article  Google Scholar 

  • Ingenkamp, K., & Lissmann, U. (2008). Lehrbuch der pädagogischen Diagnostik (6. Aufl.) Weinheim: Beltz.

    Google Scholar 

  • Jacob, B. A., & Levitt, S. D. (2003a). Rotten apples: an investigation of the prevalence and predictors of teacher cheating. The Quarterly Journal of Economics, 118, 843–877.

    Article  Google Scholar 

  • Jacob, B. A., & Levitt, S. D. (2003b). Catching cheating teachers: the results of an unusual experiment in implementing theory. In W. G. Gale & J. Rothenberg Pack (Hrsg.), Brookings-Wharton papers on urban affairs (S. 185–209). Washington: Brookings Institution Press.

    Google Scholar 

  • Kamata, A. (2001). Item analysis by the hierarchical generalized linear model. Journal of Educational Measurement, 38, 79–93.

    Article  Google Scholar 

  • Karabatsos, G. (2003). Comparing the aberrant response detection performance of thirty-six person-fit statistics. Applied Measurement in Education, 16, 277–298.

    Article  Google Scholar 

  • Klieme, E., Artelt, C., Hartig, J., Jude, N., Köller, O., Prenzel, M., Schneider, W., & Stanat, P. (Hrsg.) (2010). PISA 2009: Bilanz nach einem Jahrzehnt. Münster: Waxmann.

    Google Scholar 

  • KMK & IQB (Hrsg.) (2006). Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring. München: Wolters Kluwer.

    Google Scholar 

  • Köller, O. (2008). Bildungsstandards in Deutschland: Implikationen für die Qualitätssicherung und Unterrichtsqualität. Zeitschrift für Erziehungswissenschaft (Sonderheft), 9, 47–59.

    Google Scholar 

  • Kubiszyn, T., & Borich, G. D. (2009). Educational testing and measurement: classroom application and practice. Hoboken: Wiley.

    Google Scholar 

  • Kühle, B., & Peek, R. (2007). Lernstandserhebungen in Nordrhein-Westfalen. Evaluationsbefunde zur Rezeption und zum Umgang mit Ergebnisrückmeldungen in Schulen. Empirische Pädagogik, 21, 428–447.

    Google Scholar 

  • Leisen, J. (2006). Aufgabenkultur im mathematisch-naturwissenschaftlichen Unterricht. Der mathematische und naturwissenschaftliche Unterricht, 59, 260–266.

    Google Scholar 

  • Leuders, T., Barzel, B., & Hußmann, S. (2005). Outcome standards and core curricula: a new orientation for mathematics teachers in Germany. ZDM Zentralblatt für Didaktik der Mathematik, 37, 275–286.

    Article  Google Scholar 

  • Leutner, D., Fleischer, J., Spoden, C., & Wirth, J. (2007). Landesweite Lernstandserhebungen zwischen Bildungsmonitoring und Individualdiagnostik. Zeitschrift für Erziehungswissenschaft (Sonderheft), 8, 149–167.

    Google Scholar 

  • Marx, A., & Rinkens, H.-D. (2008). Anforderungsmerkmale der MT21-Items und ihre Weiterentwicklung aus mathematikdidaktischer Sieht. In S. Blömeke, G. Kaiser, & R. Lehmann (Hrsg.), Professionelle Kompetenz angehender Lehrerinnen und Lehrer (S. 425–452). Münster: Waxmann

    Google Scholar 

  • Meijer, R. R. (1997). Person-fit and criterion-related validity: an extension of the Schmitt, Cortina and Whitney study. Applied Psychological Measurement, 21, 99–113.

    Article  Google Scholar 

  • Meijer, R. R., & Nering, M. L. (1997). Trait level estimation for nonfitting response vectors. Applied Psychological Measurement, 21, 321–336.

    Article  Google Scholar 

  • Meijer, R. R., & Sijtsma, K. (2001). Methodology review: evaluating person fit. Applied Psychological Measurement, 25, 107–135.

    Article  Google Scholar 

  • Miller, M. D. (1986). Time allocation and patterns of item response. Journal of Educational Measurement, 23, 147–156.

    Article  Google Scholar 

  • Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen (2007). Kernlehrplan für das Gymnasium – Sekundarstufe I (G8) in Nordrhein-Westfalen. Mathematik. Frechen: Ritterbach.

    Google Scholar 

  • Pallack, A., Dobbelstein, P., & Peek, R. (2005). Zentrale Lernstandserhebungen (Jahrgangsstufe 9) in Nordrhein-Westfalen – Konzeption. Durchführung und erste Ergebnisse zu den Fachleistungen in Mathematik im Schuljahr 2004/2005. Der mathematische und naturwissenschaftliche Unterricht, 58, 496–503.

    Google Scholar 

  • Petridou, A., & Williams, J. (2007). Accounting for aberrant test responses using multilevel models. Journal of Educational Measurement, 44, 227–247.

    Article  Google Scholar 

  • Rabe-Hesketh, S., & Skrondal, A. (2010). Generalized linear mixed models. In P. Peterson, E. Baker, & B. McGaw (Hrsg.), International encyclopedia of education (3 Aufl., S. 171–177). Oxford: Elsevier.

    Chapter  Google Scholar 

  • Rasch, G. (1980). Probabilistic models for some intelligence or attainment tests (erweiterte Aufl.). Chicago: University of Chicago Press.

    Google Scholar 

  • Rost, J. (2004). Lehrbuch Testtheorie-Testkonstruktion (2., vollständig überarbeitete und erweiterte Aufl.). Bern: Huber.

    Google Scholar 

  • Sijtsma, K. (1986). A coefficient of deviant response patterns. Kwantitative Methoden, 7, 131–145.

    Google Scholar 

  • Sijtsma, K., & Meijer, R. R. (1992). A method for investigating the intersection of item response function in Mokken’s non-parametric IRT model. Applied Psychological Measurement, 16, 149–157.

    Article  Google Scholar 

  • Schrader, F.-W., Helmke, A., Hosenfeld, I., Halt, A. C., & Hochweber, J. (2006). Komponenten der Diagnosegenauigkeit von Lehrkräften: Ergebnisse aus Vergleichsarbeiten in der Grundschule. In F. Eder, A. Gastager, & F. Hofmann (Hrsg.), Qualität durch Standards? Beiträge zum Schwerpunktthema der 67. Tagung der AEPF (S. 265–278). Münster: Waxmann.

    Google Scholar 

  • Schukajlow, S. (2011). Mathematisches Modellieren. Schwierigkeiten und Strategien von Lernenden als Bausteine einer lernprozessorientierten Didaktik der neuen Aufgabenkultur. Münster: Waxmann.

    Google Scholar 

  • Werner, J. (1997). Lineare Statistik. Weinheim: Beltz.

    Google Scholar 

  • West, B. T., Welch, K. B., & Galecki, A. T. (2007). Linear mixed models: a practical guide to using statistical software. New York: Chapman & Hall/CRC.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Christian Spoden.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Spoden, C., Fleischer, J. & Leutner, D. Niedrige Testmodellpassung als Resultat mangelnder Auswertungsobjektivität bei der Kodierung landesweiter Vergleichsarbeiten durch Lehrkräfte. J Math Didakt 35, 79–99 (2014). https://doi.org/10.1007/s13138-013-0056-z

Download citation

  • Received:

  • Accepted:

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s13138-013-0056-z

Schlüsselwörter

Mathematics Subject Classification

Keywords

Navigation