Niedrige Testmodellpassung als Resultat mangelnder Auswertungsobjektivität bei der Kodierung landesweiter Vergleichsarbeiten durch Lehrkräfte

Spoden, Christian; Fleischer, Jens; Leutner, Detlev

doi:10.1007/s13138-013-0056-z

Niedrige Testmodellpassung als Resultat mangelnder Auswertungsobjektivität bei der Kodierung landesweiter Vergleichsarbeiten durch Lehrkräfte

Low Test Model Fit and Teacher Rater Bias—Results from a State-Wide Administered Large-Scale Assessment of Competencies

Originalarbeit/Original Article
Published: 22 October 2013

Volume 35, pages 79–99, (2014)
Cite this article

Journal für Mathematik-Didaktik Aims and scope Submit manuscript

Christian Spoden¹,
Jens Fleischer² &
Detlev Leutner²

608 Accesses
4 Citations
Explore all metrics

Zusammenfassung

Bei landesweiten Vergleichsarbeiten wird die Auswertung der Test-Items von Lehrkräften auf Basis vorgegebener Manuale eigenständig durchgeführt. Inder vorliegenden Studie wird die Frage untersucht, ob mangelnde Auswertungsobjektivität (hier: mangelnde Manual-Treue) bei der Kodierung der Items durch die Lehrkräfte mit abweichenden Antwortmustern von Schüler-Lösungen in Bezug auf das bei Vergleichsarbeiten häufig verwendete Testmodell von Rasch (1980) einhergeht. Die Testhefte von Schulklassen mit niedriger und mit durchschnittlicher Modellpassung bei den nordrhein-westfälischen Vergleichsarbeiten in der achten Jahrgangsstufe im Fach Mathematik wurden von externen Beurteilern erneut ausgewertet und die Modellpassung und korrespondierende Schätzungen der Schülerkompetenzen dieser neuen Beurteilungen bestimmt. Die Ergebnisse verdeutlichen, dass (1) eine niedrige durchschnittliche Modellpassung dieser Schulklassen auf mangelnde Manual-Treue der Lehrkräfte zurückzuführen ist und dass (2) die Abweichungen im Vergleich zur manual-treuen Auswertung mit höheren mittleren Schülerkompetenzen einhergehen. Implikationen dieses Beurteilungseffektes für die Arbeit mit Vergleichsarbeiten in der Mathematik werden abschließend diskutiert.

Abstract

With state-wide administered large-scale assessments of competencies students’ solutions of test items are independently coded by their teachers according to an instructions manual. The study at hand evaluates whether lack of conformity to the manual by the coding teacher goes along with aberrant responses in the psychometric model of Rasch (1980). Answer sheets of both low and average fitting classes from a state-wide administered large-scale assessment in the German state of Northrhine-Westfalia were re-analysed, and model fit was re-computed. Results show that (1) low fit is correlated with lack of conformity to the manual and that (2) higher scoring ability estimates were computed when being attributed to this lack of conformity. Concluding remarks are given for the work with large-scale assessments of competencies.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Notes

Dieser Vorschlag wurde dem Erstautor während der Veranstaltung „Komm mit! – Fördern statt Sitzenbleiben“ (Münster, 17.04.2010) unterbreitet und fand zu diesem Zeitpunkt im Plenum aus Fachlehrkräften Unterstützung.

Literatur

Birkel, P. (2005). Beurteilungsübereinstimmung bei Mathematikarbeiten? Journal für Mathematik-Didaktik, 26, 28–51.
Article Google Scholar
Bos, W., Hornberg, S., Arnold, K.-H., Faust, G., Fried, L., Lankes, E.-M., Schwippert, K., & Valtin, R. (Hrsg.) (2007). IGLU 2006. Lesekompetenzen von Grundschulkindern in Deutschland im internationalen Vergleich. Münster: Waxmann.
Google Scholar
Bruder, R. (2008). Vielseitig mit Aufgaben arbeiten – Mathematische Kompetenzen nachhaltig entwickeln und sichern. In R. Bruder, T. Leuders, & A. Büchter (Hrsg.), Mathematikunterricht entwickeln – Bausteine für kompetenzorientiertes Unterrichten (S. 18–52). Berlin: Cornelsen Scriptor.
Google Scholar
Büchter, A., & Leuders, T. (2005a). From students’ achievement to the development of teaching: requirements for feedback in comparative tests. ZDM Zentralblatt für Didaktik der Mathematik, 37, 324–334.
Article Google Scholar
Büchter, A., & Leuders, T. (2005b). Mathematikaufgaben selbst entwickeln. Lernen fördern – Leistung überprüfen. Berlin: Cornelsen Scriptor.
Google Scholar
Büchter, A., & Pallack, A. (2012). Methodische Überlegungen und empirische Analysen zur impliziten Standardsetzung durch zentrale Prüfungen. Journal für Mathematik-Didaktik, 33, 59–85.
Article Google Scholar
Christiansen, B., & Walther, G. (1986). Task and activity. In B. Christiansen, A. G. Howson, & M. Otte (Hrsg.), Perspectives on mathematics education (S. 243–307). Dordrecht: Reidel.
Chapter Google Scholar
Cizek, G. J. (1999). Cheating on tests: how to do it, detect it, and prevent it. Mahwah: Lawrence Erlbaum.
Google Scholar
De Boeck, P., Bakker, M., Zwitser, R., Nivard, M., Hofman, A., Tuerlinckx, F., & Partchev, I. (2011). The estimation of item response models with the lmer function from the lme4 package in R. Journal of Statistical Software, 39(12), 1–28.
Google Scholar
De Wolf, I. F., & Janssens, F. J. G. (2007). Effects and side effects of inspections and accountability in education: an overview of empirical studies. Oxford Review of Education, 33, 379–396.
Article Google Scholar
Dodeen, H., & Darabi, M. (2009). Person-fit: relationship with four personality tests in mathematics. Research Papers in Education, 24, 115–126.
Article Google Scholar
Eckes, T. (2005). Examining rater effects in TestDaF writing and speaking performance assessments: a many-facet Rasch analysis. Language Assessment Quarterly, 2, 197–221.
Article Google Scholar
Fleischer, J., Spoden, C., Wirth, J., & Leutner, D. (2008). Flächendeckende Lernstandserhebungen – Spezifische Herausforderungen und Lösungsansätze. Das Beispiel lernstand 8 in Nordrhein-Westfalen. In W. Böttcher, W. Bos, H. Döbert, & H. G. Holtappels (Hrsg.), Bildungsmonitoring und Bildungscontrolling in nationaler und internationaler Perspektive. Dokumentation zur Herbsttagung der Kommission Bildungsorganisation planung, -recht (KBBB) (S. 195–207). Münster: Waxmann.
Google Scholar
Hadfield, J. D. (2010). MCMC methods for multi-response generalized linear mixed models: the MCMCglmm R package. Journal of Statistical Software, 33(2), 1–22.
Google Scholar
Heymann, H. W., & Pallack, A. (2007). Aufgabenkonstruktion für die Lernstandserhebung Mathematik. In Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen (Hrsg.), Lernstandserhebungen Mathematik in Nordrhein-Westfalen. Impulse zum Umgang mit zentralen Tests (S. 14–46). Stuttgart: Klett.
Google Scholar
Hosenfeld, I. (2007). September. Wie zuverlässig sind Auswertungen von Vergleichsarbeiten durch Lehrkräfte? Vortrag auf der Tagung der Arbeitsgruppe Empirisch Pädagogische Forschung (AEPF) in Lüneburg.
Hoyt, W. T. (2000). Rater bias in psychological research: when is it a problem and what can we do about it? Psychological Methods, 5, 64–86.
Article Google Scholar
Ingenkamp, K., & Lissmann, U. (2008). Lehrbuch der pädagogischen Diagnostik (6. Aufl.) Weinheim: Beltz.
Google Scholar
Jacob, B. A., & Levitt, S. D. (2003a). Rotten apples: an investigation of the prevalence and predictors of teacher cheating. The Quarterly Journal of Economics, 118, 843–877.
Article Google Scholar
Jacob, B. A., & Levitt, S. D. (2003b). Catching cheating teachers: the results of an unusual experiment in implementing theory. In W. G. Gale & J. Rothenberg Pack (Hrsg.), Brookings-Wharton papers on urban affairs (S. 185–209). Washington: Brookings Institution Press.
Google Scholar
Kamata, A. (2001). Item analysis by the hierarchical generalized linear model. Journal of Educational Measurement, 38, 79–93.
Article Google Scholar
Karabatsos, G. (2003). Comparing the aberrant response detection performance of thirty-six person-fit statistics. Applied Measurement in Education, 16, 277–298.
Article Google Scholar
Klieme, E., Artelt, C., Hartig, J., Jude, N., Köller, O., Prenzel, M., Schneider, W., & Stanat, P. (Hrsg.) (2010). PISA 2009: Bilanz nach einem Jahrzehnt. Münster: Waxmann.
Google Scholar
KMK & IQB (Hrsg.) (2006). Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring. München: Wolters Kluwer.
Google Scholar
Köller, O. (2008). Bildungsstandards in Deutschland: Implikationen für die Qualitätssicherung und Unterrichtsqualität. Zeitschrift für Erziehungswissenschaft (Sonderheft), 9, 47–59.
Google Scholar
Kubiszyn, T., & Borich, G. D. (2009). Educational testing and measurement: classroom application and practice. Hoboken: Wiley.
Google Scholar
Kühle, B., & Peek, R. (2007). Lernstandserhebungen in Nordrhein-Westfalen. Evaluationsbefunde zur Rezeption und zum Umgang mit Ergebnisrückmeldungen in Schulen. Empirische Pädagogik, 21, 428–447.
Google Scholar
Leisen, J. (2006). Aufgabenkultur im mathematisch-naturwissenschaftlichen Unterricht. Der mathematische und naturwissenschaftliche Unterricht, 59, 260–266.
Google Scholar
Leuders, T., Barzel, B., & Hußmann, S. (2005). Outcome standards and core curricula: a new orientation for mathematics teachers in Germany. ZDM Zentralblatt für Didaktik der Mathematik, 37, 275–286.
Article Google Scholar
Leutner, D., Fleischer, J., Spoden, C., & Wirth, J. (2007). Landesweite Lernstandserhebungen zwischen Bildungsmonitoring und Individualdiagnostik. Zeitschrift für Erziehungswissenschaft (Sonderheft), 8, 149–167.
Google Scholar
Marx, A., & Rinkens, H.-D. (2008). Anforderungsmerkmale der MT21-Items und ihre Weiterentwicklung aus mathematikdidaktischer Sieht. In S. Blömeke, G. Kaiser, & R. Lehmann (Hrsg.), Professionelle Kompetenz angehender Lehrerinnen und Lehrer (S. 425–452). Münster: Waxmann
Google Scholar
Meijer, R. R. (1997). Person-fit and criterion-related validity: an extension of the Schmitt, Cortina and Whitney study. Applied Psychological Measurement, 21, 99–113.
Article Google Scholar
Meijer, R. R., & Nering, M. L. (1997). Trait level estimation for nonfitting response vectors. Applied Psychological Measurement, 21, 321–336.
Article Google Scholar
Meijer, R. R., & Sijtsma, K. (2001). Methodology review: evaluating person fit. Applied Psychological Measurement, 25, 107–135.
Article Google Scholar
Miller, M. D. (1986). Time allocation and patterns of item response. Journal of Educational Measurement, 23, 147–156.
Article Google Scholar
Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen (2007). Kernlehrplan für das Gymnasium – Sekundarstufe I (G8) in Nordrhein-Westfalen. Mathematik. Frechen: Ritterbach.
Google Scholar
Pallack, A., Dobbelstein, P., & Peek, R. (2005). Zentrale Lernstandserhebungen (Jahrgangsstufe 9) in Nordrhein-Westfalen – Konzeption. Durchführung und erste Ergebnisse zu den Fachleistungen in Mathematik im Schuljahr 2004/2005. Der mathematische und naturwissenschaftliche Unterricht, 58, 496–503.
Google Scholar
Petridou, A., & Williams, J. (2007). Accounting for aberrant test responses using multilevel models. Journal of Educational Measurement, 44, 227–247.
Article Google Scholar
Rabe-Hesketh, S., & Skrondal, A. (2010). Generalized linear mixed models. In P. Peterson, E. Baker, & B. McGaw (Hrsg.), International encyclopedia of education (3 Aufl., S. 171–177). Oxford: Elsevier.
Chapter Google Scholar
Rasch, G. (1980). Probabilistic models for some intelligence or attainment tests (erweiterte Aufl.). Chicago: University of Chicago Press.
Google Scholar
Rost, J. (2004). Lehrbuch Testtheorie-Testkonstruktion (2., vollständig überarbeitete und erweiterte Aufl.). Bern: Huber.
Google Scholar
Sijtsma, K. (1986). A coefficient of deviant response patterns. Kwantitative Methoden, 7, 131–145.
Google Scholar
Sijtsma, K., & Meijer, R. R. (1992). A method for investigating the intersection of item response function in Mokken’s non-parametric IRT model. Applied Psychological Measurement, 16, 149–157.
Article Google Scholar
Schrader, F.-W., Helmke, A., Hosenfeld, I., Halt, A. C., & Hochweber, J. (2006). Komponenten der Diagnosegenauigkeit von Lehrkräften: Ergebnisse aus Vergleichsarbeiten in der Grundschule. In F. Eder, A. Gastager, & F. Hofmann (Hrsg.), Qualität durch Standards? Beiträge zum Schwerpunktthema der 67. Tagung der AEPF (S. 265–278). Münster: Waxmann.
Google Scholar
Schukajlow, S. (2011). Mathematisches Modellieren. Schwierigkeiten und Strategien von Lernenden als Bausteine einer lernprozessorientierten Didaktik der neuen Aufgabenkultur. Münster: Waxmann.
Google Scholar
Werner, J. (1997). Lineare Statistik. Weinheim: Beltz.
Google Scholar
West, B. T., Welch, K. B., & Galecki, A. T. (2007). Linear mixed models: a practical guide to using statistical software. New York: Chapman & Hall/CRC.
Google Scholar

Download references

Author information

Authors and Affiliations

Universität Duisburg-Essen, Duisburg, Deutschland
Christian Spoden
Lehrstuhl für Lehr-Lernpsychologie, Universität Duisburg-Essen, Duisburg, Deutschland
Jens Fleischer & Detlev Leutner

Authors

Christian Spoden
View author publications
You can also search for this author in PubMed Google Scholar
Jens Fleischer
View author publications
You can also search for this author in PubMed Google Scholar
Detlev Leutner
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Christian Spoden.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Spoden, C., Fleischer, J. & Leutner, D. Niedrige Testmodellpassung als Resultat mangelnder Auswertungsobjektivität bei der Kodierung landesweiter Vergleichsarbeiten durch Lehrkräfte. J Math Didakt 35, 79–99 (2014). https://doi.org/10.1007/s13138-013-0056-z

Download citation

Received: 06 August 2012
Accepted: 19 September 2013
Published: 22 October 2013
Issue Date: February 2014
DOI: https://doi.org/10.1007/s13138-013-0056-z

Schlüsselwörter

Mathematics Subject Classification

Keywords

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Niedrige Testmodellpassung als Resultat mangelnder Auswertungsobjektivität bei der Kodierung landesweiter Vergleichsarbeiten durch Lehrkräfte

Zusammenfassung

Abstract

Access this article

Notes

Literatur

Author information

Authors and Affiliations

Corresponding author

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Mathematics Subject Classification

Keywords

Search

Navigation