Abstract
Zusammenfassung. Das Schreiben von Kurzaufsätzen im Rahmen informeller Diagnostik ist weit verbreitet, jedoch mit Problemen der Auswertungsobjektivität behaftet. Durch die computerbasierte Bewertung von Essays lassen sich Entscheidungsheuristiken vermeiden. Die latente semantische Analyse (LSA) ist ein statistisches Verfahren, dass die Repräsentation von Wissensstrukturen im Computer und somit die automatische inhaltliche Bewertung von Aufsätzen ermöglicht. Es wird die Entwicklung eines deutschsprachigen LSA-basierten Systems beschrieben und seine Leistungsfähigkeit in einem Multiple-Choice-Wissenstest, sowie bei der Bewertung von Aufsätzen aufgezeigt. Bei der Klassifikation von Tierarten nach Klassen erzielte es vergleichbare Leistungen wie Studierende. Bei der Bewertung von Aufsätzen wurden Korrelationen mit menschlichen Bewertern im mittleren bis oberen Bereich erzielt. Die Übereinstimmung von Summenscores mehrerer Aufgaben reicht an für standardisierte Verfahren geforderte Reliabilitätskennwerte heran. Neben der automatischen Aufsatzbeantwortung liegen Anwendungen v.a. in intelligenter Lernsoftware und der Ergänzung bestehender psychologischer Modelle durch semantische Module.
Abstract. The validity of constructed-response items like essays that are commonly used within informal diagnostics is threatened by many biases. Computer based essay scoring reduces these biases. Latent semantic analysis (LSA) is a statistical technique that allows the representation of human semantic knowledge structures within the computer, thus enabling automatic essay scoring. This article describes the basic steps for implementing a LSA-based system in German language and examines its performance on multiple-choice knowledge tests and essay scoring. It showed an equal performance compared to university students in classifying animal species and achieved medium to high correlations with human raters in essay scoring. Using cumulated scores, the correlations reached values necessary for the reliability of standardized tests. Besides essay scoring, intelligent tutoring software and the extension of psychological models by semantic modules are further interesting fields of application for LSA.
Literatur
2006). Lucene Java. The Apache Software Foundation . verfügbar unter: http://lucene.apache.org/ [25.07.2006]
(Berry, M. W. Dumais, S. T. O’Brien, G. W. (1995). Using linear algebra for intelligent information retrieval. SIAM Review, 37, 4 573– 595Bortz, J. (1999). Statistik für Sozialwissenschaftler (5. vollständig überarbeitete und aktualisierte Auflage). Berlin: SpringerBühner, M. (2004). Einführung in die Test- und Fragebogenkonstruktion . München: PearsonBurstein, J. Kukich, K. Wolff, S. Lu, C. Chodorow, M. (1998). Enriching automated scoring using discourse marking . Proceedings of the Workshop on Discourse Relations and Discourse Marking, 36th Annual Meeting of the Association for Computational Linguistics and the 17th International Conference on Computational LinguisticsCaumanns, J. (1999). A Fast and Simple Stemming Algorithm. Technical Report Nr. TR-B-99-16 des Fachbereichs Informatik der Freien Universität Berlin. verfügbar unter: http://www.inf.fu-berlin.de/inst/pubs/tr-b-99-16.abstract.html [25.07.2006]Chase, C. I. (1979). The impact of achievement expectations and handwriting quality on scoring essay tests. Journal of Educational Measurement, 16, 293– 297Chase, C. I. (1986). Essay test scoring : interaction of relevant variables. Journal of Educational Measurement, 23, 33– 41Coffman, W. (1971). On the reliability of ratings of essay examinations in English. Research in the Teaching of English, 5, 24– 36Deerwester, S. Dumais, S. T. Furnas, G. W. Landauer, T. K. Harshman, R. (1990). Indexing by Latent Semantic Analysis. Journal of the American Society For Information Science, 41, 391– 407Denhière, G. Lemaire, B. (2006). Representing children’s semantic knowledge from a multisource corpus . Vortrag im Rahmen eines Workshops in Würzburg, 05.02.2006Foltz, P. W. Kintsch, W. Landauer, T. K. (1998). The measurement of textual Coherence with latent Semantic Analysis. Discourse Processes, 25, 285– 307Haladyna, T. (1999). Developing and validating multiple-choice test Items . Mawhwah, NJ: ErlbaumHughes, D. C. Keeling, B. Tuck, B. F. (1983). The effects of instructions to scorers intended to reduce context effects in essay scoring. Educational and Psychological Measurement, 43, 1047– 1050Ishioka, T. Kameda, M. (2006). Automated Japanese Essay Scoring System based on Articles Written by Experts . Coling-ACL 2006 ConferenceKintsch, E. Steinhart, D. Stahl, G. Matthews, C. Lamb, R. (2000). Developing summarization skills through the use of LSA-Based feedback. Interactive Learning Environments, 8, 87– 109Kontostathis, A. Pottenger, W. M. (2002). Detecting patterns in the LSI term-term matrix . Workshop on the Foundation of Data Mining and Discovery, IEEE International Conference on Data MiningLandauer, T. K. Dumais, S. T. (1997). A solution to Plato’s problem: The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge. Psychological Review, 104, 211– 240Landauer, T. K. Foltz, P. W. Laham, D. (1998). Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259– 284Landauer, T. K. Laham, D. Rehder, B. Schreiner, M. E. (1997). How well can passage meaning be derived without using word order? A comparison of Latent Semantic Analysis and humans. In M. G. Shafto & P. Langley (Eds.), Proceedings of the 19th annual meeting of the Cognitive Science Society (pp. 412-417). Mawhwah, NJ: ErlbaumLemaire, B. Denhière, G. (2004). Incremental Construction of an Associative Network from a Corpus. In K. Forbus, D. Gentner & T. Regier (Eds.), Proceedings 26th Annual Meeting of the Cognitive Science Society (pp. 825-830), ChicagoLenhard, W. Baier, H. Schneider, W. Hoffmann, J. (2006). Forschungsprojekt “Förderung des Textverständnisses“: LSA-Modul . verfügbar unter: http://www.summa.psychologie.uni-wuerzburg.de/summa/coa/login/ [20.07.2006]Lienert, G. Ratz, U. (1998). Testaufbau und Testanalyse (6. Auflage). Weinheim: BeltzMarshall, J. C. Powers, J. M. (1969). Writing neatness, composition errors and essay grades. Journal of Educational Measurement, 6, 97– 101Martin, D. Berry, M. (in press) Mathematical Foundations Behind Latent Semantic Analysis. In T. K. Landauer, D. S. McNamara, S. Dennis & W. Kintsch (Eds.), The handbook of latent semantic analysis. Mahwah, NJ: ErlbaumMeyer, G. (1939). The choice of questions on essay examinations. Journal of Educational Psychology, 30, 161– 171Miller, T. (2003). Essay assessment with latent semantic analysis. Journal of Educational Computing Research, 29, 495– 512Nakov, P. Popova, A. Mateev, P. (2001). Weight functions impact on LSA performance. Proceedings of the EuroConference Recent Advances in Natural Language Processing. RANLP, 1, 187– 193Olkin, J. Siotani, M. (1964). Asymptotic distribution functions of a correlation matrix . CA: Stanford University Laboratory for Quantitive Research in Education. Report No. 6Page, E. B. (1966). The imminence of grading essays by computer. Phi Delta Kappa, 47, 238– 243Rehder, B. Schreiner, M. E. Wolfe, M. B. Laham, D. Landauer, T. K. Kintsch, W. (1998). Using Latent Semantic Analysis to assess knowledge: Some technical considerations. Discourse Processes, 25, 337– 354Wade-Stein, D. Kintsch, E. (2004). Summary Street: Interactive computer support for writing. Cognition and Instruction, 22, 333– 362Wild, F. Stahl, Ch. Stermsek, G. Neumann, G. (2005). Parameters Driving Effectiveness of Automated Essay Scoring with LSA. Proceedings of the 9th International Computer Assisted Assessment Conference, 485– 494Wittgenstein, L. (1953). Philosophical investigations . New York: MacmillanWolfe, M. B. Schreiner, M. E. Rehder, B. Laham, D. Foltz, P. W. Kintsch, W. Landauer, T. K. (1998). Learning from text: Matching readers and text by Latent Semantic Analysis. Discourse Processes, 25, 309– 336