Zusammenfassung
Die Ergebnisse einer einfachen linearen Regressionsanalyse sind nur unter bestimmten Voraussetzungen gültig. Diese Prämissen betreffen erstens die Verteilung der Residuen. Sie müssen das Ergebnis eines reinen Zufallsprozesses sein. D.h. es darf keine Heteroskedastie (Abschn. 5.2) und Autokorrelation (Abschn. 5.3) vorliegen – ggf. ergänzt von der Forderung, dass die Residuen normalverteilt sind (Abschn. 5.4). Zweitens ist es zur Ermittlung der Parameterschätzungen notwendig, dass keine Multikollinearität existiert (Abschn. 5.5). Drittens erläutert Abschnitt 5.6, welche Bedeutung Ausreißern und einflussreichen Beobachtungen zukommt. Verschiedene Schwierigkeiten werden viertens im Abschnitt 5.7 unter dem Begriff Fehlspezifikation erörtert. Fünftens beschreibt Abschnitt 5.8 kurz das Problem fehlerbehafteter Werte bei den exogenen Variablen. Abschließend geht Abschnitt 5.9 auf den notwendigen Stichprobenumfang ein. Einzelne Abschnitte enthalten Hinweise zur Durchführung in SPSS und Stata.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Dies gilt nur für die OLS‐Schätzung. Bei den nichtlinearen Logit‑, Probit‐ usw. Schätzverfahren, die hier nicht behandelt werden, führt Heteroskedastie auch zu verzerrten Koeffizientenschätzungen!
- 2.
Eine früher gängige Methode ist der Goldfeld‐Quandt‐Test. Eine weitere Variante ist der Test von Glejser, bei dem die absoluten Werte der Residuen als abhängige Variable auf die unabhängigen Variablen regressiert werden. Hackl (2013, S. 192–194) erläutert diese Verfahren.
- 3.
Zum Teil wird diese Form des Tests auch als Variante des Breusch‐Pagan‐Tests aufgefasst (Cameron und Trivedi 2010, S. 101).
- 4.
Der WLS‐Schätzer ist eine Form der Methode der verallgemeinerten kleinsten Quadrate (GLS – Generalized Least Squares bzw. FGLS – Feasible Generalized Least Squares).
- 5.
Das Verfahren firmiert auch als Huber‐White‐ bzw. Sandwich‐Schätzer.
- 6.
Diese robusten Standardfehler sind nicht mit Verfahren robuster Koeffizientenschätzungen zu verwechseln. Letztere kommen ggf. bei Ausreißern und einflussreichen Beobachtungen zum Einsatz (siehe Abschn. 5.7).
- 7.
Simulationsstudien weisen darauf hin, dass bei Dummy‐Variablen mit unterschiedlichen Fallzahlen (Sub‐Sample‐Umfängen) und unterschiedlichen Standardfehlern in den verschiedenen Ausprägungen ein kleines Sub‐Sample mit hohem Standardfehler dazu führt, dass die Irrtumswahrscheinlichkeit des t‐Tests zu gering ausgewiesen wird. Der robuste Standardfehler wird dann größer sein als der normale Standardfehler. Umgekehrt ist der robuste Standardfehler kleiner als der normale Standardfehler, wenn in einem kleinen Sub‐Sample einer Dummy‐Variablen‐Ausprägung der Standardfehler relativ klein ist (UCLA ATS 2011). Siehe auch Sribney (1998).
- 8.
Datenbasis: Hochschulabschlussnoten_BWL.sav. Spezifikation der Regression: Abhängige Variable: Abschlussnote, Unabhängige Variablen: Schulnote, EinSchwerpunkt, Weiblich, Alter, Aktualität.
- 9.
Ein SPSS‐Macro dazu wird beschrieben von Hayes und Cai (2007) und erläutert in: http://www.youtube.com/watch?v=paYqAb2npTc.
- 10.
Die Optionen werden als HC1, HC2 und HC3 bezeichnet. Genauer dazu Weisberg (2014, S. 163), Angrist und Pischke (2009, S. 293–315) und insbesondere Kaufman (2013, S. 43–50). Eine weitere hier nicht behandelte Lösung ist in Stata die Verwendung Cluster‐robuster Standardfehler. Wie in der Einleitung zu diesem Kapitel beschrieben, müssen die Residuen identisch verteilt sein. Häufig ist aber plausibel, dass zwischen verschiedenen Beobachtungsgruppen (Clustern) die Residuen unterschiedlich hoch sind. Zum Beispiel die Varianz des Konsumes zwischen Männern und Frauen oder die Varianz der Noten zwischen verschiedenen Schwerpunkten der Studierenden. Diese Unterschiede können durch geeignete Verfahren berücksichtigt werden.
- 11.
Bei der Analyse von Zeitreihen führt Autokorrelation unter Umständen auch zu verzerrten Koeffizientenschätzungen (Auer und Rottmann 2010, S. 540 ff.). Dies ist bei der Verwendung von dynamischen Modellen mit verzögerten endogenen Variablen der Fall, die hier nicht behandelt werden.
- 12.
Eine modifizierte Form ist der Ljung‐Box‐Test, der bei kleinen Sampeln zu bevorzugen ist (Hackl 2013, S. 215).
- 13.
Hierzu existieren verschiedene Möglichkeiten: Das Prais‐Winston‑, Cochran‐Orcutt‐ und Hildreth‐Lu‐Verfahren sind die gängigsten (Baum 2006, S. 159 f.).
- 14.
- 15.
Allerdings ist unter Umständen die Normalverteilung grundlegend. Das Maximum‐Likelihood‐Schätzverfahren (ML‐Schätzung) basiert häufig auf der Annahme, dass die Normalverteilung gilt (siehe Anhang 5.1). Es sollte nur bei größeren Stichprobenumfängen eingesetzt werden, da die Wahrscheinlichkeit einen Fehler zweiter Art zu begehen, bei kleinen Stichproben mit der Zahl der exogenen Variablen stark zunimmt (Hart und Clark 1999).
- 16.
Multikollinearität wird in der Literatur auch einfach als Kollinearität bezeichnet.
- 17.
Wenn zwei Variablen überhaupt nicht miteinander korrelieren, sind diese orthogonal zueinander. Siehe dazu auch Abschn. 5.7.
- 18.
Zur Berechnung von b muss die Matrix der Beobachtungsdaten X′X invertiert werden (siehe Abschn. 8.2 am Ende des Buchs). Wenn einige Eigenwerte der Matrizen sehr groß sind und andere sehr nahe an Null liegen, kann die Inversion zu beliebig großen numerischen Fehlern führen. Winzige Veränderungen der beiden Werte führen damit zu völlig anderen Schätzergebnissen.
- 19.
Fox (2016, S. 682) enthält dazu ein Beispiel auf der Grundlage eines realen Datensatzes. Die in einigen Lehrbüchern zu lesende Aussage, dass Multikollinearität die BLUE‐Eigenschaften der Koeffizientenschätzungen nicht berührt, ist insoweit problematisch. Das OLS‐Verfahren besitzt zwar diese statistische Eigenschaft, aber dies nützt praktisch wenig, wenn die Koeffizientenschätzungen komplett unzuverlässig sind.
- 20.
Eine Spalte der Matrix X ist in diesem Fall eine Linearkombination (siehe oben) mindestens einer anderen Spalte (siehe auch Abschn. 8.2 am Ende des Buchs).
- 21.
Mathematisch wird eine nicht invertierbare Matrix als singulär bezeichnet. Inhaltlich bedeutet dies, dass die mathematische Berechnung nicht durchführbar ist. Die Konditionszahl ergibt sich aus dem Verhältnis von maximalem zu minimalem Eigenwert der Matrix X′X (siehe auch Abschn. 8.2).
- 22.
Das Gegenteil ist eine „weak reference category“, das heißt eine Referenzgruppe mit sehr wenigen Fällen (Wissman et al. 2007).
- 23.
Die Begriffe standardisierte Residuen (standardized residuals) und studentisierte Residuen (studentized residuals) werden in der Literatur von verschiedenen Autoren unterschiedlich definiert (Stata 2013, S. 1873).
- 24.
Weitere mögliche Größen sind unter anderem DFFITS, Mahalanobis distance und Welsch’s W. Warum existieren verwirrend viele unterschiedliche Verfahren? Sie fokussieren (zumindest zum Teil) unterschiedliche Probleme, die beim Einsatz nur eines dieser Ansätze eventuell übersehen werden (Williams 2015a).
- 25.
Der Begriff „robust“ bezieht sich hier auf die Unempfindlichkeit der Regressionsergebnisse hinsichtlich des Weglassens bzw. Hinzufügens einzelner (weniger) Beobachtungen. Daneben wird in der Literatur auch von „robust“ im Sinne von Unempfindlichkeit bezüglich der Existenz von Heteroskedastie (siehe oben Abschn. 5.2) gesprochen. Diese unterschiedliche Bedeutung des Ausdrucks „robust“ führt leicht zu Verwirrung.
- 26.
Verschiedene Schätzer (das heißt Schätzverfahren) werden kurz im Anhang 5.1 zu diesem Kapitel beschrieben.
- 27.
- 28.
Das Problem wird auch als Simpson’s Paradoxon oder Yule‐Pigou‐Effekt bezeichnet (Becker 2010) und nennt sich in der Soziologie „ökologischer Fehlschluss“. Dieser Begriff stellt darauf ab, dass eine statistische Beziehung auf der Makroebene (den aggregierten Daten) nicht auf der Mikroebene (Individuen, Unternehmen) gelten muss (Schnell et al. 2013, S. 244).
- 29.
Selbstverständlich bleiben aber deskriptive Darstellungen nach wie vor ein wichtiger erster Schritt weitergehender Analysen. Sie sind nur ungeeignet, komplexe oder sogar kausale Zusammenhänge zu überprüfen.
- 30.
Eine weitere Annahme der einfachen OLS‐Regression ist, dass die exogenen Variablen fix sind: Wird zur Schätzung eine neue Stichprobe von Beobachtungen herangezogen, wären die Werte der exogenen Variablen genau die gleichen wie beim ersten Sample. Bei Experimenten kann diese Prämisse häufig eingehalten werden, da das Design des Experiments und damit die Auswahl der Versuchspersonen (bzw. allgemein der Beobachtungseinheiten) und exogenen Variablen vom Durchführenden kontrolliert werden. Unter bestimmten Voraussetzungen (nämlich wenn die stochastischen exogenen Variablen nicht mit den Fehlern korrelieren), ist der OLS‐Schätzer aber trotzdem verwendbar (genauere Ausführungen bei Ashley (2012, S. 269–271) und Kennedy (2008, S. 137–141)). Die angewandte Regressionsanalyse ignoriert dieses Problem (weitgehend).
- 31.
„Given a certain number of observations in a data set, there is an upper limit to the complexity of the model that can be derived with any acceptable degree of uncertainty.“ (Babyak 2004, S. 1).
- 32.
Viele Lehrbücher umgehen klare Aussagen, indem sie lediglich „ausreichend große“ Sample fordern. Wann aber ist eine Stichprobe „ausreichend groß“? Prinzipiell ist die Antwort einfach: Eine Stichprobe ist dann groß, wenn die Stichprobenverteilung der (erforderlichen) Normalverteilung (annähernd) entspricht. Dies hängt zum einen von der Stichprobengröße ab, aber zum anderen auch von der Verteilung der Grundgesamtheit. Ist die Grundgesamtheit normalverteilt, sind bereits sehr kleine Stichproben (n = 2 oder 5) daraus ebenfalls normalverteilt (siehe Auer und Rottmann 2010, S. 317). Schira (2005, S. 447) spricht in diesem Fall schon bei einem n von 25 von einer hinreichend großen Stichprobe. Ist die Grundgesamtheit schief und/oder mehrgipflig, werden 30 bzw. auch 50 Beobachtungen empfohlen (so ebenfalls Puhani 2001: 178). Praktisch ist die Verteilung in der Grundgesamtheit sowieso in der Regel unbekannt.
- 33.
Die Konsequenzen der Verletzung dieser Prämisse, mögliche Verfahren der Überprüfung einschließlich formaler Tests sowie weitere Alternativen bei Verletzung der Annahme behandelt Abschn. 5.4.
- 34.
In der umfangreichen ökonometrischen Literatur zur Regressionsanalyse wird das Problem fast nie behandelt. Der Grund dürfte darin liegen, dass zu Beginn der Ökonometrie makroökonomische Fragestellungen dominierten. In der Makroökonomie waren die vorhandenen Datensätze zum BIP, zur Arbeitslosigkeit, Inflation usw. aber häufig auf wenige Staaten beschränkt und daher klein. Es wurden also immer alle verfügbaren Beobachtungen verwendet und dagegen sprach auch nichts, da die Daten von den Statistikämtern kostenlos zur Verfügung gestellt wurden. In der statistischen Literatur zur Psychologie existieren dagegen fast immer auch Ausführungen zur notwendigen Zahl von Beobachtungen, da die Daten mühsam durch Befragungen oder Laborexperimente erhoben werden müssen.
- 35.
Die Theorie der optimalen Samplegröße basiert vor allem auf Cohen (1988). Zur Möglichkeit und zu den Grenzen der Anwendung im Fall der multiplen Regression siehe Maxwell (2000), Kelley und Maxwell (2003) und Babyak (2004). Sie dazu auch die Korrektur in der 4. Auflage von Bortz und Döring (2006, S. 634) gegenüber der 3. Auflage von 2002.
- 36.
- 37.
Kennedy bezeichnet das Problem als „too‐large sample size problem“ (Kennedy 2008, S. 61).
- 38.
Die zugrundeliegende Regressionsanalyse wird im Folgenden der Einfachheit halber als „wahr“ angenommen und nicht weiter hinterfragt (bspw. hinsichtlich Spezifikation u. ä.).
Literatur
Andersen, R. (2007): Modern Methods for Robust Regression, Los Angeles et al.
Angrist, J.D.; Pischke, J.-S. (2009): Mostly Harmless Econometrics, Princeton, New Jersey
Ashley, R. A. (2012): Fundamentals of Applied Econometrics, Hoboken, New Jersey
Auer, B., Rottmann, H. (2010): Statistik und Ökonometrie für Wirtschaftswissenschaftler, Wiesbaden
Babyak, M.A. (2004): What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models, Psychosomatic Medicine, 66: 411–421
Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2011): Multivariate Analysemethoden, 13. Auflage, Heidelberg et al.
Baltes-Götz, B. (2016): Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics. Online-Dokument: https://www.uni-trier.de/fileadmin/urt/doku/gzlm_gee/gzlm_gee.pdf, (Zugriff: 20.11.2016)
Baum, Ch. F. (2006): An Introduction to Modern Econometrics Using Stata, College Station, Texas
Becker, W.E. (2010): Online Handbook for the Use of Contemporary Econometrics in Economic Education Research, https://www.aeaweb.org/about-aea/committees/economic-education/econometrics-training-modules, (Zugriff: 13.09.2016)
Behnke, J. (2005): Lassen sich Signifikanztests auf Vollerhebungen anwenden? Einige essayistische Anmerkungen, Politische Vierteljahresschrift, 46, O-1–O-15, http://www.vs-verlag.de/pvs, (Zugriff: 08.09.2016)
Belsley, D.A. (1991): A Guide to Using the Collinearity Diagnostics, Computer Science in Economics and Management, 4: 33–50
Belsley, D.A., Kuh, E., Welsch, R.E. (1980): Regression Diagnostics, New York
BMBF – Bundesministerium für Bildung und Forschung (2006): Macht Mozart schlau? Die Förderung kognitiver Kompetenzen durch Musik, Bildungsforschung Band 18, Berlin
Bortz, J. (2005): Statistik für Human- und Sozialwissenschaftler, 6. Auflage, Heidelberg
Bortz, J., Döring, N. (2006): Forschungsmethoden und Evaluation, 4. Auflage, Heidelberg
Bortz, J., Döring, N. (2015): Forschungsmethoden und Evaluation, 5. Auflage, Heidelberg
Broscheid, A./ Gschwend, Th. (2005): Zur statistischen Analyse von Vollerhebungen, Politische Vierteljahresschrift, 46 (1): O-16–O-26, (Zugriff: 10.01.2016)
Brosius, F. (2013): SPSS 21, 1. Auflage, München
Bühner, M., Ziegler, M. (2009): Statistik für Psychologen und Sozialwissenschaftler, München
Cameron, L.A., Trivedi, P.K. (2007): Microeconometrics, Methods and Applications, Cambridge et al.
Cameron, L.A., Trivedi, P.K. (2010): Microeconometrics using Stata, Revised Edition, College Station, Texas
Chatterjee, S., Hadi, A. (2012): Regression Analysis By Example, 5th ed., Hoboken
Child, D. (2006). The Essentials of Factor Analysis, Third ed., London et al.
Cohen, J. (1988): Statistical power analysis for the behavioral sciences, 2nd ed., Hillsdale, NJ
Cook, R. D.; Weisberg, S. (1982); Residuals and influence in regression, New York, NY
Cortinhas, C., Black, K. (2012): Statistics for Business and Economics, Chichester UK
Criqui, M. H. (1998): Alcohol and Coronary Heart Disease: A Comparison of Ecologic and Non-Ecologic Studies, in: A. M. Gotto Jr. et al. (Eds.): Multiple Risk Factors in Cardiovascular Disease: 297–302
Dougherty, Ch. (2016): Introduction to Econometrics, 5th ed., Oxford
Faul, F., Erdfelder, E., Buchner, A., Lang, A.-G. (2009): Statistical power analyses using G*Power 3.1: Tests for correlation and regression analyses, Behavior Research Methods, 41 (4): 1149–1160, doi:10.3758/BRM.41.4.1149 (Zugriff: 13.09.2016)
Fox, J. (2000): Nonparametric Simple Regression: Smoothing Scatterplots, Thousand Oaks
Fox, J. (2016): Applied Regression Analysis & Generalized Linear Models, Thousand Oaks
Green, S.B. (1991): How Many Subjects Does it Take to Do a Regression Analysis?, Multivariate Behavioral Research, 26 (3): 499–510
Greene, W.H. (2012): Econometric Analysis, 7th ed., Harlow
Gujarati, D. (2015): Econometrics by Example, 2nd ed., London
Hackl, P. (2013): Einführung in die Ökonometrie, 2. Auflage München
Hamilton, L. C. (2013): Statistics with STATA, Updated for Version 12, Boston Mass.
Hart, R.A., Clark, D.H. (1999): Does Size Matter? Exploring the Small Sample Properties of Maximum Likelihood Estimation, Working Paper, http://polmeth.wustl.edu/files/polmeth/hart99.pdf, (Zugriff: 21.05.2016)
Hayes, A. F., Cai, L. (2007): Using heteroskedasticity-consistent standard error estimators in OLS regression: An introduction and software implementation, in: Behavior Research Methods, 39 (4), 709–722, http://www.afhayes.com/spss-sas-and-mplus-macros-and-code.html (Zugriff: 11.05.2016)
Henderson, D. J., Parmeter, C. F. (2015): Applied Nonparametric Econometrics, New York
Hilbe, J.M. (2014): Modeling Count Data, Cambridge
Hill, R. C.; Griffiths, W. E.; Lim, C. (2008): Principles of Econometrics, Third ed., Hoboken NJ
Höfer, Th., Przyrembel, H., Verleger, S. (2004): New evidence for the Theory of the Stork, Paediatric and Perinatal Epidemiology, 18: 88–92. doi:10.1111/j.1365-3016.2003.00534.x (Zugriff: 20.09.2016)
Hosmer, D.W., Lemeshow, S, Sturdivant, R. X. (2013): Applied Logistic Regression, 3d. Ed., Hoboken, New Jersey
Janssen, J.; Laatz, W. (2007): Statistische Datenanalyse mit SPSS für Windows. 8. Auflage, München
Johnston, J. (1997): Econometric Methods, 4th ed., New York, NY
Kaufman, R. L. (2013): Heteroskedasticity in Regression, Detection and Correction, London
Kelley, K., Maxwell, S.E. (2003): Sample Size for Multiple Regression: Obtaining Regression Coefficients That Are Accurate, Not Simply Significant, Psychological Methods, 8 (3): 305–321
Kennedy, P. (2008): A Guide to Econometrics, 6th Ed., Cambridge
Kmenta, J. (1986): Elements of Econometrics, Second Edition, Anne Arbor
Kockläuner, G. (1988): Angewandte Regressionsanalyse mit SPSS, Braunschweig
Maxwell, S. E. (2000): Sample size and multiple regression analysis, Psychological Methods, 5: 434–458
Menard, S.M. (2002): Applied Logistic Regression Analysis, 2nd Ed., Thousand Oaks, London, New Delhi
O’Brien, R. (2007): A Caution Regrading Rules of Thumb for Variance Inflation Factors, Quality & Quantity, 41: 673–690, DOI 10.1007/s11135-006-9018-6 (Zugriff: 10.09.2016)
Puhani, J. (2001): Statistik, Einführung mit praktischen Beispielen, 9. Auflage, Würzburg
Rauscher, F., Shaw, G., Ky, K. (1993): Music and spatial task performance, Nature, 365: 611
Schendera, Ch. (2008): Regressionsanalyse mit SPSS, München
Schira, J. (2005): Statistische Methoden der VWL und BWL. Theorie und Praxis, 2. Auflage, München
Schnell, R., Hill, P.B., Esser, E. (2013): Methoden der empirischen Sozialforschung, 10. Auflage, München
Schwab, J. (2006): Data Analysis and Computers II, Strategy for Complete Regression Analysis, SW388R7, University of Texas at Austin, slideplayer.com/slide/4510053/ (Zugriff: 16.11.2016)
Skiera, B., Albers, S (2008): Regressionsanalyse, in: Herrmann, A., Homburg, C., Klarmann, M. (Hrsg.): Handbuch Marktforschung, 3. Auflage, Wiesbaden: 467–497
Sribney, William (1998): Comparison of standard errors for robust, cluster, and standard estimators, http://www.stata.com/support/faqs/statistics/standard-errors-and-vce-cluster-option/ (Zugriff: 13.12.2016)
Stata (2011): Stata 12 documentation, Stata Base Reference Manual, Vol. 3, N-R, College Station, Texas
Stata (2013): Stata 13 documentation, Stata Base Reference Manual, R, College Station, Texas
Stata (2015b): Multivariate Statistics Reference Manual, Release 14, College Station, Texas
Statistisches Bundesamt (2010): Verdienstunterschiede zwischen Männern und Frauen 2006, Wiesbaden
Stock, J.H., Watson, M.W. (2014): Introduction to Econometrics, 3rd Ed. Boston
Takezawa, K. (2005): Introduction to Nonparametric Regression, Boston
Tukey, J. W. (1977): Exploratory Data Analysis, Reading, Mass.
UCLA ATS (2011): Using Stata to deal with violations of the homogenity of variance assumption in ANOVA, UCLA: Academic Technology Services, Statistical Consulting Group: http://www.ats.ucla.edu/stat/Stata/library/homvar.htm (Zugriff: 26.10.2016)
Urban, D., Mayerl, J. (2011): Regressionsanalyse: Theorie, Technik und Anwendung, Wiesbaden
VanVoorhis, C.R.W., Morgan, B.L. (2007): Understanding Power and Rules of Thumb for Determining Sample Sizes, Tutorials in Quantitative Methods for Psychology, 3 (2): 43–50
Weisberg, S. (2014): Applied Linear Regression, 4th Ed., Hoboken
Westhoff, F. (2013): An Introduction to Econometrics. A Self-contained Approach, Cambridge, Mass., London
Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL, München
Williams, R. (2015a): Outliers, PDF-Dokument, University of Notre Dame, https://www3.nd.edu/~rwilliam/stats2/l24.pdf, (Zugriff: 16.06.2015)
Williams, R. (2015b): Heteroscedasticity, PDF-Dokument, University of Notre Dame, https://www3.nd.edu/~rwilliam/stats2/l25.pdf, (Zugriff: 29.04.2015)
Wissmann, M., Toutenburg, H., Shalabh (2007): Role of Categorial Variables in Multicollinearity in the Linear regression Model, Technical Report No. 008, Department of Statistics, University of Munich
Wooldridge, J.M. (2010): Econometric Analysis of Cross Section and Panel Data, 2nd Ed., Cambridge
Wooldridge, J.M. (2013): Introductory Econometrics – A Modern Approach, 5th Ed., Mason, Ohio
Author information
Authors and Affiliations
Corresponding author
Anhang
Anhang
Anhang 5.1: Schätzverfahren
Die OLS‐Methode (KQ‐Methode) ist das gängigste Verfahren für die Schätzung der Koeffizienten und der Varianzen in der linearen Regression. Darüber hinaus existieren aber viele andere Ansätze, von denen einige wichtige hier kurz beschrieben werden. Die Koeffizienten sind als bedingte Mittelwerte der abhängigen Variable zu interpretieren.
LAD (Least Absolute Deviation)‐Methode: Sie minimiert die Summe der absoluten Abweichungen der Beobachtungen von der geschätzten Regression. Dadurch werden positive und negative Residuen gleich gewichtet (wie bei der OLS‐Methode), aber große Abweichungen haben keinen so starken Einfluss, da die Quadrierung wegfällt. Die Koeffizientenschätzungen sind jetzt der bedingte Median der exogenen Variable.
Quantilsregression: Hier werden die negativen und die positiven Abweichungen unterschiedlich gewichtet. Zum Beispiel werden beim 5. Quantil die positiven Residuen mit dem Faktor 2,5 gewichtet und die negativen Residuen mit 0,5. Der geschätzte Koeffizient entspricht dann der Veränderung der höchsten 20 % der abhängigen Variablen, wenn die unabhängige Variable um eine Einheit steigt oder sinkt. Ihr Vorteil ist, nicht auf die Veränderungen im Mittel (bspw. der Lohnerhöhungen) beschränkt zu sein. Man kann so unterschiedliche Entwicklungen, bspw. bei den Lohnempfängern mit den höchsten 20 % der Löhne schätzen.
GLS (Generalized Least Squares)‐Methode: Sie gewichtet die Residuen in unterschiedlichem Ausmaß, um Heteroskedastie zu berücksichtigen.
WLS (Weighted Least Squares)‐Methode: Es handelt sich um einen Spezialfall der GLS‐Methode. Hier werden die Residuen umgekehrt proportional zu ihrer Varianz gewichtet.
ML (Maximum‐Likelihood)‐Methode: Das Verfahren ermittelt die Koeffizienten, die bei einer bestimmten Verteilung die beobachteten Datenwerte der Stichprobe am wahrscheinlichsten werden lässt. In der Regel wird eine Normalverteilung der Fehler und damit der abhängigen Variablen angenommen. Dann stimmen die Ergebnisse der OLS‐ und der ML‐Schätzer überein.
Momentenmethode (Method of Moments): Hier werden die zu schätzenden Parameter als Gleichung (Funktion) der Momente einer Verteilung aufgefasst. Erwartungswert und Varianz sind das erste und das zweite zentrale Moment einer Verteilung. Zum Beispiel lassen sich mit zwei Momenten und damit zwei Gleichungen zwei Koeffizienten (bo und b1) schätzen.
Die verschiedenen Verfahren werden genauer beschrieben von Baum (2006, S. 72–75, 112–113), Ashley (2012, S. 647–680) und Wooldridge (2013, S. 768–770).
Rights and permissions
Copyright information
© 2017 Springer-Verlag GmbH Deutschland
About this chapter
Cite this chapter
Stoetzer, MW. (2017). Voraussetzungen und Probleme der einfachen Regression. In: Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 1. Springer Gabler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-53824-1_5
Download citation
DOI: https://doi.org/10.1007/978-3-662-53824-1_5
Published:
Publisher Name: Springer Gabler, Berlin, Heidelberg
Print ISBN: 978-3-662-53823-4
Online ISBN: 978-3-662-53824-1
eBook Packages: Business and Economics (German Language)