Voraussetzungen und Probleme der einfachen Regression

Stoetzer, Matthias-W.

doi:10.1007/978-3-662-53824-1_5

Matthias-W. Stoetzer²

14k Accesses

Zusammenfassung

Die Ergebnisse einer einfachen linearen Regressionsanalyse sind nur unter bestimmten Voraussetzungen gültig. Diese Prämissen betreffen erstens die Verteilung der Residuen. Sie müssen das Ergebnis eines reinen Zufallsprozesses sein. D.h. es darf keine Heteroskedastie (Abschn. 5.2) und Autokorrelation (Abschn. 5.3) vorliegen – ggf. ergänzt von der Forderung, dass die Residuen normalverteilt sind (Abschn. 5.4). Zweitens ist es zur Ermittlung der Parameterschätzungen notwendig, dass keine Multikollinearität existiert (Abschn. 5.5). Drittens erläutert Abschnitt 5.6, welche Bedeutung Ausreißern und einflussreichen Beobachtungen zukommt. Verschiedene Schwierigkeiten werden viertens im Abschnitt 5.7 unter dem Begriff Fehlspezifikation erörtert. Fünftens beschreibt Abschnitt 5.8 kurz das Problem fehlerbehafteter Werte bei den exogenen Variablen. Abschließend geht Abschnitt 5.9 auf den notwendigen Stichprobenumfang ein. Einzelne Abschnitte enthalten Hinweise zur Durchführung in SPSS und Stata.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 29.99; Price excludes VAT (USA)

Softcover Book: USD 39.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Dies gilt nur für die OLS‐Schätzung. Bei den nichtlinearen Logit‑, Probit‐ usw. Schätzverfahren, die hier nicht behandelt werden, führt Heteroskedastie auch zu verzerrten Koeffizientenschätzungen!
2.
Eine früher gängige Methode ist der Goldfeld‐Quandt‐Test. Eine weitere Variante ist der Test von Glejser, bei dem die absoluten Werte der Residuen als abhängige Variable auf die unabhängigen Variablen regressiert werden. Hackl (2013, S. 192–194) erläutert diese Verfahren.
3.
Zum Teil wird diese Form des Tests auch als Variante des Breusch‐Pagan‐Tests aufgefasst (Cameron und Trivedi 2010, S. 101).
4.
Der WLS‐Schätzer ist eine Form der Methode der verallgemeinerten kleinsten Quadrate (GLS – Generalized Least Squares bzw. FGLS – Feasible Generalized Least Squares).
5.
Das Verfahren firmiert auch als Huber‐White‐ bzw. Sandwich‐Schätzer.
6.
Diese robusten Standardfehler sind nicht mit Verfahren robuster Koeffizientenschätzungen zu verwechseln. Letztere kommen ggf. bei Ausreißern und einflussreichen Beobachtungen zum Einsatz (siehe Abschn. 5.7).
7.
Simulationsstudien weisen darauf hin, dass bei Dummy‐Variablen mit unterschiedlichen Fallzahlen (Sub‐Sample‐Umfängen) und unterschiedlichen Standardfehlern in den verschiedenen Ausprägungen ein kleines Sub‐Sample mit hohem Standardfehler dazu führt, dass die Irrtumswahrscheinlichkeit des t‐Tests zu gering ausgewiesen wird. Der robuste Standardfehler wird dann größer sein als der normale Standardfehler. Umgekehrt ist der robuste Standardfehler kleiner als der normale Standardfehler, wenn in einem kleinen Sub‐Sample einer Dummy‐Variablen‐Ausprägung der Standardfehler relativ klein ist (UCLA ATS 2011). Siehe auch Sribney (1998).
8.
Datenbasis: Hochschulabschlussnoten_BWL.sav. Spezifikation der Regression: Abhängige Variable: Abschlussnote, Unabhängige Variablen: Schulnote, EinSchwerpunkt, Weiblich, Alter, Aktualität.
9.
Ein SPSS‐Macro dazu wird beschrieben von Hayes und Cai (2007) und erläutert in: http://www.youtube.com/watch?v=paYqAb2npTc.
10.
Die Optionen werden als HC₁, HC₂ und HC₃ bezeichnet. Genauer dazu Weisberg (2014, S. 163), Angrist und Pischke (2009, S. 293–315) und insbesondere Kaufman (2013, S. 43–50). Eine weitere hier nicht behandelte Lösung ist in Stata die Verwendung Cluster‐robuster Standardfehler. Wie in der Einleitung zu diesem Kapitel beschrieben, müssen die Residuen identisch verteilt sein. Häufig ist aber plausibel, dass zwischen verschiedenen Beobachtungsgruppen (Clustern) die Residuen unterschiedlich hoch sind. Zum Beispiel die Varianz des Konsumes zwischen Männern und Frauen oder die Varianz der Noten zwischen verschiedenen Schwerpunkten der Studierenden. Diese Unterschiede können durch geeignete Verfahren berücksichtigt werden.
11.
Bei der Analyse von Zeitreihen führt Autokorrelation unter Umständen auch zu verzerrten Koeffizientenschätzungen (Auer und Rottmann 2010, S. 540 ff.). Dies ist bei der Verwendung von dynamischen Modellen mit verzögerten endogenen Variablen der Fall, die hier nicht behandelt werden.
12.
Eine modifizierte Form ist der Ljung‐Box‐Test, der bei kleinen Sampeln zu bevorzugen ist (Hackl 2013, S. 215).
13.
Hierzu existieren verschiedene Möglichkeiten: Das Prais‐Winston‑, Cochran‐Orcutt‐ und Hildreth‐Lu‐Verfahren sind die gängigsten (Baum 2006, S. 159 f.).
14.
In der Psychologie und anderen Sozialwissenschaften wird darauf größerer Wert gelegt (Borz 2005, S. 75–79; Bühner und Ziegler 2009, S. 716–717). Siehe auch Ashley (2012, S. 228–237).
15.
Allerdings ist unter Umständen die Normalverteilung grundlegend. Das Maximum‐Likelihood‐Schätzverfahren (ML‐Schätzung) basiert häufig auf der Annahme, dass die Normalverteilung gilt (siehe Anhang 5.1). Es sollte nur bei größeren Stichprobenumfängen eingesetzt werden, da die Wahrscheinlichkeit einen Fehler zweiter Art zu begehen, bei kleinen Stichproben mit der Zahl der exogenen Variablen stark zunimmt (Hart und Clark 1999).
16.
Multikollinearität wird in der Literatur auch einfach als Kollinearität bezeichnet.
17.
Wenn zwei Variablen überhaupt nicht miteinander korrelieren, sind diese orthogonal zueinander. Siehe dazu auch Abschn. 5.7.
18.
Zur Berechnung von b muss die Matrix der Beobachtungsdaten X′X invertiert werden (siehe Abschn. 8.2 am Ende des Buchs). Wenn einige Eigenwerte der Matrizen sehr groß sind und andere sehr nahe an Null liegen, kann die Inversion zu beliebig großen numerischen Fehlern führen. Winzige Veränderungen der beiden Werte führen damit zu völlig anderen Schätzergebnissen.
19.
Fox (2016, S. 682) enthält dazu ein Beispiel auf der Grundlage eines realen Datensatzes. Die in einigen Lehrbüchern zu lesende Aussage, dass Multikollinearität die BLUE‐Eigenschaften der Koeffizientenschätzungen nicht berührt, ist insoweit problematisch. Das OLS‐Verfahren besitzt zwar diese statistische Eigenschaft, aber dies nützt praktisch wenig, wenn die Koeffizientenschätzungen komplett unzuverlässig sind.
20.
Eine Spalte der Matrix X ist in diesem Fall eine Linearkombination (siehe oben) mindestens einer anderen Spalte (siehe auch Abschn. 8.2 am Ende des Buchs).
21.
Mathematisch wird eine nicht invertierbare Matrix als singulär bezeichnet. Inhaltlich bedeutet dies, dass die mathematische Berechnung nicht durchführbar ist. Die Konditionszahl ergibt sich aus dem Verhältnis von maximalem zu minimalem Eigenwert der Matrix X′X (siehe auch Abschn. 8.2).
22.
Das Gegenteil ist eine „weak reference category“, das heißt eine Referenzgruppe mit sehr wenigen Fällen (Wissman et al. 2007).
23.
Die Begriffe standardisierte Residuen (standardized residuals) und studentisierte Residuen (studentized residuals) werden in der Literatur von verschiedenen Autoren unterschiedlich definiert (Stata 2013, S. 1873).
24.
Weitere mögliche Größen sind unter anderem DFFITS, Mahalanobis distance und Welsch’s W. Warum existieren verwirrend viele unterschiedliche Verfahren? Sie fokussieren (zumindest zum Teil) unterschiedliche Probleme, die beim Einsatz nur eines dieser Ansätze eventuell übersehen werden (Williams 2015a).
25.
Der Begriff „robust“ bezieht sich hier auf die Unempfindlichkeit der Regressionsergebnisse hinsichtlich des Weglassens bzw. Hinzufügens einzelner (weniger) Beobachtungen. Daneben wird in der Literatur auch von „robust“ im Sinne von Unempfindlichkeit bezüglich der Existenz von Heteroskedastie (siehe oben Abschn. 5.2) gesprochen. Diese unterschiedliche Bedeutung des Ausdrucks „robust“ führt leicht zu Verwirrung.
26.
Verschiedene Schätzer (das heißt Schätzverfahren) werden kurz im Anhang 5.1 zu diesem Kapitel beschrieben.
27.
Die Psychologie und Soziologie (sowie die Medizin) verwenden in der Regel andere Begriffe. Hier werden diese Probleme zum Beispiel unter den Bezeichnungen Suppressionseffekte, Mediatorvariablen und Confounder‐Variablen diskutiert (Bühner und Ziegler 2009, S. 689–703; Bortz 2005).
28.
Das Problem wird auch als Simpson’s Paradoxon oder Yule‐Pigou‐Effekt bezeichnet (Becker 2010) und nennt sich in der Soziologie „ökologischer Fehlschluss“. Dieser Begriff stellt darauf ab, dass eine statistische Beziehung auf der Makroebene (den aggregierten Daten) nicht auf der Mikroebene (Individuen, Unternehmen) gelten muss (Schnell et al. 2013, S. 244).
29.
Selbstverständlich bleiben aber deskriptive Darstellungen nach wie vor ein wichtiger erster Schritt weitergehender Analysen. Sie sind nur ungeeignet, komplexe oder sogar kausale Zusammenhänge zu überprüfen.
30.
Eine weitere Annahme der einfachen OLS‐Regression ist, dass die exogenen Variablen fix sind: Wird zur Schätzung eine neue Stichprobe von Beobachtungen herangezogen, wären die Werte der exogenen Variablen genau die gleichen wie beim ersten Sample. Bei Experimenten kann diese Prämisse häufig eingehalten werden, da das Design des Experiments und damit die Auswahl der Versuchspersonen (bzw. allgemein der Beobachtungseinheiten) und exogenen Variablen vom Durchführenden kontrolliert werden. Unter bestimmten Voraussetzungen (nämlich wenn die stochastischen exogenen Variablen nicht mit den Fehlern korrelieren), ist der OLS‐Schätzer aber trotzdem verwendbar (genauere Ausführungen bei Ashley (2012, S. 269–271) und Kennedy (2008, S. 137–141)). Die angewandte Regressionsanalyse ignoriert dieses Problem (weitgehend).
31.
„Given a certain number of observations in a data set, there is an upper limit to the complexity of the model that can be derived with any acceptable degree of uncertainty.“ (Babyak 2004, S. 1).
32.
Viele Lehrbücher umgehen klare Aussagen, indem sie lediglich „ausreichend große“ Sample fordern. Wann aber ist eine Stichprobe „ausreichend groß“? Prinzipiell ist die Antwort einfach: Eine Stichprobe ist dann groß, wenn die Stichprobenverteilung der (erforderlichen) Normalverteilung (annähernd) entspricht. Dies hängt zum einen von der Stichprobengröße ab, aber zum anderen auch von der Verteilung der Grundgesamtheit. Ist die Grundgesamtheit normalverteilt, sind bereits sehr kleine Stichproben (n = 2 oder 5) daraus ebenfalls normalverteilt (siehe Auer und Rottmann 2010, S. 317). Schira (2005, S. 447) spricht in diesem Fall schon bei einem n von 25 von einer hinreichend großen Stichprobe. Ist die Grundgesamtheit schief und/oder mehrgipflig, werden 30 bzw. auch 50 Beobachtungen empfohlen (so ebenfalls Puhani 2001: 178). Praktisch ist die Verteilung in der Grundgesamtheit sowieso in der Regel unbekannt.
33.
Die Konsequenzen der Verletzung dieser Prämisse, mögliche Verfahren der Überprüfung einschließlich formaler Tests sowie weitere Alternativen bei Verletzung der Annahme behandelt Abschn. 5.4.
34.
In der umfangreichen ökonometrischen Literatur zur Regressionsanalyse wird das Problem fast nie behandelt. Der Grund dürfte darin liegen, dass zu Beginn der Ökonometrie makroökonomische Fragestellungen dominierten. In der Makroökonomie waren die vorhandenen Datensätze zum BIP, zur Arbeitslosigkeit, Inflation usw. aber häufig auf wenige Staaten beschränkt und daher klein. Es wurden also immer alle verfügbaren Beobachtungen verwendet und dagegen sprach auch nichts, da die Daten von den Statistikämtern kostenlos zur Verfügung gestellt wurden. In der statistischen Literatur zur Psychologie existieren dagegen fast immer auch Ausführungen zur notwendigen Zahl von Beobachtungen, da die Daten mühsam durch Befragungen oder Laborexperimente erhoben werden müssen.
35.
Die Theorie der optimalen Samplegröße basiert vor allem auf Cohen (1988). Zur Möglichkeit und zu den Grenzen der Anwendung im Fall der multiplen Regression siehe Maxwell (2000), Kelley und Maxwell (2003) und Babyak (2004). Sie dazu auch die Korrektur in der 4. Auflage von Bortz und Döring (2006, S. 634) gegenüber der 3. Auflage von 2002.
36.
Siehe Broscheid und Gschwend (2005). Sie argumentieren, dass im Prinzip immer stochastische Einflüsse vorhanden sind, wodurch auch bei Vollerhebungen unter bestimmten Bedingungen statistische Signifikanztests möglich und sinnvoll sind. Eine differenzierte Auffassung vertritt Behnke (2005).
37.
Kennedy bezeichnet das Problem als „too‐large sample size problem“ (Kennedy 2008, S. 61).
38.
Die zugrundeliegende Regressionsanalyse wird im Folgenden der Einfachheit halber als „wahr“ angenommen und nicht weiter hinterfragt (bspw. hinsichtlich Spezifikation u. ä.).

Literatur

Andersen, R. (2007): Modern Methods for Robust Regression, Los Angeles et al.
Google Scholar
Angrist, J.D.; Pischke, J.-S. (2009): Mostly Harmless Econometrics, Princeton, New Jersey
Google Scholar
Ashley, R. A. (2012): Fundamentals of Applied Econometrics, Hoboken, New Jersey
Google Scholar
Auer, B., Rottmann, H. (2010): Statistik und Ökonometrie für Wirtschaftswissenschaftler, Wiesbaden
Google Scholar
Babyak, M.A. (2004): What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models, Psychosomatic Medicine, 66: 411–421
Google Scholar
Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2011): Multivariate Analysemethoden, 13. Auflage, Heidelberg et al.
Book Google Scholar
Baltes-Götz, B. (2016): Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics. Online-Dokument: https://www.uni-trier.de/fileadmin/urt/doku/gzlm_gee/gzlm_gee.pdf, (Zugriff: 20.11.2016)
Google Scholar
Baum, Ch. F. (2006): An Introduction to Modern Econometrics Using Stata, College Station, Texas
Google Scholar
Becker, W.E. (2010): Online Handbook for the Use of Contemporary Econometrics in Economic Education Research, https://www.aeaweb.org/about-aea/committees/economic-education/econometrics-training-modules, (Zugriff: 13.09.2016)
Google Scholar
Behnke, J. (2005): Lassen sich Signifikanztests auf Vollerhebungen anwenden? Einige essayistische Anmerkungen, Politische Vierteljahresschrift, 46, O-1–O-15, http://www.vs-verlag.de/pvs, (Zugriff: 08.09.2016)
Article Google Scholar
Belsley, D.A. (1991): A Guide to Using the Collinearity Diagnostics, Computer Science in Economics and Management, 4: 33–50
Google Scholar
Belsley, D.A., Kuh, E., Welsch, R.E. (1980): Regression Diagnostics, New York
Book Google Scholar
BMBF – Bundesministerium für Bildung und Forschung (2006): Macht Mozart schlau? Die Förderung kognitiver Kompetenzen durch Musik, Bildungsforschung Band 18, Berlin
Google Scholar
Bortz, J. (2005): Statistik für Human- und Sozialwissenschaftler, 6. Auflage, Heidelberg
Google Scholar
Bortz, J., Döring, N. (2006): Forschungsmethoden und Evaluation, 4. Auflage, Heidelberg
Google Scholar
Bortz, J., Döring, N. (2015): Forschungsmethoden und Evaluation, 5. Auflage, Heidelberg
Google Scholar
Broscheid, A./ Gschwend, Th. (2005): Zur statistischen Analyse von Vollerhebungen, Politische Vierteljahresschrift, 46 (1): O-16–O-26, (Zugriff: 10.01.2016)
Article Google Scholar
Brosius, F. (2013): SPSS 21, 1. Auflage, München
Google Scholar
Bühner, M., Ziegler, M. (2009): Statistik für Psychologen und Sozialwissenschaftler, München
Google Scholar
Cameron, L.A., Trivedi, P.K. (2007): Microeconometrics, Methods and Applications, Cambridge et al.
Google Scholar
Cameron, L.A., Trivedi, P.K. (2010): Microeconometrics using Stata, Revised Edition, College Station, Texas
Google Scholar
Chatterjee, S., Hadi, A. (2012): Regression Analysis By Example, 5^th ed., Hoboken
Google Scholar
Child, D. (2006). The Essentials of Factor Analysis, Third ed., London et al.
Google Scholar
Cohen, J. (1988): Statistical power analysis for the behavioral sciences, 2^nd ed., Hillsdale, NJ
Google Scholar
Cook, R. D.; Weisberg, S. (1982); Residuals and influence in regression, New York, NY
Google Scholar
Cortinhas, C., Black, K. (2012): Statistics for Business and Economics, Chichester UK
Google Scholar
Criqui, M. H. (1998): Alcohol and Coronary Heart Disease: A Comparison of Ecologic and Non-Ecologic Studies, in: A. M. Gotto Jr. et al. (Eds.): Multiple Risk Factors in Cardiovascular Disease: 297–302
Chapter Google Scholar
Dougherty, Ch. (2016): Introduction to Econometrics, 5^th ed., Oxford
Google Scholar
Faul, F., Erdfelder, E., Buchner, A., Lang, A.-G. (2009): Statistical power analyses using G*Power 3.1: Tests for correlation and regression analyses, Behavior Research Methods, 41 (4): 1149–1160, doi:10.3758/BRM.41.4.1149 (Zugriff: 13.09.2016)
Article Google Scholar
Fox, J. (2000): Nonparametric Simple Regression: Smoothing Scatterplots, Thousand Oaks
Book Google Scholar
Fox, J. (2016): Applied Regression Analysis & Generalized Linear Models, Thousand Oaks
Google Scholar
Green, S.B. (1991): How Many Subjects Does it Take to Do a Regression Analysis?, Multivariate Behavioral Research, 26 (3): 499–510
Article Google Scholar
Greene, W.H. (2012): Econometric Analysis, 7th ed., Harlow
Google Scholar
Gujarati, D. (2015): Econometrics by Example, 2^nd ed., London
Google Scholar
Hackl, P. (2013): Einführung in die Ökonometrie, 2. Auflage München
Google Scholar
Hamilton, L. C. (2013): Statistics with STATA, Updated for Version 12, Boston Mass.
Google Scholar
Hart, R.A., Clark, D.H. (1999): Does Size Matter? Exploring the Small Sample Properties of Maximum Likelihood Estimation, Working Paper, http://polmeth.wustl.edu/files/polmeth/hart99.pdf, (Zugriff: 21.05.2016)
Google Scholar
Hayes, A. F., Cai, L. (2007): Using heteroskedasticity-consistent standard error estimators in OLS regression: An introduction and software implementation, in: Behavior Research Methods, 39 (4), 709–722, http://www.afhayes.com/spss-sas-and-mplus-macros-and-code.html (Zugriff: 11.05.2016)
Article Google Scholar
Henderson, D. J., Parmeter, C. F. (2015): Applied Nonparametric Econometrics, New York
Book Google Scholar
Hilbe, J.M. (2014): Modeling Count Data, Cambridge
Book Google Scholar
Hill, R. C.; Griffiths, W. E.; Lim, C. (2008): Principles of Econometrics, Third ed., Hoboken NJ
Google Scholar
Höfer, Th., Przyrembel, H., Verleger, S. (2004): New evidence for the Theory of the Stork, Paediatric and Perinatal Epidemiology, 18: 88–92. doi:10.1111/j.1365-3016.2003.00534.x (Zugriff: 20.09.2016)
Article Google Scholar
Hosmer, D.W., Lemeshow, S, Sturdivant, R. X. (2013): Applied Logistic Regression, 3d. Ed., Hoboken, New Jersey
Book Google Scholar
Janssen, J.; Laatz, W. (2007): Statistische Datenanalyse mit SPSS für Windows. 8. Auflage, München
Google Scholar
Johnston, J. (1997): Econometric Methods, 4^th ed., New York, NY
Google Scholar
Kaufman, R. L. (2013): Heteroskedasticity in Regression, Detection and Correction, London
Book Google Scholar
Kelley, K., Maxwell, S.E. (2003): Sample Size for Multiple Regression: Obtaining Regression Coefficients That Are Accurate, Not Simply Significant, Psychological Methods, 8 (3): 305–321
Article Google Scholar
Kennedy, P. (2008): A Guide to Econometrics, 6^th Ed., Cambridge
Google Scholar
Kmenta, J. (1986): Elements of Econometrics, Second Edition, Anne Arbor
Google Scholar
Kockläuner, G. (1988): Angewandte Regressionsanalyse mit SPSS, Braunschweig
Book Google Scholar
Maxwell, S. E. (2000): Sample size and multiple regression analysis, Psychological Methods, 5: 434–458
Article Google Scholar
Menard, S.M. (2002): Applied Logistic Regression Analysis, 2^nd Ed., Thousand Oaks, London, New Delhi
Book Google Scholar
O’Brien, R. (2007): A Caution Regrading Rules of Thumb for Variance Inflation Factors, Quality & Quantity, 41: 673–690, DOI 10.1007/s11135-006-9018-6 (Zugriff: 10.09.2016)
Article Google Scholar
Puhani, J. (2001): Statistik, Einführung mit praktischen Beispielen, 9. Auflage, Würzburg
Google Scholar
Rauscher, F., Shaw, G., Ky, K. (1993): Music and spatial task performance, Nature, 365: 611
Article Google Scholar
Schendera, Ch. (2008): Regressionsanalyse mit SPSS, München
Book Google Scholar
Schira, J. (2005): Statistische Methoden der VWL und BWL. Theorie und Praxis, 2. Auflage, München
Google Scholar
Schnell, R., Hill, P.B., Esser, E. (2013): Methoden der empirischen Sozialforschung, 10. Auflage, München
Google Scholar
Schwab, J. (2006): Data Analysis and Computers II, Strategy for Complete Regression Analysis, SW388R7, University of Texas at Austin, slideplayer.com/slide/4510053/ (Zugriff: 16.11.2016)
Google Scholar
Skiera, B., Albers, S (2008): Regressionsanalyse, in: Herrmann, A., Homburg, C., Klarmann, M. (Hrsg.): Handbuch Marktforschung, 3. Auflage, Wiesbaden: 467–497
Google Scholar
Sribney, William (1998): Comparison of standard errors for robust, cluster, and standard estimators, http://www.stata.com/support/faqs/statistics/standard-errors-and-vce-cluster-option/ (Zugriff: 13.12.2016)
Google Scholar
Stata (2011): Stata 12 documentation, Stata Base Reference Manual, Vol. 3, N-R, College Station, Texas
Google Scholar
Stata (2013): Stata 13 documentation, Stata Base Reference Manual, R, College Station, Texas
Google Scholar
Stata (2015b): Multivariate Statistics Reference Manual, Release 14, College Station, Texas
Google Scholar
Statistisches Bundesamt (2010): Verdienstunterschiede zwischen Männern und Frauen 2006, Wiesbaden
Google Scholar
Stock, J.H., Watson, M.W. (2014): Introduction to Econometrics, 3^rd Ed. Boston
Google Scholar
Takezawa, K. (2005): Introduction to Nonparametric Regression, Boston
Book Google Scholar
Tukey, J. W. (1977): Exploratory Data Analysis, Reading, Mass.
Google Scholar
UCLA ATS (2011): Using Stata to deal with violations of the homogenity of variance assumption in ANOVA, UCLA: Academic Technology Services, Statistical Consulting Group: http://www.ats.ucla.edu/stat/Stata/library/homvar.htm (Zugriff: 26.10.2016)
Google Scholar
Urban, D., Mayerl, J. (2011): Regressionsanalyse: Theorie, Technik und Anwendung, Wiesbaden
Book Google Scholar
VanVoorhis, C.R.W., Morgan, B.L. (2007): Understanding Power and Rules of Thumb for Determining Sample Sizes, Tutorials in Quantitative Methods for Psychology, 3 (2): 43–50
Article Google Scholar
Weisberg, S. (2014): Applied Linear Regression, 4^th Ed., Hoboken
Google Scholar
Westhoff, F. (2013): An Introduction to Econometrics. A Self-contained Approach, Cambridge, Mass., London
Google Scholar
Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL, München
Google Scholar
Williams, R. (2015a): Outliers, PDF-Dokument, University of Notre Dame, https://www3.nd.edu/~rwilliam/stats2/l24.pdf, (Zugriff: 16.06.2015)
Google Scholar
Williams, R. (2015b): Heteroscedasticity, PDF-Dokument, University of Notre Dame, https://www3.nd.edu/~rwilliam/stats2/l25.pdf, (Zugriff: 29.04.2015)
Google Scholar
Wissmann, M., Toutenburg, H., Shalabh (2007): Role of Categorial Variables in Multicollinearity in the Linear regression Model, Technical Report No. 008, Department of Statistics, University of Munich
Google Scholar
Wooldridge, J.M. (2010): Econometric Analysis of Cross Section and Panel Data, 2^nd Ed., Cambridge
Google Scholar
Wooldridge, J.M. (2013): Introductory Econometrics – A Modern Approach, 5^th Ed., Mason, Ohio
Google Scholar

Download references

Author information

Authors and Affiliations

Ernst-Abbe-Hochschule Jena, Jena, Deutschland
Matthias-W. Stoetzer

Authors

Matthias-W. Stoetzer
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Matthias-W. Stoetzer .

Anhang

Anhang 5.1: Schätzverfahren

Die OLS‐Methode (KQ‐Methode) ist das gängigste Verfahren für die Schätzung der Koeffizienten und der Varianzen in der linearen Regression. Darüber hinaus existieren aber viele andere Ansätze, von denen einige wichtige hier kurz beschrieben werden. Die Koeffizienten sind als bedingte Mittelwerte der abhängigen Variable zu interpretieren.

LAD (Least Absolute Deviation)‐Methode: Sie minimiert die Summe der absoluten Abweichungen der Beobachtungen von der geschätzten Regression. Dadurch werden positive und negative Residuen gleich gewichtet (wie bei der OLS‐Methode), aber große Abweichungen haben keinen so starken Einfluss, da die Quadrierung wegfällt. Die Koeffizientenschätzungen sind jetzt der bedingte Median der exogenen Variable.

Quantilsregression: Hier werden die negativen und die positiven Abweichungen unterschiedlich gewichtet. Zum Beispiel werden beim 5. Quantil die positiven Residuen mit dem Faktor 2,5 gewichtet und die negativen Residuen mit 0,5. Der geschätzte Koeffizient entspricht dann der Veränderung der höchsten 20 % der abhängigen Variablen, wenn die unabhängige Variable um eine Einheit steigt oder sinkt. Ihr Vorteil ist, nicht auf die Veränderungen im Mittel (bspw. der Lohnerhöhungen) beschränkt zu sein. Man kann so unterschiedliche Entwicklungen, bspw. bei den Lohnempfängern mit den höchsten 20 % der Löhne schätzen.

GLS (Generalized Least Squares)‐Methode: Sie gewichtet die Residuen in unterschiedlichem Ausmaß, um Heteroskedastie zu berücksichtigen.

WLS (Weighted Least Squares)‐Methode: Es handelt sich um einen Spezialfall der GLS‐Methode. Hier werden die Residuen umgekehrt proportional zu ihrer Varianz gewichtet.

ML (Maximum‐Likelihood)‐Methode: Das Verfahren ermittelt die Koeffizienten, die bei einer bestimmten Verteilung die beobachteten Datenwerte der Stichprobe am wahrscheinlichsten werden lässt. In der Regel wird eine Normalverteilung der Fehler und damit der abhängigen Variablen angenommen. Dann stimmen die Ergebnisse der OLS‐ und der ML‐Schätzer überein.

Momentenmethode (Method of Moments): Hier werden die zu schätzenden Parameter als Gleichung (Funktion) der Momente einer Verteilung aufgefasst. Erwartungswert und Varianz sind das erste und das zweite zentrale Moment einer Verteilung. Zum Beispiel lassen sich mit zwei Momenten und damit zwei Gleichungen zwei Koeffizienten (b_o und b₁) schätzen.

Die verschiedenen Verfahren werden genauer beschrieben von Baum (2006, S. 72–75, 112–113), Ashley (2012, S. 647–680) und Wooldridge (2013, S. 768–770).

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Stoetzer, MW. (2017). Voraussetzungen und Probleme der einfachen Regression. In: Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 1. Springer Gabler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-53824-1_5

Download citation

DOI: https://doi.org/10.1007/978-3-662-53824-1_5
Published: 31 May 2017
Publisher Name: Springer Gabler, Berlin, Heidelberg
Print ISBN: 978-3-662-53823-4
Online ISBN: 978-3-662-53824-1
eBook Packages: Business and Economics (German Language)

Publish with us

Policies and ethics

Voraussetzungen und Probleme der einfachen Regression

Zusammenfassung

Access this chapter

Notes

Literatur

Author information

Authors and Affiliations

Corresponding author

Anhang

Anhang

Anhang 5.1: Schätzverfahren

Rights and permissions

Copyright information

About this chapter

Cite this chapter

Download citation

Share this chapter

Publish with us

Search

Navigation