Skip to main content
  • 14k Accesses

Zusammenfassung

Die Ergebnisse einer einfachen linearen Regressionsanalyse sind nur unter bestimmten Voraussetzungen gültig. Diese Prämissen betreffen erstens die Verteilung der Residuen. Sie müssen das Ergebnis eines reinen Zufallsprozesses sein. D.h. es darf keine Heteroskedastie (Abschn. 5.2) und Autokorrelation (Abschn. 5.3) vorliegen – ggf. ergänzt von der Forderung, dass die Residuen normalverteilt sind (Abschn. 5.4). Zweitens ist es zur Ermittlung der Parameterschätzungen notwendig, dass keine Multikollinearität existiert (Abschn. 5.5). Drittens erläutert Abschnitt 5.6, welche Bedeutung Ausreißern und einflussreichen Beobachtungen zukommt. Verschiedene Schwierigkeiten werden viertens im Abschnitt 5.7 unter dem Begriff Fehlspezifikation erörtert. Fünftens beschreibt Abschnitt 5.8 kurz das Problem fehlerbehafteter Werte bei den exogenen Variablen. Abschließend geht Abschnitt 5.9 auf den notwendigen Stichprobenumfang ein. Einzelne Abschnitte enthalten Hinweise zur Durchführung in SPSS und Stata.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 29.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 39.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Dies gilt nur für die OLS‐Schätzung. Bei den nichtlinearen Logit‑, Probit‐ usw. Schätzverfahren, die hier nicht behandelt werden, führt Heteroskedastie auch zu verzerrten Koeffizientenschätzungen!

  2. 2.

    Eine früher gängige Methode ist der Goldfeld‐Quandt‐Test. Eine weitere Variante ist der Test von Glejser, bei dem die absoluten Werte der Residuen als abhängige Variable auf die unabhängigen Variablen regressiert werden. Hackl (2013, S. 192–194) erläutert diese Verfahren.

  3. 3.

    Zum Teil wird diese Form des Tests auch als Variante des Breusch‐Pagan‐Tests aufgefasst (Cameron und Trivedi 2010, S. 101).

  4. 4.

    Der WLS‐Schätzer ist eine Form der Methode der verallgemeinerten kleinsten Quadrate (GLS – Generalized Least Squares bzw. FGLS – Feasible Generalized Least Squares).

  5. 5.

    Das Verfahren firmiert auch als Huber‐White‐ bzw. Sandwich‐Schätzer.

  6. 6.

    Diese robusten Standardfehler sind nicht mit Verfahren robuster Koeffizientenschätzungen zu verwechseln. Letztere kommen ggf. bei Ausreißern und einflussreichen Beobachtungen zum Einsatz (siehe Abschn. 5.7).

  7. 7.

    Simulationsstudien weisen darauf hin, dass bei Dummy‐Variablen mit unterschiedlichen Fallzahlen (Sub‐Sample‐Umfängen) und unterschiedlichen Standardfehlern in den verschiedenen Ausprägungen ein kleines Sub‐Sample mit hohem Standardfehler dazu führt, dass die Irrtumswahrscheinlichkeit des t‐Tests zu gering ausgewiesen wird. Der robuste Standardfehler wird dann größer sein als der normale Standardfehler. Umgekehrt ist der robuste Standardfehler kleiner als der normale Standardfehler, wenn in einem kleinen Sub‐Sample einer Dummy‐Variablen‐Ausprägung der Standardfehler relativ klein ist (UCLA ATS 2011). Siehe auch Sribney (1998).

  8. 8.

    Datenbasis: Hochschulabschlussnoten_BWL.sav. Spezifikation der Regression: Abhängige Variable: Abschlussnote, Unabhängige Variablen: Schulnote, EinSchwerpunkt, Weiblich, Alter, Aktualität.

  9. 9.

    Ein SPSS‐Macro dazu wird beschrieben von Hayes und Cai (2007) und erläutert in: http://www.youtube.com/watch?v=paYqAb2npTc.

  10. 10.

    Die Optionen werden als HC1, HC2 und HC3 bezeichnet. Genauer dazu Weisberg (2014, S. 163), Angrist und Pischke (2009, S. 293–315) und insbesondere Kaufman (2013, S. 43–50). Eine weitere hier nicht behandelte Lösung ist in Stata die Verwendung Cluster‐robuster Standardfehler. Wie in der Einleitung zu diesem Kapitel beschrieben, müssen die Residuen identisch verteilt sein. Häufig ist aber plausibel, dass zwischen verschiedenen Beobachtungsgruppen (Clustern) die Residuen unterschiedlich hoch sind. Zum Beispiel die Varianz des Konsumes zwischen Männern und Frauen oder die Varianz der Noten zwischen verschiedenen Schwerpunkten der Studierenden. Diese Unterschiede können durch geeignete Verfahren berücksichtigt werden.

  11. 11.

    Bei der Analyse von Zeitreihen führt Autokorrelation unter Umständen auch zu verzerrten Koeffizientenschätzungen (Auer und Rottmann 2010, S. 540 ff.). Dies ist bei der Verwendung von dynamischen Modellen mit verzögerten endogenen Variablen der Fall, die hier nicht behandelt werden.

  12. 12.

    Eine modifizierte Form ist der Ljung‐Box‐Test, der bei kleinen Sampeln zu bevorzugen ist (Hackl 2013, S. 215).

  13. 13.

    Hierzu existieren verschiedene Möglichkeiten: Das Prais‐Winston‑, Cochran‐Orcutt‐ und Hildreth‐Lu‐Verfahren sind die gängigsten (Baum 2006, S. 159 f.).

  14. 14.

    In der Psychologie und anderen Sozialwissenschaften wird darauf größerer Wert gelegt (Borz 2005, S. 75–79; Bühner und Ziegler 2009, S. 716–717). Siehe auch Ashley (2012, S. 228–237).

  15. 15.

    Allerdings ist unter Umständen die Normalverteilung grundlegend. Das Maximum‐Likelihood‐Schätzverfahren (ML‐Schätzung) basiert häufig auf der Annahme, dass die Normalverteilung gilt (siehe Anhang 5.1). Es sollte nur bei größeren Stichprobenumfängen eingesetzt werden, da die Wahrscheinlichkeit einen Fehler zweiter Art zu begehen, bei kleinen Stichproben mit der Zahl der exogenen Variablen stark zunimmt (Hart und Clark 1999).

  16. 16.

    Multikollinearität wird in der Literatur auch einfach als Kollinearität bezeichnet.

  17. 17.

    Wenn zwei Variablen überhaupt nicht miteinander korrelieren, sind diese orthogonal zueinander. Siehe dazu auch Abschn. 5.7.

  18. 18.

    Zur Berechnung von b muss die Matrix der Beobachtungsdaten X′X invertiert werden (siehe Abschn. 8.2 am Ende des Buchs). Wenn einige Eigenwerte der Matrizen sehr groß sind und andere sehr nahe an Null liegen, kann die Inversion zu beliebig großen numerischen Fehlern führen. Winzige Veränderungen der beiden Werte führen damit zu völlig anderen Schätzergebnissen.

  19. 19.

    Fox (2016, S. 682) enthält dazu ein Beispiel auf der Grundlage eines realen Datensatzes. Die in einigen Lehrbüchern zu lesende Aussage, dass Multikollinearität die BLUE‐Eigenschaften der Koeffizientenschätzungen nicht berührt, ist insoweit problematisch. Das OLS‐Verfahren besitzt zwar diese statistische Eigenschaft, aber dies nützt praktisch wenig, wenn die Koeffizientenschätzungen komplett unzuverlässig sind.

  20. 20.

    Eine Spalte der Matrix X ist in diesem Fall eine Linearkombination (siehe oben) mindestens einer anderen Spalte (siehe auch Abschn. 8.2 am Ende des Buchs).

  21. 21.

    Mathematisch wird eine nicht invertierbare Matrix als singulär bezeichnet. Inhaltlich bedeutet dies, dass die mathematische Berechnung nicht durchführbar ist. Die Konditionszahl ergibt sich aus dem Verhältnis von maximalem zu minimalem Eigenwert der Matrix X′X (siehe auch Abschn. 8.2).

  22. 22.

    Das Gegenteil ist eine „weak reference category“, das heißt eine Referenzgruppe mit sehr wenigen Fällen (Wissman et al. 2007).

  23. 23.

    Die Begriffe standardisierte Residuen (standardized residuals) und studentisierte Residuen (studentized residuals) werden in der Literatur von verschiedenen Autoren unterschiedlich definiert (Stata 2013, S. 1873).

  24. 24.

    Weitere mögliche Größen sind unter anderem DFFITS, Mahalanobis distance und Welsch’s W. Warum existieren verwirrend viele unterschiedliche Verfahren? Sie fokussieren (zumindest zum Teil) unterschiedliche Probleme, die beim Einsatz nur eines dieser Ansätze eventuell übersehen werden (Williams 2015a).

  25. 25.

    Der Begriff „robust“ bezieht sich hier auf die Unempfindlichkeit der Regressionsergebnisse hinsichtlich des Weglassens bzw. Hinzufügens einzelner (weniger) Beobachtungen. Daneben wird in der Literatur auch von „robust“ im Sinne von Unempfindlichkeit bezüglich der Existenz von Heteroskedastie (siehe oben Abschn. 5.2) gesprochen. Diese unterschiedliche Bedeutung des Ausdrucks „robust“ führt leicht zu Verwirrung.

  26. 26.

    Verschiedene Schätzer (das heißt Schätzverfahren) werden kurz im Anhang 5.1 zu diesem Kapitel beschrieben.

  27. 27.

    Die Psychologie und Soziologie (sowie die Medizin) verwenden in der Regel andere Begriffe. Hier werden diese Probleme zum Beispiel unter den Bezeichnungen Suppressionseffekte, Mediatorvariablen und Confounder‐Variablen diskutiert (Bühner und Ziegler 2009, S. 689–703; Bortz 2005).

  28. 28.

    Das Problem wird auch als Simpson’s Paradoxon oder Yule‐Pigou‐Effekt bezeichnet (Becker 2010) und nennt sich in der Soziologie „ökologischer Fehlschluss“. Dieser Begriff stellt darauf ab, dass eine statistische Beziehung auf der Makroebene (den aggregierten Daten) nicht auf der Mikroebene (Individuen, Unternehmen) gelten muss (Schnell et al. 2013, S. 244).

  29. 29.

    Selbstverständlich bleiben aber deskriptive Darstellungen nach wie vor ein wichtiger erster Schritt weitergehender Analysen. Sie sind nur ungeeignet, komplexe oder sogar kausale Zusammenhänge zu überprüfen.

  30. 30.

    Eine weitere Annahme der einfachen OLS‐Regression ist, dass die exogenen Variablen fix sind: Wird zur Schätzung eine neue Stichprobe von Beobachtungen herangezogen, wären die Werte der exogenen Variablen genau die gleichen wie beim ersten Sample. Bei Experimenten kann diese Prämisse häufig eingehalten werden, da das Design des Experiments und damit die Auswahl der Versuchspersonen (bzw. allgemein der Beobachtungseinheiten) und exogenen Variablen vom Durchführenden kontrolliert werden. Unter bestimmten Voraussetzungen (nämlich wenn die stochastischen exogenen Variablen nicht mit den Fehlern korrelieren), ist der OLS‐Schätzer aber trotzdem verwendbar (genauere Ausführungen bei Ashley (2012, S. 269–271) und Kennedy (2008, S. 137–141)). Die angewandte Regressionsanalyse ignoriert dieses Problem (weitgehend).

  31. 31.

    „Given a certain number of observations in a data set, there is an upper limit to the complexity of the model that can be derived with any acceptable degree of uncertainty.“ (Babyak 2004, S. 1).

  32. 32.

    Viele Lehrbücher umgehen klare Aussagen, indem sie lediglich „ausreichend große“ Sample fordern. Wann aber ist eine Stichprobe „ausreichend groß“? Prinzipiell ist die Antwort einfach: Eine Stichprobe ist dann groß, wenn die Stichprobenverteilung der (erforderlichen) Normalverteilung (annähernd) entspricht. Dies hängt zum einen von der Stichprobengröße ab, aber zum anderen auch von der Verteilung der Grundgesamtheit. Ist die Grundgesamtheit normalverteilt, sind bereits sehr kleine Stichproben (n = 2 oder 5) daraus ebenfalls normalverteilt (siehe Auer und Rottmann 2010, S. 317). Schira (2005, S. 447) spricht in diesem Fall schon bei einem n von 25 von einer hinreichend großen Stichprobe. Ist die Grundgesamtheit schief und/oder mehrgipflig, werden 30 bzw. auch 50 Beobachtungen empfohlen (so ebenfalls Puhani 2001: 178). Praktisch ist die Verteilung in der Grundgesamtheit sowieso in der Regel unbekannt.

  33. 33.

    Die Konsequenzen der Verletzung dieser Prämisse, mögliche Verfahren der Überprüfung einschließlich formaler Tests sowie weitere Alternativen bei Verletzung der Annahme behandelt Abschn. 5.4.

  34. 34.

    In der umfangreichen ökonometrischen Literatur zur Regressionsanalyse wird das Problem fast nie behandelt. Der Grund dürfte darin liegen, dass zu Beginn der Ökonometrie makroökonomische Fragestellungen dominierten. In der Makroökonomie waren die vorhandenen Datensätze zum BIP, zur Arbeitslosigkeit, Inflation usw. aber häufig auf wenige Staaten beschränkt und daher klein. Es wurden also immer alle verfügbaren Beobachtungen verwendet und dagegen sprach auch nichts, da die Daten von den Statistikämtern kostenlos zur Verfügung gestellt wurden. In der statistischen Literatur zur Psychologie existieren dagegen fast immer auch Ausführungen zur notwendigen Zahl von Beobachtungen, da die Daten mühsam durch Befragungen oder Laborexperimente erhoben werden müssen.

  35. 35.

    Die Theorie der optimalen Samplegröße basiert vor allem auf Cohen (1988). Zur Möglichkeit und zu den Grenzen der Anwendung im Fall der multiplen Regression siehe Maxwell (2000), Kelley und Maxwell (2003) und Babyak (2004). Sie dazu auch die Korrektur in der 4. Auflage von Bortz und Döring (2006, S. 634) gegenüber der 3. Auflage von 2002.

  36. 36.

    Siehe Broscheid und Gschwend (2005). Sie argumentieren, dass im Prinzip immer stochastische Einflüsse vorhanden sind, wodurch auch bei Vollerhebungen unter bestimmten Bedingungen statistische Signifikanztests möglich und sinnvoll sind. Eine differenzierte Auffassung vertritt Behnke (2005).

  37. 37.

    Kennedy bezeichnet das Problem als „too‐large sample size problem“ (Kennedy 2008, S. 61).

  38. 38.

    Die zugrundeliegende Regressionsanalyse wird im Folgenden der Einfachheit halber als „wahr“ angenommen und nicht weiter hinterfragt (bspw. hinsichtlich Spezifikation u. ä.).

Literatur

  • Andersen, R. (2007): Modern Methods for Robust Regression, Los Angeles et al.

    Google Scholar 

  • Angrist, J.D.; Pischke, J.-S. (2009): Mostly Harmless Econometrics, Princeton, New Jersey

    Google Scholar 

  • Ashley, R. A. (2012): Fundamentals of Applied Econometrics, Hoboken, New Jersey

    Google Scholar 

  • Auer, B., Rottmann, H. (2010): Statistik und Ökonometrie für Wirtschaftswissenschaftler, Wiesbaden

    Google Scholar 

  • Babyak, M.A. (2004): What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models, Psychosomatic Medicine, 66: 411–421

    Google Scholar 

  • Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2011): Multivariate Analysemethoden, 13. Auflage, Heidelberg et al.

    Book  Google Scholar 

  • Baltes-Götz, B. (2016): Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics. Online-Dokument: https://www.uni-trier.de/fileadmin/urt/doku/gzlm_gee/gzlm_gee.pdf, (Zugriff: 20.11.2016)

    Google Scholar 

  • Baum, Ch. F. (2006): An Introduction to Modern Econometrics Using Stata, College Station, Texas

    Google Scholar 

  • Becker, W.E. (2010): Online Handbook for the Use of Contemporary Econometrics in Economic Education Research, https://www.aeaweb.org/about-aea/committees/economic-education/econometrics-training-modules, (Zugriff: 13.09.2016)

    Google Scholar 

  • Behnke, J. (2005): Lassen sich Signifikanztests auf Vollerhebungen anwenden? Einige essayistische Anmerkungen, Politische Vierteljahresschrift, 46, O-1–O-15, http://www.vs-verlag.de/pvs, (Zugriff: 08.09.2016)

    Article  Google Scholar 

  • Belsley, D.A. (1991): A Guide to Using the Collinearity Diagnostics, Computer Science in Economics and Management, 4: 33–50

    Google Scholar 

  • Belsley, D.A., Kuh, E., Welsch, R.E. (1980): Regression Diagnostics, New York

    Book  Google Scholar 

  • BMBF – Bundesministerium für Bildung und Forschung (2006): Macht Mozart schlau? Die Förderung kognitiver Kompetenzen durch Musik, Bildungsforschung Band 18, Berlin

    Google Scholar 

  • Bortz, J. (2005): Statistik für Human- und Sozialwissenschaftler, 6. Auflage, Heidelberg

    Google Scholar 

  • Bortz, J., Döring, N. (2006): Forschungsmethoden und Evaluation, 4. Auflage, Heidelberg

    Google Scholar 

  • Bortz, J., Döring, N. (2015): Forschungsmethoden und Evaluation, 5. Auflage, Heidelberg

    Google Scholar 

  • Broscheid, A./ Gschwend, Th. (2005): Zur statistischen Analyse von Vollerhebungen, Politische Vierteljahresschrift, 46 (1): O-16–O-26, (Zugriff: 10.01.2016)

    Article  Google Scholar 

  • Brosius, F. (2013): SPSS 21, 1. Auflage, München

    Google Scholar 

  • Bühner, M., Ziegler, M. (2009): Statistik für Psychologen und Sozialwissenschaftler, München

    Google Scholar 

  • Cameron, L.A., Trivedi, P.K. (2007): Microeconometrics, Methods and Applications, Cambridge et al.

    Google Scholar 

  • Cameron, L.A., Trivedi, P.K. (2010): Microeconometrics using Stata, Revised Edition, College Station, Texas

    Google Scholar 

  • Chatterjee, S., Hadi, A. (2012): Regression Analysis By Example, 5th ed., Hoboken

    Google Scholar 

  • Child, D. (2006). The Essentials of Factor Analysis, Third ed., London et al.

    Google Scholar 

  • Cohen, J. (1988): Statistical power analysis for the behavioral sciences, 2nd ed., Hillsdale, NJ

    Google Scholar 

  • Cook, R. D.; Weisberg, S. (1982); Residuals and influence in regression, New York, NY

    Google Scholar 

  • Cortinhas, C., Black, K. (2012): Statistics for Business and Economics, Chichester UK

    Google Scholar 

  • Criqui, M. H. (1998): Alcohol and Coronary Heart Disease: A Comparison of Ecologic and Non-Ecologic Studies, in: A. M. Gotto Jr. et al. (Eds.): Multiple Risk Factors in Cardiovascular Disease: 297–302

    Chapter  Google Scholar 

  • Dougherty, Ch. (2016): Introduction to Econometrics, 5th ed., Oxford

    Google Scholar 

  • Faul, F., Erdfelder, E., Buchner, A., Lang, A.-G. (2009): Statistical power analyses using G*Power 3.1: Tests for correlation and regression analyses, Behavior Research Methods, 41 (4): 1149–1160, doi:10.3758/BRM.41.4.1149 (Zugriff: 13.09.2016)

    Article  Google Scholar 

  • Fox, J. (2000): Nonparametric Simple Regression: Smoothing Scatterplots, Thousand Oaks

    Book  Google Scholar 

  • Fox, J. (2016): Applied Regression Analysis & Generalized Linear Models, Thousand Oaks

    Google Scholar 

  • Green, S.B. (1991): How Many Subjects Does it Take to Do a Regression Analysis?, Multivariate Behavioral Research, 26 (3): 499–510

    Article  Google Scholar 

  • Greene, W.H. (2012): Econometric Analysis, 7th ed., Harlow

    Google Scholar 

  • Gujarati, D. (2015): Econometrics by Example, 2nd ed., London

    Google Scholar 

  • Hackl, P. (2013): Einführung in die Ökonometrie, 2. Auflage München

    Google Scholar 

  • Hamilton, L. C. (2013): Statistics with STATA, Updated for Version 12, Boston Mass.

    Google Scholar 

  • Hart, R.A., Clark, D.H. (1999): Does Size Matter? Exploring the Small Sample Properties of Maximum Likelihood Estimation, Working Paper, http://polmeth.wustl.edu/files/polmeth/hart99.pdf, (Zugriff: 21.05.2016)

    Google Scholar 

  • Hayes, A. F., Cai, L. (2007): Using heteroskedasticity-consistent standard error estimators in OLS regression: An introduction and software implementation, in: Behavior Research Methods, 39 (4), 709–722, http://www.afhayes.com/spss-sas-and-mplus-macros-and-code.html (Zugriff: 11.05.2016)

    Article  Google Scholar 

  • Henderson, D. J., Parmeter, C. F. (2015): Applied Nonparametric Econometrics, New York

    Book  Google Scholar 

  • Hilbe, J.M. (2014): Modeling Count Data, Cambridge

    Book  Google Scholar 

  • Hill, R. C.; Griffiths, W. E.; Lim, C. (2008): Principles of Econometrics, Third ed., Hoboken NJ

    Google Scholar 

  • Höfer, Th., Przyrembel, H., Verleger, S. (2004): New evidence for the Theory of the Stork, Paediatric and Perinatal Epidemiology, 18: 88–92. doi:10.1111/j.1365-3016.2003.00534.x (Zugriff: 20.09.2016)

    Article  Google Scholar 

  • Hosmer, D.W., Lemeshow, S, Sturdivant, R. X. (2013): Applied Logistic Regression, 3d. Ed., Hoboken, New Jersey

    Book  Google Scholar 

  • Janssen, J.; Laatz, W. (2007): Statistische Datenanalyse mit SPSS für Windows. 8. Auflage, München

    Google Scholar 

  • Johnston, J. (1997): Econometric Methods, 4th ed., New York, NY

    Google Scholar 

  • Kaufman, R. L. (2013): Heteroskedasticity in Regression, Detection and Correction, London

    Book  Google Scholar 

  • Kelley, K., Maxwell, S.E. (2003): Sample Size for Multiple Regression: Obtaining Regression Coefficients That Are Accurate, Not Simply Significant, Psychological Methods, 8 (3): 305–321

    Article  Google Scholar 

  • Kennedy, P. (2008): A Guide to Econometrics, 6th Ed., Cambridge

    Google Scholar 

  • Kmenta, J. (1986): Elements of Econometrics, Second Edition, Anne Arbor

    Google Scholar 

  • Kockläuner, G. (1988): Angewandte Regressionsanalyse mit SPSS, Braunschweig

    Book  Google Scholar 

  • Maxwell, S. E. (2000): Sample size and multiple regression analysis, Psychological Methods, 5: 434–458

    Article  Google Scholar 

  • Menard, S.M. (2002): Applied Logistic Regression Analysis, 2nd Ed., Thousand Oaks, London, New Delhi

    Book  Google Scholar 

  • O’Brien, R. (2007): A Caution Regrading Rules of Thumb for Variance Inflation Factors, Quality & Quantity, 41: 673–690, DOI 10.1007/s11135-006-9018-6 (Zugriff: 10.09.2016)

    Article  Google Scholar 

  • Puhani, J. (2001): Statistik, Einführung mit praktischen Beispielen, 9. Auflage, Würzburg

    Google Scholar 

  • Rauscher, F., Shaw, G., Ky, K. (1993): Music and spatial task performance, Nature, 365: 611

    Article  Google Scholar 

  • Schendera, Ch. (2008): Regressionsanalyse mit SPSS, München

    Book  Google Scholar 

  • Schira, J. (2005): Statistische Methoden der VWL und BWL. Theorie und Praxis, 2. Auflage, München

    Google Scholar 

  • Schnell, R., Hill, P.B., Esser, E. (2013): Methoden der empirischen Sozialforschung, 10. Auflage, München

    Google Scholar 

  • Schwab, J. (2006): Data Analysis and Computers II, Strategy for Complete Regression Analysis, SW388R7, University of Texas at Austin, slideplayer.com/slide/4510053/ (Zugriff: 16.11.2016)

    Google Scholar 

  • Skiera, B., Albers, S (2008): Regressionsanalyse, in: Herrmann, A., Homburg, C., Klarmann, M. (Hrsg.): Handbuch Marktforschung, 3. Auflage, Wiesbaden: 467–497

    Google Scholar 

  • Sribney, William (1998): Comparison of standard errors for robust, cluster, and standard estimators, http://www.stata.com/support/faqs/statistics/standard-errors-and-vce-cluster-option/ (Zugriff: 13.12.2016)

    Google Scholar 

  • Stata (2011): Stata 12 documentation, Stata Base Reference Manual, Vol. 3, N-R, College Station, Texas

    Google Scholar 

  • Stata (2013): Stata 13 documentation, Stata Base Reference Manual, R, College Station, Texas

    Google Scholar 

  • Stata (2015b): Multivariate Statistics Reference Manual, Release 14, College Station, Texas

    Google Scholar 

  • Statistisches Bundesamt (2010): Verdienstunterschiede zwischen Männern und Frauen 2006, Wiesbaden

    Google Scholar 

  • Stock, J.H., Watson, M.W. (2014): Introduction to Econometrics, 3rd Ed. Boston

    Google Scholar 

  • Takezawa, K. (2005): Introduction to Nonparametric Regression, Boston

    Book  Google Scholar 

  • Tukey, J. W. (1977): Exploratory Data Analysis, Reading, Mass.

    Google Scholar 

  • UCLA ATS (2011): Using Stata to deal with violations of the homogenity of variance assumption in ANOVA, UCLA: Academic Technology Services, Statistical Consulting Group: http://www.ats.ucla.edu/stat/Stata/library/homvar.htm (Zugriff: 26.10.2016)

    Google Scholar 

  • Urban, D., Mayerl, J. (2011): Regressionsanalyse: Theorie, Technik und Anwendung, Wiesbaden

    Book  Google Scholar 

  • VanVoorhis, C.R.W., Morgan, B.L. (2007): Understanding Power and Rules of Thumb for Determining Sample Sizes, Tutorials in Quantitative Methods for Psychology, 3 (2): 43–50

    Article  Google Scholar 

  • Weisberg, S. (2014): Applied Linear Regression, 4th Ed., Hoboken

    Google Scholar 

  • Westhoff, F. (2013): An Introduction to Econometrics. A Self-contained Approach, Cambridge, Mass., London

    Google Scholar 

  • Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL, München

    Google Scholar 

  • Williams, R. (2015a): Outliers, PDF-Dokument, University of Notre Dame, https://www3.nd.edu/~rwilliam/stats2/l24.pdf, (Zugriff: 16.06.2015)

    Google Scholar 

  • Williams, R. (2015b): Heteroscedasticity, PDF-Dokument, University of Notre Dame, https://www3.nd.edu/~rwilliam/stats2/l25.pdf, (Zugriff: 29.04.2015)

    Google Scholar 

  • Wissmann, M., Toutenburg, H., Shalabh (2007): Role of Categorial Variables in Multicollinearity in the Linear regression Model, Technical Report No. 008, Department of Statistics, University of Munich

    Google Scholar 

  • Wooldridge, J.M. (2010): Econometric Analysis of Cross Section and Panel Data, 2nd Ed., Cambridge

    Google Scholar 

  • Wooldridge, J.M. (2013): Introductory Econometrics – A Modern Approach, 5th Ed., Mason, Ohio

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Matthias-W. Stoetzer .

Anhang

Anhang

Anhang 5.1: Schätzverfahren

Die OLS‐Methode (KQ‐Methode) ist das gängigste Verfahren für die Schätzung der Koeffizienten und der Varianzen in der linearen Regression. Darüber hinaus existieren aber viele andere Ansätze, von denen einige wichtige hier kurz beschrieben werden. Die Koeffizienten sind als bedingte Mittelwerte der abhängigen Variable zu interpretieren.

LAD (Least Absolute Deviation)‐Methode: Sie minimiert die Summe der absoluten Abweichungen der Beobachtungen von der geschätzten Regression. Dadurch werden positive und negative Residuen gleich gewichtet (wie bei der OLS‐Methode), aber große Abweichungen haben keinen so starken Einfluss, da die Quadrierung wegfällt. Die Koeffizientenschätzungen sind jetzt der bedingte Median der exogenen Variable.

Quantilsregression: Hier werden die negativen und die positiven Abweichungen unterschiedlich gewichtet. Zum Beispiel werden beim 5. Quantil die positiven Residuen mit dem Faktor 2,5 gewichtet und die negativen Residuen mit 0,5. Der geschätzte Koeffizient entspricht dann der Veränderung der höchsten 20 % der abhängigen Variablen, wenn die unabhängige Variable um eine Einheit steigt oder sinkt. Ihr Vorteil ist, nicht auf die Veränderungen im Mittel (bspw. der Lohnerhöhungen) beschränkt zu sein. Man kann so unterschiedliche Entwicklungen, bspw. bei den Lohnempfängern mit den höchsten 20 % der Löhne schätzen.

GLS (Generalized Least Squares)‐Methode: Sie gewichtet die Residuen in unterschiedlichem Ausmaß, um Heteroskedastie zu berücksichtigen.

WLS (Weighted Least Squares)‐Methode: Es handelt sich um einen Spezialfall der GLS‐Methode. Hier werden die Residuen umgekehrt proportional zu ihrer Varianz gewichtet.

ML (Maximum‐Likelihood)‐Methode: Das Verfahren ermittelt die Koeffizienten, die bei einer bestimmten Verteilung die beobachteten Datenwerte der Stichprobe am wahrscheinlichsten werden lässt. In der Regel wird eine Normalverteilung der Fehler und damit der abhängigen Variablen angenommen. Dann stimmen die Ergebnisse der OLS‐ und der ML‐Schätzer überein.

Momentenmethode (Method of Moments): Hier werden die zu schätzenden Parameter als Gleichung (Funktion) der Momente einer Verteilung aufgefasst. Erwartungswert und Varianz sind das erste und das zweite zentrale Moment einer Verteilung. Zum Beispiel lassen sich mit zwei Momenten und damit zwei Gleichungen zwei Koeffizienten (bo und b1) schätzen.

Die verschiedenen Verfahren werden genauer beschrieben von Baum (2006, S. 72–75, 112–113), Ashley (2012, S. 647–680) und Wooldridge (2013, S. 768–770).

Rights and permissions

Reprints and permissions

Copyright information

© 2017 Springer-Verlag GmbH Deutschland

About this chapter

Cite this chapter

Stoetzer, MW. (2017). Voraussetzungen und Probleme der einfachen Regression. In: Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 1. Springer Gabler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-53824-1_5

Download citation

  • DOI: https://doi.org/10.1007/978-3-662-53824-1_5

  • Published:

  • Publisher Name: Springer Gabler, Berlin, Heidelberg

  • Print ISBN: 978-3-662-53823-4

  • Online ISBN: 978-3-662-53824-1

  • eBook Packages: Business and Economics (German Language)

Publish with us

Policies and ethics