Skip to main content

Baumbasierte Verfahren

  • Chapter
  • First Online:
Moderne Datenanalyse mit R

Part of the book series: FOM-Edition ((FOMEDITION))

  • 41k Accesses

Zusammenfassung

In diesem Kapitel werden einige Varianten sog. „baumbasierter Verfahren“ vorgestellt. Als erster Vertreter werden Entscheidungsbäume diskutiert, gefolgt von einer kurzen Darstellung von Bagging-Modellen und dann, ausführlicher, von Random-Forest-Modellen. Da Entscheidungsbäume die konzeptionelle Grundlage dieser Familie stellen, erörtern wir diese Modelle relativ detailliert. Schließlich werden noch Vor- und Nachteile dieser Modellfamilie einander gegenübergestellt. Zum Abschluss bestimmen Sie die Relevanz von Prädiktoren bei diesen Modellen.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 39.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 49.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Z. B. mit tally(~is_halodrie, data = train_df, format = ″​percent″​); der Anteil der häufigsten Kategorie ist die Vorhersage des Nullmodells.

  2. 2.

    https://topepo.github.io/caret/train-models-by-tag.html#bagging.

  3. 3.

    Man könnte ntree daher eher als Schokoladenparameter bezeichnen: Eine gewisse Menge wünscht man sich, aber mehr bringt keinen Zusatznutzen; randomforest und damit caret als Schnittstelle zu randomforest nimmt ntree = 500 als Standard, vgl. ?randomForest.

  4. 4.

    Vgl. Abschn. 21.1.2.

  5. 5.

    baum2a <- rpart(is_halodrie ~ rating + age, data = train_df); plot(as.party(baum2a)); es resultiert ein anderer Baum. Interessant ist, dass die Variable age mehr als einmal in den Baum einging, wie im baum2 auch.

  6. 6.

    Z. B. so: baum2a[[″​control″​]].

  7. 7.

    baum2a[[″​variable.importance″​]].

  8. 8.

    train(kiterium ~ praediktor, data = meine_daten, method = ″​rpart″​).

  9. 9.

    Ja.

  10. 10.

    Nein; wird die Anzahl der Knoten im Baum zu groß, so sinkt die Modellgüte im Test-Sample wieder.

  11. 11.

    Nein; in der Regel sind viel kleinere Werte besser. Als Faustregel kann man mit \(\sqrt{(k)}\) beginnen, wobei \(k\) die Anzahl der Prädiktoren im Modell bezeichnet.

  12. 12.

    Ca. 50 Prozentpunkte; s. Abb. 21.3 im Vergleich von Knoten 6 und Knoten 7. In Abb. 21.2 kennzeichnet das linke, mittlere Rechteck (sowohl bei Männern als auch bei Frauen) diesen Unterschied (also Menschen mit geringer Ehezufriedenheit und mittlerem Alter).

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Sebastian Sauer .

Rights and permissions

Reprints and permissions

Copyright information

© 2019 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Sauer, S. (2019). Baumbasierte Verfahren. In: Moderne Datenanalyse mit R. FOM-Edition. Springer Gabler, Wiesbaden. https://doi.org/10.1007/978-3-658-21587-3_21

Download citation

  • DOI: https://doi.org/10.1007/978-3-658-21587-3_21

  • Published:

  • Publisher Name: Springer Gabler, Wiesbaden

  • Print ISBN: 978-3-658-21586-6

  • Online ISBN: 978-3-658-21587-3

  • eBook Packages: Business and Economics (German Language)

Publish with us

Policies and ethics