Baumbasierte Verfahren

Sauer, Sebastian

doi:10.1007/978-3-658-21587-3_21

Sebastian Sauer³

Part of the book series: FOM-Edition ((FOMEDITION))

41k Accesses

Zusammenfassung

In diesem Kapitel werden einige Varianten sog. „baumbasierter Verfahren“ vorgestellt. Als erster Vertreter werden Entscheidungsbäume diskutiert, gefolgt von einer kurzen Darstellung von Bagging-Modellen und dann, ausführlicher, von Random-Forest-Modellen. Da Entscheidungsbäume die konzeptionelle Grundlage dieser Familie stellen, erörtern wir diese Modelle relativ detailliert. Schließlich werden noch Vor- und Nachteile dieser Modellfamilie einander gegenübergestellt. Zum Abschluss bestimmen Sie die Relevanz von Prädiktoren bei diesen Modellen.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 39.99; Price excludes VAT (USA)

Softcover Book: USD 49.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Z. B. mit tally(~is_halodrie, data = train_df, format = ″percent″); der Anteil der häufigsten Kategorie ist die Vorhersage des Nullmodells.
2.
https://topepo.github.io/caret/train-models-by-tag.html#bagging.
3.
Man könnte ntree daher eher als Schokoladenparameter bezeichnen: Eine gewisse Menge wünscht man sich, aber mehr bringt keinen Zusatznutzen; randomforest und damit caret als Schnittstelle zu randomforest nimmt ntree = 500 als Standard, vgl. ?randomForest.
4.
Vgl. Abschn. 21.1.2.
5.
baum2a <- rpart(is_halodrie ~ rating + age, data = train_df); plot(as.party(baum2a)); es resultiert ein anderer Baum. Interessant ist, dass die Variable age mehr als einmal in den Baum einging, wie im baum2 auch.
6.
Z. B. so: baum2a[[″control″]].
7.
baum2a[[″variable.importance″]].
8.
train(kiterium ~ praediktor, data = meine_daten, method = ″rpart″).
9.
Ja.
10.
Nein; wird die Anzahl der Knoten im Baum zu groß, so sinkt die Modellgüte im Test-Sample wieder.
11.
Nein; in der Regel sind viel kleinere Werte besser. Als Faustregel kann man mit \(\sqrt{(k)}\) beginnen, wobei \(k\) die Anzahl der Prädiktoren im Modell bezeichnet.
12.
Ca. 50 Prozentpunkte; s. Abb. 21.3 im Vergleich von Knoten 6 und Knoten 7. In Abb. 21.2 kennzeichnet das linke, mittlere Rechteck (sowohl bei Männern als auch bei Frauen) diesen Unterschied (also Menschen mit geringer Ehezufriedenheit und mittlerem Alter).

Author information

Authors and Affiliations

FOM Hochschule für Oekonomie & Management, Nürnberg, Deutschland
Sebastian Sauer

Authors

Sebastian Sauer
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Sebastian Sauer .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Sauer, S. (2019). Baumbasierte Verfahren. In: Moderne Datenanalyse mit R. FOM-Edition. Springer Gabler, Wiesbaden. https://doi.org/10.1007/978-3-658-21587-3_21

Download citation

DOI: https://doi.org/10.1007/978-3-658-21587-3_21
Published: 30 January 2019
Publisher Name: Springer Gabler, Wiesbaden
Print ISBN: 978-3-658-21586-6
Online ISBN: 978-3-658-21587-3
eBook Packages: Business and Economics (German Language)

Publish with us

Policies and ethics