Geeignete Daten für Entscheidungswälder
Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Entscheidungsbäume sind am effektivsten, wenn Sie einen tabellarischen Datensatz haben (Daten, die Sie in einer Tabelle, einer CSV-Datei oder einer Datenbanktabelle darstellen können). Tabellendaten sind eines der gängigsten Datenformate und Entscheidungsbäume sollten Ihre bevorzugte Lösung für die Modellierung sein.
Tabelle 1. Beispiel für einen tabellarischen Datensatz.
Anzahl der Strecken |
Anzahl der Augen |
Gewicht (Pfund) |
Art (Label) |
2 | 2 | 12 | Pinguin |
8 | 6 | 0,1 | Spinne |
4 | 2 | 44 | Hund |
… | … | … | … |
Im Gegensatz zu neuronalen Netzwerken werden in Entscheidungswäldern nativ Tabellendaten des Modells verwendet.
Bei der Entwicklung von Entscheidungswäldern müssen Sie keine Aufgaben wie die folgenden ausführen:
- Führen Sie eine Vorverarbeitung wie die Merkmalsnormalisierung oder die One-Hot-Codierung durch.
- Führen Sie eine Imputation durch (z. B. ersetzen Sie einen fehlenden Wert durch
-1
).
Entscheidungsbäume eignen sich jedoch nicht gut für die direkte Verwendung nicht tabellarischer Daten (auch unstrukturierte Daten genannt), z. B. Bilder oder Text. Ja, es gibt Problemumgehungen für diese Einschränkung, aber neuronale Netze verarbeiten in der Regel besser unstrukturierte Daten.
Entscheidungsforste sind stichprobeneffizient. Entscheidungsforste eignen sich also gut für das Training mit kleinen Datasets oder Datasets, bei denen das Verhältnis von Merkmalen zu Beispielen hoch ist (möglicherweise größer als 1). Auch wenn Entscheidungsbäume stichprobeneffizient sind, erzielen sie wie alle Modelle für maschinelles Lernen die besten Ergebnisse, wenn viele Daten verfügbar sind.
Entscheidungsbäume sind in der Regel schneller als vergleichbare neuronale Netze. Beispielsweise führt ein mittelgroßer Entscheidungswald die Inferenz auf einer modernen CPU in wenigen Mikrosekunden aus.
Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.
Zuletzt aktualisiert: 2025-07-27 (UTC).
[null,null,["Zuletzt aktualisiert: 2025-07-27 (UTC)."],[[["\u003cp\u003eDecision forests are highly effective for modeling tabular data, making them a primary choice for datasets commonly found in spreadsheets, CSV files, or databases.\u003c/p\u003e\n"],["\u003cp\u003eUnlike neural networks, decision forests directly handle tabular data without requiring preprocessing steps like feature normalization or imputation.\u003c/p\u003e\n"],["\u003cp\u003eWhile decision forests can be adapted for non-tabular data like images or text, neural networks are generally better suited for such data types.\u003c/p\u003e\n"],["\u003cp\u003eDecision forests are sample efficient, performing well even with small datasets or those with a high feature-to-example ratio, but still benefit from larger datasets.\u003c/p\u003e\n"],["\u003cp\u003eDecision forests offer faster inference speeds compared to neural networks, typically completing predictions within microseconds on modern CPUs.\u003c/p\u003e\n"]]],[],null,["\u003cbr /\u003e\n\nDecision forests are most effective when you have a tabular dataset (data you\nmight represent in a spreadsheet, csv file, or database table). Tabular data is\none of the most common data formats, and decision forests should be your \"go-to\"\nsolution for modeling it.\n\n**Table 1. An example of a tabular dataset.**\n\n| Number of legs | Number of eyes | Weight (lbs) | Species (label) |\n|----------------|----------------|--------------|-----------------|\n| 2 | 2 | 12 | Penguin |\n| 8 | 6 | 0.1 | Spider |\n| 4 | 2 | 44 | Dog |\n| ... | ... | ... | ... |\n\nUnlike neural networks, decision forests natively consume model tabular data.\nWhen developing decision forests, you don't have to do tasks like the following:\n\n- Perform preprocessing like feature normalization or one-hot encoding.\n- Perform imputation (for example, replacing a missing value with `-1`).\n\nHowever, decision forests are not well suited to directly consume non-tabular\ndata (also called unstructured data), such as images or text. Yes, workarounds\nfor this limitation do exist, but neural networks generally handle unstructured\ndata better.\n\nPerformance\n\nDecision forests are sample efficient. That is, decision forests are well suited\nfor training on small datasets, or on datasets where the ratio of number of\nfeatures / number of examples is high (possibly greater than 1). Even though\ndecision forests are sample efficient, like all machine learning models,\ndecision forests perform best when lots of data is available.\n\nDecision forests typically infer faster than comparable neural\nnetworks. For example, a medium-size decision forest runs inference in a few\nmicroseconds on a modern CPU."]]