Diese Seite wurde von der Cloud Translation API übersetzt.

Geeignete Daten für Entscheidungswälder

Entscheidungsbäume sind am effektivsten, wenn Sie einen tabellarischen Datensatz haben (Daten, die Sie in einer Tabelle, einer CSV-Datei oder einer Datenbanktabelle darstellen können). Tabellendaten sind eines der gängigsten Datenformate und Entscheidungsbäume sollten Ihre bevorzugte Lösung für die Modellierung sein.

Tabelle 1. Beispiel für einen tabellarischen Datensatz.

Anzahl der Strecken	Anzahl der Augen	Gewicht (Pfund)	Art (Label)
2	2	12	Pinguin
8	6	0,1	Spinne
4	2	44	Hund
…	…	…	…

Im Gegensatz zu neuronalen Netzwerken werden in Entscheidungswäldern nativ Tabellendaten des Modells verwendet. Bei der Entwicklung von Entscheidungswäldern müssen Sie keine Aufgaben wie die folgenden ausführen:

Führen Sie eine Vorverarbeitung wie die Merkmalsnormalisierung oder die One-Hot-Codierung durch.
Führen Sie eine Imputation durch (z. B. ersetzen Sie einen fehlenden Wert durch -1).

Entscheidungsbäume eignen sich jedoch nicht gut für die direkte Verwendung nicht tabellarischer Daten (auch unstrukturierte Daten genannt), z. B. Bilder oder Text. Ja, es gibt Problemumgehungen für diese Einschränkung, aber neuronale Netze verarbeiten in der Regel besser unstrukturierte Daten.

Leistung

Entscheidungsforste sind stichprobeneffizient. Entscheidungsforste eignen sich also gut für das Training mit kleinen Datasets oder Datasets, bei denen das Verhältnis von Merkmalen zu Beispielen hoch ist (möglicherweise größer als 1). Auch wenn Entscheidungsbäume stichprobeneffizient sind, erzielen sie wie alle Modelle für maschinelles Lernen die besten Ergebnisse, wenn viele Daten verfügbar sind.

Entscheidungsbäume sind in der Regel schneller als vergleichbare neuronale Netze. Beispielsweise führt ein mittelgroßer Entscheidungswald die Inferenz auf einer modernen CPU in wenigen Mikrosekunden aus.

Geeignete Daten für Entscheidungswälder Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Leistung

Geeignete Daten für Entscheidungswälder