11
votes

Qu'est-ce que l'arbre taillé et sans fruit à Weka?

Dans l'arbre de décision J48 exemple, lorsque nous disons que l'arbre est taillé ou inexisté, quelle est la différence?


0 commentaires

3 Réponses :


18
votes

Les arbres non élaborés sont plus grands. Ce qui se passe, c'est que l'arbre est fondamentalement créé en fonction de l'algorithme implémenté et si la taille est activée, une étape supplémentaire examine les nœuds / branches pouvant être supprimés sans affecter trop la performance.

L'idée derrière la taille est que, à part de rendre l'arbre plus facile à comprendre, vous réduisez le risque de survivre aux données de formation. C'est-à-dire de pouvoir classer les données de formation (presque) parfaitement, mais rien d'autre, car au lieu d'apprendre le concept sous-jacent, l'arbre a appris les propriétés intrinsèques et spécifiques aux données de formation.


2 commentaires

La première phrase peut être fausse. Les arbres sans fruits sont plus grand , non?


Oups, oui, désolé. Je vais changer ça.




5
votes

J'aimerais ajouter suite à la réponse de Lars. Tiré de la suite lien

De nombreux algorithmes tentent de "tailler", ou simplifier, leurs résultats. L'élagage produit moins de résultats, plus facilement interprétés. Plus important encore, la taille peut être utilisée comme outil pour corriger le survêtement potentiel. ...

J48 utilise deux méthodes de taille.

Le premier est connu sous le nom de remplacement du sous-arbre. Cela signifie que les nœuds dans un arbre de décision peuvent être remplacés par une feuille - réduisant essentiellement le nombre de tests sur un certain chemin. Ce processus commence à partir des feuilles de l'arbre entièrement formé et fonctionne à l'envers vers la racine.

Le deuxième type de taille utilisée dans J48 est appelé sous-traitance. Dans ce cas, un nœud peut être déplacé vers le haut vers la racine de l'arbre, en remplaçant d'autres nœuds en cours de route. La levée des sous-armes a souvent un effet négligeable sur les modèles d'arbre de décision. Il n'existe souvent pas de moyen clair de prédire l'utilité de l'option, bien qu'il puisse être souhaitable d'essayer de l'éteindre si le processus d'induction prend beaucoup de temps. Cela est dû au fait que la levée de sous-armes peut être quelque peu complexe de calcul.


0 commentaires