10
votes

Apprentissage et impureté des arbres de décision

Il y a trois façons de mesurer l'impureté:

entropie

index gini

Erreur de classification

Quelles sont les différences et les cas d'utilisation appropriés pour chaque méthode?


4 Réponses :


6
votes

Si les p_i sont très petit, alors faisant la multiplication sur très petit nombre (Index Gini) peut entraîner une erreur d'arrondi. À cause de cela, il est préférable d'ajouter les journaux (entropie). Erreur de classification, après votre définition, fournit une estimation brute car elle utilise le plus grand p_i unique pour calculer sa valeur.


2 commentaires

Je ne peux pas voir comment vous auriez ces problèmes dans la division d'un nœud ... Les classificateurs forestiers aléatoires utilisent l'impureté de Gini et ont été rapportés avoir des précautions plus élevées que la plupart des autres classificateurs basés sur les arbres.


@Benjamin: Je ne vois rien dans la question qui est spécifique à la division d'un nœud.



3
votes

J'ai trouvé Cette description des mesures d'impureté à être plutôt utile. À moins que vous n'ayez mis en œuvre à partir de zéro, la plupart des implémentations existantes utilisent une seule mesure d'impureté prédéterminée. Notez également que l'indice Gini n'est pas une mesure directe de l'impureté, pas dans sa formulation originale et qu'il y en a beaucoup plus que ce que vous énumérez ci-dessus.

Je ne suis pas sûr de comprendre la préoccupation des petits chiffres et de la mesure d'impureté de Gini ... Je ne peux pas imaginer comment cela se produirait lors de la division d'un nœud.


0 commentaires

1
votes

J'ai vu divers efforts d'orientation informelle à ce sujet, allant de "Si vous utilisez l'une des métriques habituelles, il n'y aura pas beaucoup de différence", à des recommandations beaucoup plus spécifiques. En réalité, la seule façon de savoir avec certitude quelle mesure fonctionne le mieux est d'essayer tous les candidats.

Quoi qu'il en soit, voici une certaine perspective de Salford Systems (le fournisseur de panier):

Les règles de fractionnement sont vraiment importantes?


0 commentaires

4
votes

La différence entre entropie et autres mesures d'impureté, et souvent souvent la différence entre les approches théoriques de l'information dans l'apprentissage des machines et d'autres approches, est que l'entropie a été mathématiquement prouvée pour capturer le concept d'informations "informations". Il existe de nombreux théorèmes de classification (les théorèmes qui prouvent une fonction particulière ou un objet mathématique sont le seul objet qui répond à un ensemble de critères) pour les mesures d'entropie qui formalisent des arguments philosophiques justifiant leur signification en tant que mesures de «information».

Contrasé cela avec d'autres approches (en particulier les méthodes statistiques) qui sont choisies pour leur justification philosophique, mais principalement pour leur justification empirique - c'est-à-dire qu'ils semblent bien performer dans des expériences. La raison pour laquelle ils fonctionnent bien, c'est parce qu'ils contiennent des hypothèses supplémentaires pouvant avoir lieu au moment de l'expérience.

en termes pratiques, cela signifie que les mesures d'entropie (a) ne peuvent pas trop s'adapter lorsqu'elles sont utilisées correctement car elles sont exemptes de toute hypothèse de toutes les hypothèses sur les données, (b) sont plus susceptibles de mieux performer que de manière aléatoire car elles généralisent n'importe quel jeu de données. Mais (c) la performance pour des ensembles de données spécifiques pourrait ne pas être aussi bonne que des mesures qui adoptent des hypothèses.

Lorsque vous décidez quelles mesures à utiliser dans l'apprentissage de la machine, il s'agit souvent de gains à long terme à court terme et à la maintenabilité. Les mesures d'entropie fonctionnent souvent à long terme par (a) et (b), et si quelque chose ne va pas, il est plus facile de suivre et d'expliquer pourquoi (par exemple un bug avec l'obtention des données de formation). Autres approches, par c), pourrait donner des gains à court terme, mais s'ils cessent de travailler peuvent être très difficiles à distinguer, disent un bogue dans l'infrastructure avec un véritable changement dans les données où les hypothèses ne sont plus contestées.

Un exemple classique où les modèles ont soudainement cessé de fonctionner sont la crise financière mondiale. Les banquiers où étant donné des bonus pour des gains à court terme, ils ont donc écrit des modèles statistiques qui fonctionnaient bien à court terme et largement ignorés des modèles théoriques d'information.


0 commentaires