Quelqu'un peut-il expliquer quelle est la sortie du regroupement de K-moyen dans Weka.
par exemple p> Qu'est-ce que les chiffres dans les colonnes signifient réellement, Il dit Cluster Centroids au-dessus de la table, mais comment est-il possible de déterminer ce que sont les centroïdes des deux clusters? P> Si quelqu'un pouvait expliquer ce que les chiffres signifient que je serais très reconnaissant. P> Si quelqu'un a des idées sur la manière de compléter une évaluation de la silhouette des clusters trouvées qui seraient également excellentes. P> Merci P> P>
4 Réponses :
La première colonne vous donne la population globale centrée. Les deuxième et troisième colonnes vous donnent les centroïds pour le cluster 0 et 1, respectivement. Chaque ligne donne la coordonnée centroïde pour la dimension spécifique. P>
Je crois que vous devez vous branler sur votre k-signifie . Trouver les centroïdes est une partie essentielle de l'algorithme. Les centroïdes résultent d'une analyse spécifique de l'algorithme et ne sont pas uniques - une analyse différente peut générer un ensemble de centroïde différent. P>
S'il vous plaît voir Description de Weka de Michael Abernethy Clustering pour plus de détails. P>
Utilisez la valeur la plus fréquente pour un attribut dans un cluster si l'attribut est nominal. Utilisez la valeur moyenne d'un attribut dans un cluster si l'attribut est numérique. Vérifiez Ce lien pour plus de détails. P>
juste une première étape, p>
Enregistrez la parcelle de l'onglet Visualize en tant que fichier arff. P> li>
Ouvrez-le avec Weka et cliquez sur Modifier, vous voyez automatiquement dans quel groupe appartient chaque instance. P> LI>
Copiez ce tableau pour exceller (pour visualiser plus facilement) p> li>
Utilisez Excel ou MATLAB pour trouver Silhoutte, cohésion, séparation avec les méthodes classiques. P> Li> ol>
J'ai essayé mais je pouvais seulement voir les données mais pas le numéro de cluster?
Ce travail!! Pas besoin d'appliquer le filtre. Il suffit de sauvegarder le fichier de Weka Cluster Visualize Volet sous forme de fichier ARFF et ouvert à Weka. Un nouvel attribut nommé "cluster" est créé.
Premièrement, le clustering est une méthode statistique descriptive. Deuxièmement, l'algorithme KMANS doit entrer au préalable le nombre de grappes, pour trouver le nombre optimal de grappes, plusieurs méthodes statistiques. Troisièmement, les centroïdes des données numériques sont la moyenne arithmétique des données qui rend les clusters. Ces données représentent les données de groupe. P>