9
votes

Clustering de corrélation dans r

J'aimerais utiliser clustering de corrélation et i figure r est un bon endroit pour commencer.

Je peux présenter les données à R en tant qu'ensemble de grands vecteurs clairsemés ou comme une table avec une matrice de dissimilarité pré-calculée.

Mes questions sont:

  • Y a-t-il des fonctions existantes r pour la transformer en un cluster hiérarchique avec agnes qui utilise clustering de corrélation ?
  • devrai-je mettre en œuvre le clustering de corrélation (certitude) à la main, si oui comment puis-je le faire bien jouer avec AGNES ?

0 commentaires

4 Réponses :


7
votes

Je connais certes très peu de choses sur ce sujet, mais juste pour vous diriger dans une direction:


1 commentaires

Aucun problème. N'hésitez pas à poster un suivi de votre suivi dans cette question lorsque vous avez tout compris! :)



7
votes

L'approche standard serait celle qui implique Cor () , hclust () et tracé.hclust () . Je vous recommanderais vivement Heatmap.2 du magnifique paquet de gllots.


0 commentaires

1
votes

Je suis allé à http://www.rsek.org/ et entré Agnès Algorithm et a trouvé le Le paquet de cluster sur Cran a les détails de la fonction suivants pour la fonction AGNES.

Détails

Agnes est entièrement décrit au chapitre 5 de Kaufman et Rousseeuw (1990). Comparé à d'autres agglomératifs méthodes de regroupement telles que hclust, Agnes dispose des caractéristiques suivantes: (a) Cela donne l'agglomératoire coefficient (voir Agnes.Object) qui mesure la quantité de regroupement structure trouvée; et (b) en dehors de l'arbre habituel, il fournit également le Bannière, un nouvel écran graphique (voir complot.agnes).

L'algorithme Agnes est construit un Hiérarchie des clusterings. En premier, Chaque observation est une petite grappe par lui-même. Les grappes sont fusionnées jusqu'à ce que seulement un grand groupe reste lequel contient toutes les observations. À chaque étape Les deux grappes les plus proches sont combinés pour former un groupe plus grand.

pour la méthode = "moyenne", la distance entre deux clusters est la moyenne de les dissimilarités entre les points dans un cluster et les points dans le autre groupe. Dans la méthode = "single", nous utiliser la plus petite dissimilarité entre un point dans le premier cluster et un point dans le deuxième groupe (le plus proche méthode voisine). Lorsque method = « complet », nous utilisons le plus grand dissemblance entre un point de la premier groupe et un point dans la deuxième groupe (le plus voisin méthode).

Clustering est un sujet assez énorme et vous trouverez de nombreux paquets R qui mettent en œuvre une certaine forme de celui-ci. Lorsque vous avez des attributs et des covariables, combinant le regroupement avec la coordination peut parfois donner plus de perspicacité.


0 commentaires

2
votes

Il est facile d'utiliser la fonction agnes dans le pack Cluster avec une matrice de dissimilarité. Il suffit de définir l'argument "DIV" à true.

Si vous pouvez facilement calculer la matrice de dissimilarité à l'extérieur R, alors cela peut être le moyen d'aller. Sinon, vous pouvez simplement utiliser la fonction Cor dans R pour générer la matrice de similarité (à partir duquel vous pouvez obtenir la matrice de dissemblance en soustrayant de 1).


0 commentaires