J'aimerais utiliser Je peux présenter les données à Mes questions sont: p>
clustering de corrélation code> et i figure
r code> est un bon endroit pour commencer. P>
R CODE> en tant qu'ensemble de grands vecteurs clairsemés ou comme une table avec une matrice de dissimilarité pré-calculée. P>
r code> pour la transformer en un cluster hiérarchique code> avec
agnes code> qui utilise
clustering de corrélation code>? li>
AGNES code>? LI>
ul>
4 Réponses :
Je connais certes très peu de choses sur ce sujet, mais juste pour vous diriger dans une direction: p>
Aucun problème. N'hésitez pas à poster un suivi de votre suivi dans cette question lorsque vous avez tout compris! :)
L'approche standard serait celle qui implique Cor () code>,
hclust () code> et
tracé.hclust () code>.
Je vous recommanderais vivement Heatmap.2 du magnifique paquet de gllots. P>
Je suis allé à http://www.rsek.org/ et entré Agnès Algorithm et a trouvé le Le paquet de cluster sur Cran a les détails de la fonction suivants pour la fonction AGNES. P>
Détails p>
Agnes est entièrement décrit au chapitre 5 de Kaufman et Rousseeuw (1990). Comparé à d'autres agglomératifs méthodes de regroupement telles que hclust, Agnes dispose des caractéristiques suivantes: (a) Cela donne l'agglomératoire coefficient (voir Agnes.Object) qui mesure la quantité de regroupement structure trouvée; et (b) en dehors de l'arbre habituel, il fournit également le Bannière, un nouvel écran graphique (voir complot.agnes). P>
L'algorithme Agnes est construit un Hiérarchie des clusterings. En premier, Chaque observation est une petite grappe par lui-même. Les grappes sont fusionnées jusqu'à ce que seulement un grand groupe reste lequel contient toutes les observations. À chaque étape Les deux grappes les plus proches sont combinés pour former un groupe plus grand. P>
pour la méthode = "moyenne", la distance entre deux clusters est la moyenne de les dissimilarités entre les points dans un cluster et les points dans le autre groupe. Dans la méthode = "single", nous utiliser la plus petite dissimilarité entre un point dans le premier cluster et un point dans le deuxième groupe (le plus proche méthode voisine). Lorsque method = « complet », nous utilisons le plus grand dissemblance entre un point de la premier groupe et un point dans la deuxième groupe (le plus voisin méthode). p> blockQuote>
Clustering est un sujet assez énorme et vous trouverez de nombreux paquets R qui mettent en œuvre une certaine forme de celui-ci. Lorsque vous avez des attributs et des covariables, combinant le regroupement avec la coordination peut parfois donner plus de perspicacité. P>
Il est facile d'utiliser la fonction code> agnes code> dans le pack STRAND> Cluster strong> avec une matrice de dissimilarité. Il suffit de définir l'argument "DIV" à true. p>
Si vous pouvez facilement calculer la matrice de dissimilarité à l'extérieur R, alors cela peut être le moyen d'aller. Sinon, vous pouvez simplement utiliser la fonction Cor code> dans R pour générer la matrice de similarité (à partir duquel vous pouvez obtenir la matrice de dissemblance en soustrayant de 1). P>