9
votes

Clustering de corrélation dans r

J'aimerais utiliser clustering de corrélation et i figure r est un bon endroit pour commencer.

Je peux présenter les données à R en tant qu'ensemble de grands vecteurs clairsemés ou comme une table avec une matrice de dissimilarité pré-calculée.

Mes questions sont:


 Y a-t-il des fonctions existantes  r  pour la transformer en un cluster hiérarchique  avec  agnes  qui utilise  clustering de corrélation ? 
 devrai-je mettre en œuvre le clustering de corrélation (certitude)  à la main, si oui comment puis-je le faire bien jouer avec  AGNES ?


                        
                        
                            
                                                                    r
                                                                    nlp
                                                                    cluster-analysis
                                                            
                        
                                                    
                            
                            
                                0 commentaires



                                    
                    4 Réponses :
                    
                                            
                            
                                
                                    7
 votes
                                
                            
                            
                                
                                     Je connais certes très peu de choses sur ce sujet, mais juste pour vous diriger dans une direction: 


 Avez-vous regardé le paquet de cluster? Il a une très bonne documentation. En particulier, examinez l'aide (Agnes) pour certaines suggestions.  Martin Maechler  (membre de l'équipe de base R) a créé le colis et a contribué à des discussions sur le débordement de pile Auparavant, j'espère que cela donnera une réponse ici. 
 La fonction hclust () fait partie du package STATS. En fait, je pense qu'il est prévu de fusionner Hclust () et d'Agnes (). 
 Vous pouvez également trouver  Cette page du projet bioconducteur utile . 
 Sinon, vous pouvez avoir une chance à la recherche d'autres forfaits sur le cran   Clustering  ,  Traitement des langues naturelles  ou  Apprentissage de la machine  Vues. 
                                


                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Aucun problème. N'hésitez pas à poster un suivi de votre suivi dans cette question lorsque vous avez tout compris! :)                                                
                                                
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    7
 votes
                                
                            
                            
                                
                                     L'approche standard serait celle qui implique  Cor () ,  hclust ()  et  tracé.hclust () .
Je vous recommanderais vivement Heatmap.2 du magnifique paquet de gllots.                                 


                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                     Je suis allé à  http://www.rsek.org/  et entré Agnès Algorithm et a trouvé le Le paquet de cluster sur Cran a les détails de la fonction suivants pour la fonction AGNES. 


   Détails 
  
  
 Agnes est entièrement décrit au chapitre 5
  de Kaufman et Rousseeuw (1990).
  Comparé à d'autres agglomératifs
  méthodes de regroupement telles que hclust,
  Agnes dispose des caractéristiques suivantes: (a)
  Cela donne l'agglomératoire
  coefficient (voir Agnes.Object) qui
  mesure la quantité de regroupement
  structure trouvée; et (b) en dehors de
  l'arbre habituel, il fournit également le
  Bannière, un nouvel écran graphique (voir
  complot.agnes). 
  
  
 L'algorithme Agnes est construit un
  Hiérarchie des clusterings. En premier,
  Chaque observation est une petite grappe par
  lui-même. Les grappes sont fusionnées jusqu'à ce que seulement
  un grand groupe reste lequel
  contient toutes les observations. À chaque
  étape Les deux grappes les plus proches sont
  combinés pour former un groupe plus grand. 
  
  
 pour la méthode = "moyenne", la distance
  entre deux clusters est la moyenne de
  les dissimilarités entre les points
  dans un cluster et les points dans le
  autre groupe. Dans la méthode = "single", nous
  utiliser la plus petite dissimilarité entre
  un point dans le premier cluster et un
  point dans le deuxième groupe (le plus proche
  méthode voisine). Lorsque
  method = « complet », nous utilisons le plus grand
  dissemblance entre un point de la
  premier groupe et un point dans la
  deuxième groupe (le plus voisin
  méthode). 


 Clustering est un sujet assez énorme et vous trouverez de nombreux paquets R qui mettent en œuvre une certaine forme de celui-ci. Lorsque vous avez des attributs et des covariables, combinant le regroupement avec la coordination peut parfois donner plus de perspicacité.                                 

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    2
 votes
                                
                            
                            
                                
                                     Il est facile d'utiliser la fonction  agnes  dans le pack  Cluster  avec une matrice de dissimilarité. Il suffit de définir l'argument "DIV" à true. 

 Si vous pouvez facilement calculer la matrice de dissimilarité à l'extérieur R, alors cela peut être le moyen d'aller. Sinon, vous pouvez simplement utiliser la fonction  Cor  dans R pour générer la matrice de similarité (à partir duquel vous pouvez obtenir la matrice de dissemblance en soustrayant de 1).                                 


                                                                    
                                    
                                    
                                        0 commentaires

Articles qui pourrait vous intéresser : Comment créer une barre de couleur dégradée discrète avec geom_contour_filled? Variable de bande dans R Mélanger le vecteur dans R, mais les éléments identiques doivent avoir une distance minimale Pour imprimer la valeur de l'année bissextile suivante en utilisant la variable dans la programmation R