7
votes

Données de poids avec R Partie II

donné est la trame de données suivante:

xtabs(weight ~ UH6401, data=df)

r statistics spss

1 commentaires

Pour différents processus, il y a du minerai d'un moyen de pondérer des données! E.G.: Dans un cadre de vraisemblance maximum, j'ai vu les probabilités et les logliociographies pondérées, ce qui peut donner des résultats très différents! Il n'y a donc pas de moyen «général» de spécifier des poids, et dans de nombreuses fonctions, le concept de données pondéré n'est même pas envisagé (même s'il serait valide). Difficile chance, je suppose.

4 Réponses :

5
votes

Vous devez probablement vous familiariser avec les moteurs de recherche pour R.Sitesearch et RSEEK de R. Baron: C'est l'un des premiers résultats sur "PCA pondéré" sur le site de Baron:

http: //finzi.psych. upenn.edu/r/library/aroma.light/html/wpca.matrix.html

Avec la clarification dans le commentaire à Joris Meys Réponse, la réponse est souvent qu'il faut clair que l'on désire des poids de l'échantillon par rapport à d'autres types de pondération. La pondération de la régression est effectuée avec le sondage package . Le livre de Lumley sur les méthodes d'enquête distingue les trois types de poids. (Les "poids" dans la fonction lm sont des poids de variance et non des poids de l'échantillon.)

REMARQUE: L'analyse de la PCA et du facteur (expérimental) est incluse dans le package d'enquête. Donc, peut-être que la question de la question de Dominickg une approche unifiée de la pondération dans les méthodes de régression a une seule "réponse".



                                                                    
                                    
                                    
                                        8 commentaires
                                        
                                                                                            
                                                    Ceci est la PCA en itératifie. Ce n'est pas un PCA pondéré, mais quelque chose de complètement différent.                                                
                                                
                                                                                            
                                                    Je ne pense pas que c'est ce qu'il cherche. Dominik demande des problèmes d'échantillon, ce qui semble être quelque chose de différent.                                                
                                                
                                                                                            
                                                    @Joris Meys: Le conseil était d'apprendre les méthodes de recherche appropriées. Le deuxième coup était du tutoriel de William Revelle qui comprenait une analyse de facteurs pondérés et une comparaison avec les méthodes SPSS, et le troisième coup était la même fonction que vous avez liée à votre réponse.                                                
                                                
                                                                                            
                                                    @Dwin: Ouais, mais lien avec le bon. Vous pouvez même prendre le lien d'aroma.light dans ma réponse, je vais vous donner le upvote.                                                
                                                
                                                                                            
                                                    C'était le troisième coup et n'a demandé que la suppression d'un seul caractère dans la modification.                                                
                                                
                                                                                            
                                                    @Dwin je vois. Donc, si je vous comprends correctement, il n'y a rien de tel qu'un exemple de poids mondial?                                                
                                                
                                                                                            
                                                    Si, par "Poids de l'échantillon global", vous voulez dire une option de poids d'échantillon à toutes les procédures de type de régression, alors oui, il n'y a rien de tel.                                                
                                                
                                                                                            
                                                    @DWIN Votre lien avec le package d'enquête semble être une très bonne solution pour la plupart des cas d'analyse de l'enquête. Pour tous les autres, il n'y a pas de solution générale, s'il y a une solution du tout. Merci.


                        
                                            
                            
                                
                                    8
 votes
                                
                            
                            
                                
                                     Tout d'abord, la PCA sur ces données n'a pas de sens. Deuxièmement, SPSS n'effectue pas la PCA mais l'analyse factorielle, qui est autre chose. Je sais qu'ils l'appellent PCA, mais ce n'est pas le cas. 

 Le poids par SPSS n'est rien de plus qu'un poids de réplication, et est exactement la même chose que votre analyse en répétant vos cas à l'aide de  rep () : la folie complète. Pour créer un lien vers votre exemple: dans SPSS, le facteur (utilisé pour la PCA de SOCALLÉ) ne prend pas de poids fractionné. 

 Si vous souhaitez effectuer des procédures pondérées, la seule façon raisonnable de cela consiste à utiliser la méthode / la fonction / paquet correct pour cela. Dans les statistiques, il n'existe pas de procédure de poids unique - TOUTES-TOUT, contrairement à ce que SPSS aime vous faire croire. 

 Dans votre exemple: PCA pondéré dans R est contenu dans  Factominer  et  aroma.light . Mais je suggère fortement que vous preniez également un coup d'oeil sur le  Vegan  paquet , comme cela contient de nombreuses méthodes d'ordination utiles pour les données que vous décrivez.                                 


                                                                    
                                    
                                    
                                        9 commentaires
                                        
                                                                                            
                                                    Le PCA n'était qu'un exemple. Prendre une procédure différente. Comme une analyse de régression (non pas avec ces données, je sais). La question est juste de savoir comment pondérer des données avec r en général. Même si vous pensez que la procédure de poids dans SPSS est la folie, il reste la procédure standard en sciences sociales si vous travaillez avec des échantillons d'une population par exemple. Le panneau socio-oecoménique ...                                                
                                                
                                                                                            
                                                    @Dominik: C'est dans la réponse. Pour la régression pondérée, utilisez les procédures spécifiques pour la régression pondérée. Pour imiter les SPSS, utilisez  rep () . C'est si facile. Mais quelles que soient les SPSS aime vous faire croire,  Il n'y a pas de procédure de poids unique-Fits - toutes les procédures de poids dans les statistiques                                                 

                                                
                                                                                            
                                                    Vous méritez un sens de +42 (dans le Douglas Adams) pour que la clébat répétée agisse dans cette situation. J'aime aussi l'indice de folie aussi.                                                
                                                
                                                                                            
                                                    @Dominik: J'ai édité ma réponse pour le rendre moins agressif (je ne suis pas connu pour mon sentiment de tact, mais aucun mal voulait dire.)                                                
                                                
                                                                                            
                                                    @Joris Meys: Peu importe, je ne l'ai pas pris de cette façon. Il suffit d'avoir le sentiment de ne pas être compris, mais c'est plus de ma faute ... ;-) Mais si j'ai bien compris Rep () correctement, vous ne pouvez pas répéter une ligne dans un DF .8 fois, pouvez-vous?                                                
                                                
                                                                                            
                                                    @Dominik: Nope. Mais vous ne pouvez pas utiliser de poids fractionnaires dans SPSS avec chaque commande non plus. Comme indiqué, même si vous donnez des poids fractionnaires sur facteur, il sera interprété comme des poids de réplication et arrondi. Mais SPSS ne vous dira pas que si vous ne creusez pas leur manuel complet.                                                
                                                
                                                                                            
                                                    @Joris meys c'est bon à savoir. Merci pour cette information!                                                
                                                
                                                                                            
                                                    @Joris +1 pour souligner que la PCA et l'analyse factorielle ne sont pas la même chose. J'ai déjà rencontré cela avant tout lorsque vous utilisez SPSS. Il y a une discussion décente à ce sujet ici:  statists.stackexchange.com/questions/1576/...                                                 
                                                
                                                                                            
                                                    @Brandon, ça ne finit pas là. J'ai déjà abordé le problème FA / PCA. Bien que cela éclairait, dans un sens, apprenez ce que font les SPSS, je ne peux pas dire que je l'ai trouvé divertissant. Voici un article sur le problème:  STATS.STACKEXCHANGE.com/Questions/612/...                                                 
                                                
                                                                                    

                                    

                                                            

                        

                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Je ne suis pas sûr de si cela vous suite. Voir le package R  poids .                                 

                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Ça a l'air intéressant. Merci pour ce lien!                                                
                                                
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Je viens de trouver un  Poster dans R -Bloggers  qui introduit une fonction  svydesign () . Pour autant que je sache, cette fonction de l'emballage «Enquête» est comme fonction SPSS, vous permettant de créer des données pondérées à utiliser dans une analyse ultérieure. Je trouve plus utile que d'utiliser différentes fonctions à partir de plusieurs packages afin de faire une analyse multivariable. 
 NOTE À @DJHURIO: La réponse aurait été meilleure avec le code. Il semble un peu duplicatif de ma réponse qui a souligné le package   contenant 'svydesign'. La page Web citée est toujours là 4 ans plus tard, mais ce n'est peut-être pas toujours le cas.                                 


                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Comment créer une barre de couleur dégradée discrète avec geom_contour_filled?                        
                        
                                            
                            Variable de bande dans R                        
                        
                                            
                            Mélanger le vecteur dans R, mais les éléments identiques doivent avoir une distance minimale                        
                        
                                            
                            Pour imprimer la valeur de l'année bissextile suivante en utilisant la variable dans la programmation R