0
votes

Séparer la variable numérique et catégorique dans Pandas Dataframe

J'ai une énorme liste de données dans Spark, et j'ai pris ses en-têtes seulement et je suis enregistré dans les pandas Dataframe.

Maintenant, je veux faire une liste différente de celui-ci pour séparer catégorique et numérique < Pré> xxx

df4 = df3.filter (df3 [1] = 'string')

Ce statiste donne une erreur:

SyntaxError: mot clé ne peut pas être une expression


                        
                        
                            
                                                                    python
                                                                    apache-spark
                                                                    pandas
                                                                    pyspark
                                                            
                        
                                                    
                            
                            
                                2 commentaires
                                
                                                                            Je pense que vous avez manqué un autre  =  signe là-bas. Ne devrait-il pas être  df3 [1] == 'string' ?

                                        
                                                                            @Divyanshusrivastava: Thnak vous beaucoup. Si vous avez eu ma question, pouvez-vous vous aider à séparer toutes ces colonnes dans une liste séparée qui a un type de données de chaîne. S'il vous plaît aider s'il s'agit de deux lignes de code. Merci.



                                    
                    3 Réponses :
                    
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     avec cela nécessaire à un autre "=", il vous manque quelques éléments, comme l'index que vous essayez d'accéder est "0" pas "1". En outre, il n'y a pas de type de données 'String' dans Pandas Dataframe, c'est «objet». Vous pouvez essayer quelque chose comme ceci:  xxx                                  

                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    J'ai un cadre de données SQL dans une étincelle qui est en réalité une table de ruche. Cette table présente plusieurs colonnes telles que la chaîne et les entiers, je souhaite maintenant créer deux listes différentes, on stockera tous les types de données de chaîne tandis que l'autre stocke tous les types de données entier. 0 1 0 String Employé 1 Age Int                                                
                                                
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    2
 votes
                                
                            
                            
                                
                                     Vous pouvez obtenir des colonnes non numériques à partir de Dataframe comme celui-ci 
df.loc[:,df.dtypes==np.object]

                                

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    2
 votes
                                
                            
                            
                                
                                     Vous n'avez pas besoin de pandas, utilisez pyspark  Dataframe.describe ()  Pour trouver tous les colonnes  et  string  (celles-ci sauteront les types de colonnes comme  date < / em>,  horodatage ,  array ,  struct  etc.), puis filtrez ensuite  StringType ()  colonnes à l'aide de l'information de df.dtypes:  xxx                                  


                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Python: ConnectionError: HTTPSConnectionPool (hôte = 'api.foursquare-com', port = 443)                        
                        
                                            
                            L'exécution de Flask sous Windows n'exécute pas la commande d'exécution de flask                        
                        
                                            
                            Chatbot installé mais obtention d'une erreur lors de l'importation de ChatBot                        
                        
                                            
                            Administrateur Django: __str__ a renvoyé une non-chaîne (type int)