0
votes

Séparer la variable numérique et catégorique dans Pandas Dataframe

J'ai une énorme liste de données dans Spark, et j'ai pris ses en-têtes seulement et je suis enregistré dans les pandas Dataframe.

Maintenant, je veux faire une liste différente de celui-ci pour séparer catégorique et numérique < Pré> xxx

df4 = df3.filter (df3 [1] = 'string')

Ce statiste donne une erreur:

SyntaxError: mot clé ne peut pas être une expression


2 commentaires

Je pense que vous avez manqué un autre = signe là-bas. Ne devrait-il pas être df3 [1] == 'string' ?


@Divyanshusrivastava: Thnak vous beaucoup. Si vous avez eu ma question, pouvez-vous vous aider à séparer toutes ces colonnes dans une liste séparée qui a un type de données de chaîne. S'il vous plaît aider s'il s'agit de deux lignes de code. Merci.


3 Réponses :


0
votes

avec cela nécessaire à un autre "=", il vous manque quelques éléments, comme l'index que vous essayez d'accéder est "0" pas "1". En outre, il n'y a pas de type de données 'String' dans Pandas Dataframe, c'est «objet». Vous pouvez essayer quelque chose comme ceci: xxx


1 commentaires

J'ai un cadre de données SQL dans une étincelle qui est en réalité une table de ruche. Cette table présente plusieurs colonnes telles que la chaîne et les entiers, je souhaite maintenant créer deux listes différentes, on stockera tous les types de données de chaîne tandis que l'autre stocke tous les types de données entier. 0 1 0 String Employé 1 Age Int



2
votes

Vous pouvez obtenir des colonnes non numériques à partir de Dataframe comme celui-ci

df.loc[:,df.dtypes==np.object]


0 commentaires

2
votes

Vous n'avez pas besoin de pandas, utilisez pyspark Dataframe.describe () Pour trouver tous les colonnes et string (celles-ci sauteront les types de colonnes comme date < / em>, horodatage , array , struct etc.), puis filtrez ensuite StringType () colonnes à l'aide de l'information de df.dtypes: xxx


0 commentaires