J'ai une énorme liste de données dans Spark, et j'ai pris ses en-têtes seulement et je suis enregistré dans les pandas Dataframe.
Maintenant, je veux faire une liste différente de celui-ci pour séparer catégorique et numérique p> < Pré> xxx pré>
Ce statiste donne une erreur: P> SyntaxError: mot clé ne peut pas être une expression p>
blockQuote> p> df4 = df3.filter (df3 [1] = 'string') code> p>
3 Réponses :
avec cela nécessaire à un autre "=", il vous manque quelques éléments, comme l'index que vous essayez d'accéder est "0" pas "1". En outre, il n'y a pas de type de données 'String' dans Pandas Dataframe, c'est «objet». Vous pouvez essayer quelque chose comme ceci:
J'ai un cadre de données SQL dans une étincelle qui est en réalité une table de ruche. Cette table présente plusieurs colonnes telles que la chaîne et les entiers, je souhaite maintenant créer deux listes différentes, on stockera tous les types de données de chaîne tandis que l'autre stocke tous les types de données entier. 0 1 0 String Employé 1 Age Int
Vous pouvez obtenir des colonnes non numériques à partir de Dataframe comme celui-ci
df.loc[:,df.dtypes==np.object]
Vous n'avez pas besoin de pandas, utilisez pyspark Dataframe.describe () Pour trouver tous les colonnes str forts> et
Je pense que vous avez manqué un autre
= code> signe là-bas. Ne devrait-il pas être
df3 [1] == 'string' code>?
@Divyanshusrivastava: Thnak vous beaucoup. Si vous avez eu ma question, pouvez-vous vous aider à séparer toutes ces colonnes dans une liste séparée qui a un type de données de chaîne. S'il vous plaît aider s'il s'agit de deux lignes de code. Merci.