J'ai une table qui a des colonnes [col1, col2, col3 .... col9]. Je veux fusionner toutes les données de colonnes dans une colonne en une colonne en Python? P>
3 Réponses :
In Spark (Pyspark) Pour des raisons, il n'y a pas de modification de données existantes. Ce que vous pouvez faire est de créer une nouvelle colonne. Veuillez vérifier le lien suivant. P>
Comment puis-je Ajoutez une nouvelle colonne à une étincelle Dataframe (à l'aide de Pyspark)? P>
Utilisation d'une fonction Peu de précautions, veuillez rechercher des problèmes de données suivants tandis que l'agrégation p>
from pyspark.sql.functions import concat values = [('A','B','C','D'),('E','F','G','H'),('I','J','K','L')] df = sqlContext.createDataFrame(values,['col1','col2','col3','col4']) df.show() +----+----+----+----+ |col1|col2|col3|col4| +----+----+----+----+ | A| B| C| D| | E| F| G| H| | I| J| K| L| +----+----+----+----+ req_column = ['col1','col2','col3','col4'] df = df.withColumn('concatenated_cols',concat(*req_column)) df.show() +----+----+----+----+-----------------+ |col1|col2|col3|col4|concatenated_cols| +----+----+----+----+-----------------+ | A| B| C| D| ABCD| | E| F| G| H| EFGH| | I| J| K| L| IJKL| +----+----+----+----+-----------------+
Utilisation de Spark SQL
new_df = df.withColumn('joined_column', concat(col('col1'),col('col2'),col('col3'),col('col4'))
Utilisez-vous Pandas ou Pyspark?
J'utilise Pyspark
Dupliqué possible de Concat multiples colonnes d'un Dataframe à l'aide de Pyspark