Questions et réponses pour le apache-spark-sql :

Apache Spark SQL est un outil de «traitement SQL et de données structurées» sur Spark, un système de calcul en cluster rapide et polyvalent. Il peut être utilisé pour récupérer des données de Hive, Parquet, etc. et exécuter des requêtes SQL sur les RDD et les ensembles de données existants.

2
votes

Comment supprimer une sous-chaîne de caractères d'une colonne PySpark Dataframe StringType (), conditionnellement en fonction de la longueur des chaînes dans les colonnes?

J'ai un Dataframe PySpark avec une colonne StringType () qui contient principalement 15 caractères. Cependant, certaines lignes comportent 11 caractères. Exemple: df.withColumn( ...

python regex pyspark apache-spark-sql

0 commentaire(s)

2
votes

Comment changer le type de données d'une colonne dans StructField d'un StructType?

J'essaye de changer le type de données d'une colonne présente dans un dataframe I que je lis à partir d'une base de données RDBMS. Pour ce faire, j'ai obtenu le sch&eac ...

apache-spark scala apache-spark-sql

1 commentaire(s)

2
votes

Classement par ligne sur plusieurs colonnes dans Spark Dataframe

J'utilise spark avec Scala pour transformer un Dataframe, où je voudrais calculer une nouvelle variable qui calcule le rang d'une variable par ligne dans de nombreuses variables. Exempl ...

apache-spark scala apache-spark-sql

3 commentaire(s)

2
votes

Jointure croisée entre deux grands ensembles de données dans Spark

J'ai 2 grands ensembles de données. Le premier ensemble de données contient environ 130 millions d'entrées. Le deuxième ensemble de données contient environ ...

apache-spark scala apache-spark-sql

5 commentaire(s)

<< < 2 3 4 5 6 > >>