Questions et réponses pour le apache-spark-sql :

Apache Spark SQL est un outil de «traitement SQL et de données structurées» sur Spark, un système de calcul en cluster rapide et polyvalent. Il peut être utilisé pour récupérer des données de Hive, Parquet, etc. et exécuter des requêtes SQL sur les RDD et les ensembles de données existants.

1
votes

Comment diviser une valeur de colonne DataFrame au saut de ligne et créer une nouvelle colonne avec les 2 derniers éléments (lignes)

Je voudrais diviser une valeur de colonne avec des sauts de ligne et créer une nouvelle colonne avec les deux derniers éléments (lignes) df.withColumn('last_2', split(df. ...

pyspark apache-spark-sql

2 commentaire(s)

1
votes

Comment créer un Spark SQL Dataframe avec une liste d'objets Map

J'ai plusieurs Map [String, String] dans une List (Scala). Par exemple: EMP_NAME DOB CITY Ahmad 01-10-1991 Dubai Rahul 06-12-1991 ...

apache-spark dataframe scala apache-spark-sql bigdata

0 commentaire(s)

1
votes

Masquage du numéro de carte de crédit avec PySpark

Je suis nouveau dans Spark et je dois masquer les numéros de carte de crédit présents dans un Dataframe Spark où les quatre derniers chiffres ne sont affichés qu ...

apache-spark hadoop pyspark apache-spark-sql

0 commentaire(s)

1
votes

Comment créer une table de ruche gérée avec un emplacement spécifié via Spark SQL?

Je souhaite créer une table gérée avec un emplacement sur AWS S3 via spark sql, mais si je spécifie l'emplacement, cela crée une table EXTERNAL même si je ...

apache-spark amazon-s3 apache-spark-sql hive

1 commentaire(s)

<< < 4 5 6 7 8 > >>