Questions et réponses pour le parquet :

Apache Parquet est un format de stockage en colonnes pour Hadoop.

6
votes

Les pandas ne peuvent pas lire les fichiers de parquet créés dans PySpark

J'écris un fichier parquet à partir d'un Spark DataFrame de la manière suivante: import pandas as pd df = pd.read_parquet("path/myfile.parquet", engine="pyarrow") ...

python apache-spark pandas pyspark parquet

0 commentaire(s)

6
votes

PyArrow: stocker la liste des dictionnaires dans le parquet à l'aide de types imbriqués

Je souhaite stocker la trame de données pandas suivante dans un fichier parquet en utilisant PyArrow: Traceback (most recent call last): File "<stdin>", line 1, in <module&g ...

python pandas parquet pyarrow

0 commentaire(s)

2
votes

Parquet avec Athena VS Redshift

J'espère que quelqu'un pourra m'aider à résoudre ce problème. Je travaille actuellement sur un projet de pipeline de données, mon dilemme actuel est de savoir s' ...

apache-spark amazon-s3 parquet amazon-redshift

0 commentaire(s)

0
votes

Comment déposer la première rangée du fichier de parquet?

J'ai un fichier de parquet contenant deux colonnes (ID, fonctionnalité) .file est composé de 14348 rangées. ...

apache-spark scala parquet

0 commentaire(s)