Pyspark Version 2.3.2
J'ai Dataframe (DF) dans PYSPARK avec le schéma suivant: P>
df1.show() [Stage 9:> (0 + 1) / 1]19/08/23 23:59:15 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 0.0 in stage 9.0 (TID 30, cluster, executor 1): java.io.IOException: Cannot run program "/opt/conda/bin/python": error=2, No such file or directory at java.lang.ProcessBuilder.start(ProcessBuilder.java:1048) at ..... Caused by: java.io.IOException: error=2, No such file or directory 19/08/23 23:59:16 ERROR org.apache.spark.scheduler.TaskSetManager: Task 0 in stage 9.0 failed 4 times; aborting job Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib/spark/python/pyspark/sql/dataframe.py", line 350, in show print(self._jdf.showString(n, 20, vertical)) File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__ File "/usr/lib/spark/python/pyspark/sql/utils.py", line 63, in deco return f(*a, **kw) File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value py4j.protocol.Py4JJavaError: An error occurred while calling o339.showString. .......
3 Réponses :
On dirait que vous avez un problème avec votre installation.
Cannot run program "/opt/conda/bin/python": error=2, No such file or directory
Le problème était qu'un paquet de condada installé a écrasé le python par défaut, qui a provoqué l'erreur. p>
Peut-être que le problème n'est pas dans votre code. P>
Vérifiez la version de Java JDK que vous utilisez. Ce que je sais, c'est que la méthode .Show () code> n'est pas compatible avec Java JDK 11. Si vous utilisez cette version, faites simplement une dégradation à la version 8. et n'oubliez pas de configurer correctement le Variable des environnements pour JDK 8. P>