0
votes

Erreur après avoir appliqué un UDF sur un Dataframe à Pyspark

Pyspark Version 2.3.2

J'ai Dataframe (DF) dans PYSPARK avec le schéma suivant: P>

 df1.show()
 [Stage 9:>                                                       
 (0 + 1) / 1]19/08/23 23:59:15 WARN 
  org.apache.spark.scheduler.TaskSetManager: 
  Lost task 0.0 in stage 9.0 (TID 30, cluster, executor 1):
  java.io.IOException: 
  Cannot run program "/opt/conda/bin/python": 
  error=2, No such file or directory
  at java.lang.ProcessBuilder.start(ProcessBuilder.java:1048)
  at .....
  Caused by: java.io.IOException: error=2, No such file or directory
  19/08/23 23:59:16 ERROR 
  org.apache.spark.scheduler.TaskSetManager: Task 0 in stage 9.0 failed 4 times; aborting job
  Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/spark/python/pyspark/sql/dataframe.py", line 350, in show
  print(self._jdf.showString(n, 20, vertical))
  File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
  File "/usr/lib/spark/python/pyspark/sql/utils.py", line 63, in deco
  return f(*a, **kw)
  File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value
  py4j.protocol.Py4JJavaError: An error occurred while calling o339.showString.
  .......

dataframe pyspark error-handling user-defined-functions

0 commentaires

3 Réponses :

2
votes

On dirait que vous avez un problème avec votre installation.

  Cannot run program "/opt/conda/bin/python": 
  error=2, No such file or directory

0 commentaires

0
votes

Le problème était qu'un paquet de condada installé a écrasé le python par défaut, qui a provoqué l'erreur.

0 commentaires

0
votes

Peut-être que le problème n'est pas dans votre code.

Vérifiez la version de Java JDK que vous utilisez. Ce que je sais, c'est que la méthode .Show () n'est pas compatible avec Java JDK 11. Si vous utilisez cette version, faites simplement une dégradation à la version 8. et n'oubliez pas de configurer correctement le Variable des environnements pour JDK 8.



                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Comptage / Pivot du tableau avec plusieurs valeurs dans la cellule                        
                        
                                            
                            Comment remplacer les valeurs vides par des nombres précédents dans les pandas                        
                        
                                            
                            conversion du rapport de chaîne en entier                        
                        
                                            
                            Comment amener quatre colonnes de données Excel en deux lignes dans Pandas