Je reçois une erreur lors de l'installation de Spark sur Google Colab. Il dit
tar: spark-2.2.1-bin-hadoop2.7.tgz: Impossible d'ouvrir: aucun fichier ou répertoire de ce type tar: L'erreur ne peut pas être récupérée: sortie maintenant.
Voici mes étapes
8 Réponses :
vous utilisez le lien pour l'ancienne version, les commandes suivantes fonctionneront (nouvelle version)
!apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q http://apache.osuosl.org/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz !tar xf spark-2.4.0-bin-hadoop2.7.tgz !pip install -q findspark
Pour exécuter spark dans Colab, nous devons d'abord installer toutes les dépendances dans l'environnement Colab telles qu'Apache Spark 2.3.2 avec hadoop 2.7, Java 8 et Findspark afin de localiser l'étincelle dans le système. L'installation des outils peut être effectuée à l'intérieur du Jupyter Notebook du Colab.
!apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz !tar xf spark-2.4.3-bin-hadoop2.7.tgz !pip install -q findspark
si vous obtenez à nouveau cette erreur: Impossible d'ouvrir: aucun fichier ou répertoire tar
visitez le site Web Apache spark et obtenez la dernière version de compilation: 1. https://www-us.apache.org/dist/spark/ 2. http://apache.osuosl.org/spark/
remplacez les mots en gras Spark- 2.4.3 par la dernière version.
C'est le bon code. Je viens de le tester.
!apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q http://mirrors.viethosting.com/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz !tar xf spark-2.4.4-bin-hadoop2.7.tgz !pip install -q findspark
#for the most recent update on 02/29/2020 !apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q https://www-us.apache.org/dist/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz !tar -xvf spark-3.0.0-preview2-bin-hadoop3.2.tgz !pip install -q findspark import os os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64" os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop3.2
Cette erreur concerne le lien que vous avez utilisé dans la deuxième ligne du code. L'extrait suivant a fonctionné pour moi sur Google Colab. N'oubliez pas de remplacer la version de Spark par la dernière et le chemin SPARK-HOME en conséquence. Vous pouvez trouver les dernières versions ici: https://downloads.apache.org/spark/
!apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget -q https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz !tar -xvf spark-3.0.0-preview2-bin-hadoop2.7.tgz !pip install -q findspark import os os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64" os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop2.7" import findspark findspark.init()
J'ai essayé les commandes suivantes et cela semble fonctionner.
!apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz !tar -xvf spark-3.0.0-preview2-bin-hadoop3.2.tgz !pip install -q findspark
J'ai obtenu la dernière version, modifié l'URL de téléchargement et ajouté l'indicateur v
à la commande tar pour une sortie verbeuse.
Le problème est dû au lien de téléchargement que vous utilisez pour télécharger spark:
http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin- hadoop2.7.tgz
Pour télécharger spark sans aucun problème, vous devez le télécharger depuis leur site d'archive ( https://archive.apache.org/dist/spark ):
Par exemple, le lien de téléchargement suivant à partir de leur archive fonctionne très bien
https://archive.apache.org/dist/spark/spark-3.0 .0 / spark-3.0.0-bin-hadoop3.2.tgz
Voici le code complet pour installer et configurer java, spark et pyspark:
# innstall java !apt-get install openjdk-8-jdk-headless -qq > /dev/null # install spark (change the version number if needed) !wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz # unzip the spark file to the current folder !tar xf spark-3.0.0-bin-hadoop3.2.tgz # set your spark folder to your system path environment. import os os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64" os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2" # install findspark using pip !pip install -q findspark
Pour les utilisateurs de python, vous devez également installer pyspark
en utilisant la commande suivante.
! pip install pyspark
Accédez simplement à https://downloads.apache.org/spark/ et choisissez le version dont vous avez besoin dans les dossiers et suivez les instructions dans https://colab.research.google.com/github/asifahmed90/pyspark-ML-in-Colab/blob/master/PySpark_Regression_Analysis.ipynb#scrollTo=m606eNuQgA82
Étapes:
Élément de liste
!apt-get install openjdk-8-jdk-headless -qq > /dev/null !wget https://downloads.apache.org/spark/FOLDER_YOU_CHOSE/FILE_YOU_CHOSE !tar -xvf FILE_YOU_CHOSE !pip install -q findspark import os os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64" os.environ["SPARK_HOME"] = "/content/FILE_YOU_CHOSE" import findspark findspark.init() from pyspark.sql import SparkSession spark = SparkSession.builder.master("local[*]").getOrCreate()