2
votes

Erreur lors de l'installation de Spark sur Google Colab

Je reçois une erreur lors de l'installation de Spark sur Google Colab. Il dit

tar: spark-2.2.1-bin-hadoop2.7.tgz: Impossible d'ouvrir: aucun fichier ou répertoire de ce type tar: L'erreur ne peut pas être récupérée: sortie maintenant.

Voici mes étapes

! apt-get install openjdk-8-jdk-headless -qq> / dev / null
! wget -q http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
! tar xf spark-2.2.1-bin-hadoop2.7.tgz
! pip install -q findpark

entrez la description de l'image ici

apache-spark hadoop google-colaboratory pyspark

0 commentaires

8 Réponses :

0
votes

vous utilisez le lien pour l'ancienne version, les commandes suivantes fonctionneront (nouvelle version)

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
!tar xf spark-2.4.0-bin-hadoop2.7.tgz
!pip install -q findspark

0 commentaires

0
votes

Pour exécuter spark dans Colab, nous devons d'abord installer toutes les dépendances dans l'environnement Colab telles qu'Apache Spark 2.3.2 avec hadoop 2.7, Java 8 et Findspark afin de localiser l'étincelle dans le système. L'installation des outils peut être effectuée à l'intérieur du Jupyter Notebook du Colab.

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark

si vous obtenez à nouveau cette erreur: Impossible d'ouvrir: aucun fichier ou répertoire tar

visitez le site Web Apache spark et obtenez la dernière version de compilation: 1. https://www-us.apache.org/dist/spark/ 2. http://apache.osuosl.org/spark/

remplacez les mots en gras Spark- 2.4.3 par la dernière version.

0 commentaires

2
votes

C'est le bon code. Je viens de le tester.

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://mirrors.viethosting.com/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
!tar xf spark-2.4.4-bin-hadoop2.7.tgz
!pip install -q findspark

0 commentaires

2
votes

#for the most recent update on 02/29/2020

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz
!tar -xvf spark-3.0.0-preview2-bin-hadoop3.2.tgz
!pip install -q findspark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop3.2

0 commentaires

4
votes

Cette erreur concerne le lien que vous avez utilisé dans la deuxième ligne du code. L'extrait suivant a fonctionné pour moi sur Google Colab. N'oubliez pas de remplacer la version de Spark par la dernière et le chemin SPARK-HOME en conséquence. Vous pouvez trouver les dernières versions ici: https://downloads.apache.org/spark/

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
!tar -xvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
!pip install -q findspark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop2.7"
import findspark
findspark.init()

0 commentaires

1
votes

J'ai essayé les commandes suivantes et cela semble fonctionner.

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz
!tar -xvf spark-3.0.0-preview2-bin-hadoop3.2.tgz
!pip install -q findspark

J'ai obtenu la dernière version, modifié l'URL de téléchargement et ajouté l'indicateur v à la commande tar pour une sortie verbeuse.

0 commentaires

2
votes

Le problème est dû au lien de téléchargement que vous utilisez pour télécharger spark:

http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin- hadoop2.7.tgz

Pour télécharger spark sans aucun problème, vous devez le télécharger depuis leur site d'archive ( https://archive.apache.org/dist/spark ):

Par exemple, le lien de téléchargement suivant à partir de leur archive fonctionne très bien

https://archive.apache.org/dist/spark/spark-3.0 .0 / spark-3.0.0-bin-hadoop3.2.tgz

Voici le code complet pour installer et configurer java, spark et pyspark:

# innstall java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# install spark (change the version number if needed)
!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

# unzip the spark file to the current folder
!tar xf spark-3.0.0-bin-hadoop3.2.tgz

# set your spark folder to your system path environment. 
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"


# install findspark using pip
!pip install -q findspark

Pour les utilisateurs de python, vous devez également installer pyspark en utilisant la commande suivante.

! pip install pyspark

0 commentaires

0
votes

Accédez simplement à https://downloads.apache.org/spark/ et choisissez le version dont vous avez besoin dans les dossiers et suivez les instructions dans https://colab.research.google.com/github/asifahmed90/pyspark-ML-in-Colab/blob/master/PySpark_Regression_Analysis.ipynb#scrollTo=m606eNuQgA82

Étapes:

Accédez à https://downloads.apache.org/spark/
Sélectionnez le dossier par exemple: "spark-3.0.1 /"
Copiez le nom du fichier souhaité, par exemple: "spark-3.0.1-bin-hadoop3.2.tgz" (se termine par .tgz)
Coller dans le script fourni

Élément de liste

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget https://downloads.apache.org/spark/FOLDER_YOU_CHOSE/FILE_YOU_CHOSE
!tar -xvf FILE_YOU_CHOSE
!pip install -q findspark

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/FILE_YOU_CHOSE"

import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

0 commentaires