0
votes

Comment exécuter des modèles ML supervisés sur un grand jeu de données (15 Go) dans R?

J'ai un jeu de données (15 Go): 72 millions d'enregistrements et 26 caractéristiques. Je voudrais comparer 7 modèles ML supervisés (problème de classification): SVM, forêt aléatoire, arbre de décision, baies naïfs, Ann, Knn et XGoosting. J'ai créé un exemple de série de 7,2 millions d'enregistrements (10% de l'ensemble complet). Les modèles d'exécution de l'exemple de jeu d'échantillons (même la sélection des fonctionnalités) sont déjà un problème. Il a un très long temps de traitement. J'utilise seulement RStudio en ce moment.

Je cherche une réponse à mes questions pendant des jours. J'ai essayé les choses suivantes: - Datables.Table - toujours pas suffisant pour réduire le temps de traitement - SparklyR - ne peut pas copier mon jeu de données, car il est trop grand

Je cherche une solution sans coût à mon problème. Quelqu'un peut-il m'aider s'il vous plaît?


2 commentaires

Quelle est la source des données? Est-ce .csv, une connexion de base de données, etc.? Si nous savons où vient les données, nous pouvons penser à la manière de l'obtenir dans l'étincelle.


Bonjour Raphaël, c'est un fichier CSV. Pas de connexion de base de données. Je viens de télécharger depuis un site Web.


3 Réponses :


-1
votes

Vous devez rechercher le package disk.frame. / code>.


0 commentaires

0
votes

Si vous avez accès à une étincelle, vous pouvez utiliser SpartinclyR code> pour lire directement le fichier CSV.

install.packages('sparklyr')
library(sparklyr)

## You'll have to connect to your Spark cluster, this is just a placeholder example
sc <- spark_connect(master = "spark://HOST:PORT")

## Read large CSV into Spark
sdf <- spark_read_csv(sc, 
                      name = "my_spark_table", 
                      path = "/path/to/my_large_file.csv")

## Take a look
head(sdf)


0 commentaires

0
votes

Essayez Google Colab . Cela peut vous aider à exécuter votre jeu de données facilement.


0 commentaires