0
votes

Comment exécuter des modèles ML supervisés sur un grand jeu de données (15 Go) dans R?

J'ai un jeu de données (15 Go): 72 millions d'enregistrements et 26 caractéristiques. Je voudrais comparer 7 modèles ML supervisés (problème de classification): SVM, forêt aléatoire, arbre de décision, baies naïfs, Ann, Knn et XGoosting. J'ai créé un exemple de série de 7,2 millions d'enregistrements (10% de l'ensemble complet). Les modèles d'exécution de l'exemple de jeu d'échantillons (même la sélection des fonctionnalités) sont déjà un problème. Il a un très long temps de traitement. J'utilise seulement RStudio en ce moment.

Je cherche une réponse à mes questions pendant des jours. J'ai essayé les choses suivantes: - Datables.Table - toujours pas suffisant pour réduire le temps de traitement - SparklyR - ne peut pas copier mon jeu de données, car il est trop grand

Je cherche une solution sans coût à mon problème. Quelqu'un peut-il m'aider s'il vous plaît?

r supervised-learning large-data feature-selection sparklyr

2 commentaires

Quelle est la source des données? Est-ce .csv, une connexion de base de données, etc.? Si nous savons où vient les données, nous pouvons penser à la manière de l'obtenir dans l'étincelle.

Bonjour Raphaël, c'est un fichier CSV. Pas de connexion de base de données. Je viens de télécharger depuis un site Web.

3 Réponses :

-1
votes

Vous devez rechercher le package disk.frame. / code>.



                                                                    
                                    
                                    
                                        0 commentaires


                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Si vous avez accès à une étincelle, vous pouvez utiliser  SpartinclyR  code> pour lire directement le fichier CSV. 
install.packages('sparklyr')
library(sparklyr)

## You'll have to connect to your Spark cluster, this is just a placeholder example
sc <- spark_connect(master = "spark://HOST:PORT")

## Read large CSV into Spark
sdf <- spark_read_csv(sc, 
                      name = "my_spark_table", 
                      path = "/path/to/my_large_file.csv")

## Take a look
head(sdf)

                                

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Essayez  Google Colab . Cela peut vous aider à exécuter votre jeu de données
 facilement.                                 

                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Comment créer une barre de couleur dégradée discrète avec geom_contour_filled?                        
                        
                                            
                            Variable de bande dans R                        
                        
                                            
                            Mélanger le vecteur dans R, mais les éléments identiques doivent avoir une distance minimale                        
                        
                                            
                            Pour imprimer la valeur de l'année bissextile suivante en utilisant la variable dans la programmation R