11
votes

Comment gérez-vous des données manquantes à l'aide de NUMPY / SICPY?

L'une des choses que je traite le plus dans le nettoyage des données est des valeurs manquantes. Règle avec ce puits en utilisant son étiquette de données manquante "na". En Python, il semble que je devais faire face à des tableaux masqués qui semblent être une douleur majeure à mettre en place et ne semblent pas être bien documentées. Toute suggestion sur la fabrication de ce processus plus facile à Python? Cela devient un drapant de contrat dans le passage à Python pour l'analyse de données. Merci

Mise à jour C'est évidemment un certain temps depuis que j'ai examiné les méthodes du module numpy.ma. Il semble que au moins les fonctions d'analyse de base soient disponibles pour les tableaux masqués et les exemples fournis m'a aidé à comprendre comment créer des tableaux masqués (grâce aux auteurs). J'aimerais voir si certaines des nouvelles méthodes statistiques de Python (étant développées dans la GSOC de cette année) intègrent cet aspect, et au moins l'analyse de cas complète.

python numpy data-analysis

1 commentaires

Pourquoi ne pas utiliser Numpy.Nan pour identifier les données manquantes?

4 Réponses :

1
votes

Je pose également des questions sur le problème avec des tableaux masqués. Voici quelques exemples:
import numpy as np data = np.ma.masked_array(np.arange(10)) data[5] = np.ma.masked # Mask a specific value data[data>6] = np.ma.masked # Mask any value greater than 6 # Same thing done at initialization time init_data = np.arange(10) data = np.ma.masked_array(init_data, mask=(init_data > 6))

0 commentaires

1
votes

Les tableaux masqués sont l'anwswer, car DPPlershift décrit. Pour une utilisation rapide et sale, vous pouvez utiliser une indexation fantaisie avec des tableaux booléens: xxx
Vous pouvez maintenant utiliser valide_idx comme masque rapide sur d'autres données, aussi bien xxx

0 commentaires

4
votes

Si vous êtes prêt à envisager une bibliothèque, Pandas (http://pandas.pydata.org/) est une bibliothèque construite sur Numppy qui parmi d'autres choses fournies:

Alignement des données intelligentes et traitement intégré des données manquantes: gagnez un alignement automatique basé sur une étiquette dans des calculs et manipuler facilement des données désordonnées dans une forme ordonnée
Je l'utilise depuis près d'un an dans le secteur financier où les données manquantes et mal alignées sont la norme et cela a vraiment rendu ma vie plus facile.

0 commentaires

1
votes

voir sklearn.preprocessing.imputer < Pré> xxx
Exemple de http: // SCIKIT- apprendre.org/

0 commentaires

Articles qui pourrait vous intéresser :
Python: ConnectionError: HTTPSConnectionPool (hôte = 'api.foursquare-com', port = 443)
L'exécution de Flask sous Windows n'exécute pas la commande d'exécution de flask
Chatbot installé mais obtention d'une erreur lors de l'importation de ChatBot
Administrateur Django: __str__ a renvoyé une non-chaîne (type int)