L'une des choses que je traite le plus dans le nettoyage des données est des valeurs manquantes. Règle avec ce puits en utilisant son étiquette de données manquante "na". En Python, il semble que je devais faire face à des tableaux masqués qui semblent être une douleur majeure à mettre en place et ne semblent pas être bien documentées. Toute suggestion sur la fabrication de ce processus plus facile à Python? Cela devient un drapant de contrat dans le passage à Python pour l'analyse de données. Merci p>
Mise à jour forte> C'est évidemment un certain temps depuis que j'ai examiné les méthodes du module numpy.ma. Il semble que au moins les fonctions d'analyse de base soient disponibles pour les tableaux masqués et les exemples fournis m'a aidé à comprendre comment créer des tableaux masqués (grâce aux auteurs). J'aimerais voir si certaines des nouvelles méthodes statistiques de Python (étant développées dans la GSOC de cette année) intègrent cet aspect, et au moins l'analyse de cas complète. P>
4 Réponses :
Je pose également des questions sur le problème avec des tableaux masqués. Voici quelques exemples:
import numpy as np data = np.ma.masked_array(np.arange(10)) data[5] = np.ma.masked # Mask a specific value data[data>6] = np.ma.masked # Mask any value greater than 6 # Same thing done at initialization time init_data = np.arange(10) data = np.ma.masked_array(init_data, mask=(init_data > 6))
Les tableaux masqués sont l'anwswer, car DPPlershift décrit. Pour une utilisation rapide et sale, vous pouvez utiliser une indexation fantaisie avec des tableaux booléens: Vous pouvez maintenant utiliser valide_idx comme masque rapide sur d'autres données, aussi bien p>
Si vous êtes prêt à envisager une bibliothèque, Pandas (http://pandas.pydata.org/) est une bibliothèque construite sur Numppy qui parmi d'autres choses fournies: P>
Alignement des données intelligentes et traitement intégré des données manquantes: gagnez un alignement automatique basé sur une étiquette dans des calculs et manipuler facilement des données désordonnées dans une forme ordonnée p> blockQuote>
Je l'utilise depuis près d'un an dans le secteur financier où les données manquantes et mal alignées sont la norme et cela a vraiment rendu ma vie plus facile. P>
voir sklearn.preprocessing.imputer < Pré> xxx pré>
Exemple de http: // SCIKIT- apprendre.org/ p> p>
Pourquoi ne pas utiliser Numpy.Nan pour identifier les données manquantes?