Questions et réponses pour le data-cleaning :

Le nettoyage des données est le processus d'élimination ou de réparation des erreurs et de normalisation des données utilisées dans les programmes informatiques. Par exemple, les valeurs aberrantes peuvent être supprimées, les échantillons manquants peuvent être interpolés, les valeurs non valides peuvent être marquées comme indisponibles et des valeurs synonymes peuvent être fusionnées. Une approche pour le nettoyage des données est le cadre "tidy data" de Wickham, ce qui signifie que chaque ligne est une observation et chaque colonne est une variable.

2
votes
J'essaie donc d'utiliser Pandas pour remplacer toutes les valeurs NaN dans une table par la médiane sur une plage particulière. Je travaille avec un plus grand ensemble de donné ...

3
votes
Je nettoie actuellement certaines données allemandes. Les données allemandes sont formatées différemment de la normale. En allemand, mille avec deux décimales va ...

3
votes
J'ai une liste de chaînes associées aux hashtags Twitter. Je souhaite supprimer des chaînes entières qui commencent par certains préfixes. ...

3
votes
Je veux résumer les lignes d'un dataframe qui ont la même clé de ligne. Le but sera de réduire la taille de l'ensemble de données. Par exemple, si le ...