Questions et réponses pour le data-cleaning :

Le nettoyage des données est le processus d'élimination ou de réparation des erreurs et de normalisation des données utilisées dans les programmes informatiques. Par exemple, les valeurs aberrantes peuvent être supprimées, les échantillons manquants peuvent être interpolés, les valeurs non valides peuvent être marquées comme indisponibles et des valeurs synonymes peuvent être fusionnées. Une approche pour le nettoyage des données est le cadre "tidy data" de Wickham, ce qui signifie que chaque ligne est une observation et chaque colonne est une variable.

3
votes
J'ai des données de prix pour les pièces qui sont mises à jour tous les mois. Il a été intégré à un dataframe pandas. Parfois, une piè ...

2
votes
J'ai un dataframe appelé df df['algorithms'] = df['Comments'].apply(lambda x: " ".join(x for x in x.split() if x in algorithms)) et une liste appelée algorithmes ...

2
votes
J'essaie de nettoyer mon ensemble de données pandas, mais je ne parviens pas à trouver un moyen de supprimer les valeurs étranges avec #, *, x ajoutés à la fin d ...

1
votes
J'ai un fichier texte sauvage et fou, dont la tête ressemble à ceci: 2016-07-01 02:50:35 <name redacted> hey 2016-07-01 02:51:26 <name redacted> waiting for plane to ...