Le nettoyage des données est le processus d'élimination ou de réparation des erreurs et de normalisation des données utilisées dans les programmes informatiques. Par exemple, les valeurs aberrantes peuvent être supprimées, les échantillons manquants peuvent être interpolés, les valeurs non valides peuvent être marquées comme indisponibles et des valeurs synonymes peuvent être fusionnées. Une approche pour le nettoyage des données est le cadre "tidy data" de Wickham, ce qui signifie que chaque ligne est une observation et chaque colonne est une variable.
J'ai un dataframe appelé df df['algorithms'] = df['Comments'].apply(lambda x: " ".join(x for x in x.split() if x in algorithms))
et une liste appelée algorithmes ...
J'essaie de nettoyer mon ensemble de données pandas, mais je ne parviens pas à trouver un moyen de supprimer les valeurs étranges avec #, *, x ajoutés à la fin d ...
J'ai un fichier texte sauvage et fou, dont la tête ressemble à ceci: 2016-07-01 02:50:35 <name redacted> hey
2016-07-01 02:51:26 <name redacted> waiting for plane to ...