Questions et réponses pour le data-cleaning :

Le nettoyage des données est le processus d'élimination ou de réparation des erreurs et de normalisation des données utilisées dans les programmes informatiques. Par exemple, les valeurs aberrantes peuvent être supprimées, les échantillons manquants peuvent être interpolés, les valeurs non valides peuvent être marquées comme indisponibles et des valeurs synonymes peuvent être fusionnées. Une approche pour le nettoyage des données est le cadre "tidy data" de Wickham, ce qui signifie que chaque ligne est une observation et chaque colonne est une variable.

1
votes
J'ai des données de vente où les erreurs enregistrées au point de vente sont corrigées par la suite et le jeu de données contient toujours des enregistrements po ...

1
votes
J'ai des données d'enquête sur lesquelles je travaille dans R qui comprend des questions où les répondants ont reçu une liste d'options et ont été i ...

1
votes
Je souhaite remplacer certaines valeurs de mon dataframe qui ont été saisies dans le mauvais format. Par exemple, 850 / 07-498745 doit être 07-498745. Maintenant, j'ai utilis&e ...

1
votes
Mon ensemble de données comporte plusieurs colonnes portant le même nom et j'aimerais les supprimer. Malheureusement, select (data, -Offender) ne fonctionne p ...