Questions et réponses pour le data-cleaning :

Le nettoyage des données est le processus d'élimination ou de réparation des erreurs et de normalisation des données utilisées dans les programmes informatiques. Par exemple, les valeurs aberrantes peuvent être supprimées, les échantillons manquants peuvent être interpolés, les valeurs non valides peuvent être marquées comme indisponibles et des valeurs synonymes peuvent être fusionnées. Une approche pour le nettoyage des données est le cadre "tidy data" de Wickham, ce qui signifie que chaque ligne est une observation et chaque colonne est une variable.

1
votes
J'essaie d'explorer les données dont je dispose, mais j'ai trouvé beaucoup d'anamolies dans mes données. La colonne de date de la trame de données a une date comme "120 ...

1
votes
J'essaie d'extraire un tableau spécifique d'un pdf, le pdf ressemble à l'image ci-dessous ...

1
votes
J'ai une table où les chaînes 1 et 2 sont presque dupliquées - elles ont les mêmes valeurs mais dans l'ordre inverse. Comment puis-je supprimer ces doublons? +------ ...

0
votes
J'ai un bloc de données que je veux diviser la chaîne de texte de la première colonne en deux colonnes, mais seulement après le deuxième espace blanc de la s&eacu ...