6
votes

Supprimer des lignes dupliquées (basées sur 2 colonnes) dans R

J'ai un jeu de données dans R qui ressemble à ceci: xxx

en fonction des valeurs des colonnes X1 et X2, je souhaite supprimer les lignes en double. J'ai essayé ce qui suit: xxx

il devrait supprimer les lignes 4 et 6. mais malheureusement, cela ne fonctionne pas, car il renvoie exactement les mêmes données, les duplicates toujours présentes dans le jeu de données. Que dois-je utiliser pour éliminer les lignes 4 et 6?


1 commentaires

Connexes, mais différent: Stackoverflow.com/q/11792527


3 Réponses :


3
votes
library("data.table")
setDT(df)[, .SD[1], by = .(x1, x2)]

#     x1   x2 x3
# 1:  A Away  2
# 2:  A Home  2
# 3:  B Away  2
# 4:  B Home  2
# 5:  C Away  1
# 6:  C Home  1

0 commentaires

1
votes

ou vous pouvez utiliser dplyr bibliothèque xxx


0 commentaires

5
votes

Je voudrais juste faire:

unique(df, by=c("x1", "x2")) # where df is a data.table


0 commentaires