J'ai un jeu de données dans R qui ressemble à ceci: en fonction des valeurs des colonnes X1 et X2, je souhaite supprimer les lignes en double. J'ai essayé ce qui suit: p> il devrait supprimer les lignes 4 et 6. mais malheureusement, cela ne fonctionne pas, car il renvoie exactement les mêmes données, les duplicates toujours présentes dans le jeu de données. Que dois-je utiliser pour éliminer les lignes 4 et 6? P> p>
3 Réponses :
library("data.table") setDT(df)[, .SD[1], by = .(x1, x2)] # x1 x2 x3 # 1: A Away 2 # 2: A Home 2 # 3: B Away 2 # 4: B Home 2 # 5: C Away 1 # 6: C Home 1
ou vous pouvez utiliser dplyr code> bibliothèque
Je voudrais juste faire:
unique(df, by=c("x1", "x2")) # where df is a data.table
Connexes, mais différent: Stackoverflow.com/q/11792527