J'essaie de nettoyer le corpus et j'ai utilisé les étapes typiques, comme le code ci-dessous: Quand j'inspecterai la matrice il y a peu de mots avec des citations , tel que:
"nous"
"entreprise"
"code
des lignes directrices"
-connu
-Accéléperated P> Il semble que les mots eux-mêmes sont à l'intérieur des citations, mais lorsque j'essaie d'exécuter refuve du code de suppression, il ne fonctionne pas. En outre, il y a des mots avec des balles devant cela, je ne peux pas non plus enlever. P> Toute aide serait grandement appréciée. p> p>
3 Réponses :
supprimerPunctutus code> utilise
gsub ('[[[: punct:]]'] ',' '', '', '', '", x) code> c.-à-d. Élimine les symboles:
" # $% &' () * +, \ -. / :; ? @ [\\\\] ^ _ code> {|} ~ `. Pour supprimer d'autres symboles, comme des guillemets typographiques ou des signes de balle (ou tout autre), Déclarez votre propre fonction de transformation:
removeSpecialChars <- function(x) gsub("[^a-zA-Z0-9 ]","",x)
docs <- tm_map(docs, removeSpecialChars)
J'ai utilisé le code ci-dessus pour un document contenant la phrase: "Aux fins du présent accord", la séparation de la date de service "signifie la date de la séparation de l'exécutif du service au sens de la section 409A (a) (2) (i) ) A) du code et déterminé conformément aux règles par défaut en vertu de l'article 409a du Code ". N'est toujours pas propre correctement.
Oh, je vois, c'est des citations typographiques. Ils ne font pas partie de la classe de personnages de ponctuation POSIX. Édité ma réponse.
Heureux cela aidé. Si vous sentez une réponse résolue le problème, veuillez la marquer comme «accepté» en cliquant sur la coche verte.
Le package stringi code> vous permet d'implémenter de nombreuses définitions de citations qui incluent les citations «Curly» et «Smart» qui apparaissent dans tant de texte. Voir
? Stringi-Search-charclass CODE> et regardez le
p code> Union de classe. Plus générale et plus continentale que les définitions de POSIX.
Un meilleur tikenizer construit vous gérera automatiquement. Essayez ceci:
Réponse de @ Cyberj0G nécessite une petite modification de la dernière version de merci @ cyberj0g pour le code de travail p> p> TM code> (0.6).
Le code mis à jour peut être écrit comme suit:
Pourriez-vous fournir un exemple reproductible?
Je suis désolé, je ne comprends pas tout à fait "exemple reproductible"?
Stackoverflow.com/help/mcve
J'ai utilisé le code ci-dessus pour un document contenant la phrase: "Aux fins du présent accord", la séparation de la date de service "signifie la date de la séparation de l'exécutif du service au sens de la section 409A (a) (2) (i) ) A) du code et déterminé conformément aux règles par défaut en vertu de l'article 409a du Code ". N'est toujours pas propre correctement.