8
votes

Citations et traits d'union non supprimés par les fonctions de colis TM tout en nettoyant le corpus

J'essaie de nettoyer le corpus et j'ai utilisé les étapes typiques, comme le code ci-dessous: XXX

Quand j'inspecterai la matrice il y a peu de mots avec des citations , tel que: "nous" "entreprise" "code des lignes directrices" -connu -Accéléperated

Il semble que les mots eux-mêmes sont à l'intérieur des citations, mais lorsque j'essaie d'exécuter refuve du code de suppression, il ne fonctionne pas. En outre, il y a des mots avec des balles devant cela, je ne peux pas non plus enlever.

Toute aide serait grandement appréciée.


4 commentaires

Pourriez-vous fournir un exemple reproductible?


Je suis désolé, je ne comprends pas tout à fait "exemple reproductible"?


Stackoverflow.com/help/mcve


J'ai utilisé le code ci-dessus pour un document contenant la phrase: "Aux fins du présent accord", la séparation de la date de service "signifie la date de la séparation de l'exécutif du service au sens de la section 409A (a) (2) (i) ) A) du code et déterminé conformément aux règles par défaut en vertu de l'article 409a du Code ". N'est toujours pas propre correctement.


3 Réponses :


10
votes

supprimerPunctutus code> utilise gsub ('[[[: punct:]]'] ',' '', '', '', '", x) code> c.-à-d. Élimine les symboles: " # $% &' () * +, \ -. / :; ? @ [\\\\] ^ _ code> {|} ~ `. Pour supprimer d'autres symboles, comme des guillemets typographiques ou des signes de balle (ou tout autre), Déclarez votre propre fonction de transformation:

removeSpecialChars <- function(x) gsub("[^a-zA-Z0-9 ]","",x)
docs <- tm_map(docs, removeSpecialChars)


4 commentaires

J'ai utilisé le code ci-dessus pour un document contenant la phrase: "Aux fins du présent accord", la séparation de la date de service "signifie la date de la séparation de l'exécutif du service au sens de la section 409A (a) (2) (i) ) A) du code et déterminé conformément aux règles par défaut en vertu de l'article 409a du Code ". N'est toujours pas propre correctement.


Oh, je vois, c'est des citations typographiques. Ils ne font pas partie de la classe de personnages de ponctuation POSIX. Édité ma réponse.


Heureux cela aidé. Si vous sentez une réponse résolue le problème, veuillez la marquer comme «accepté» en cliquant sur la coche verte.


Le package stringi vous permet d'implémenter de nombreuses définitions de citations qui incluent les citations «Curly» et «Smart» qui apparaissent dans tant de texte. Voir ? Stringi-Search-charclass et regardez le p Union de classe. Plus générale et plus continentale que les définitions de POSIX.



1
votes

Un meilleur tikenizer construit vous gérera automatiquement. Essayez ceci: xxx


0 commentaires

0
votes

Réponse de @ Cyberj0G nécessite une petite modification de la dernière version de TM (0.6). Le code mis à jour peut être écrit comme suit: xxx

merci @ cyberj0g pour le code de travail


0 commentaires