J'ai cette chaîne: Je veux retourner ceci: p> J'ai essayé ceci: p> ("abs","aaaa","aaa")
3 Réponses :
Vous pouvez le faire avec une regex: Nous recherchons des mots ( \ w + code>) ou tout caractère non-espace (
\ s code>) p> p>
Est-il possible d'ajouter des virgules et de l'espace
Ma solution est simple: remplacez toutes les virgules par "," puis diviser:
from nltk.tokenize import TweetTokenizer tokenizer = TweetTokenizer() tokenizer.tokenize("abs, aaaa aaa") #op ['abs', ',', 'aaaa', 'aaa']
Comme il n'y a pas d'espace
'' '' ' code> avant
, code>
abs, code> est considéré comme un mot unique.
Cela signifie donc qu'il ne peut pas être ajouté?
Vous devez gérer manuellement ce genre de cas pour obtenir le résultat souhaité. Pouvez-vous donner un autre exemple de sortie d'entrée?
"abs , aaa" code>. Quelle serait la production de cela?
L'approche
RE code> de Thierry est la voie à suivre. Mais si vous souhaitez une solution de liste brute-Comp:
[mot ou ',' pour communication par virgule dans "ABS, AAAA AAA" .Split () pour Word in commun_word.split (',')] code>
@Poojan La sortie serait comme ceci ["ABS", ",", ",", ",", "," AAA "]