J'ai cette chaîne: Je veux retourner ceci: p> J'ai essayé ceci: p> ("abs","aaaa","aaa")
3 Réponses :
Vous pouvez le faire avec une regex: Nous recherchons des mots ( \ w + code>) ou tout caractère non-espace ( \ s code>) p> p>
Est-il possible d'ajouter des virgules et de l'espace
Ma solution est simple: remplacez toutes les virgules par "," puis diviser:
from nltk.tokenize import TweetTokenizer
tokenizer = TweetTokenizer()
tokenizer.tokenize("abs, aaaa aaa")
#op
['abs', ',', 'aaaa', 'aaa']
Comme il n'y a pas d'espace
'' '' ' code> avant, code>abs, code> est considéré comme un mot unique.Cela signifie donc qu'il ne peut pas être ajouté?
Vous devez gérer manuellement ce genre de cas pour obtenir le résultat souhaité. Pouvez-vous donner un autre exemple de sortie d'entrée?
"abs , aaa" code>. Quelle serait la production de cela?L'approche
RE code> de Thierry est la voie à suivre. Mais si vous souhaitez une solution de liste brute-Comp:[mot ou ',' pour communication par virgule dans "ABS, AAAA AAA" .Split () pour Word in commun_word.split (',')] code>@Poojan La sortie serait comme ceci ["ABS", ",", ",", ",", "," AAA "]