Je me demande où je peux trouver la liste complète des langages pris en charge (et leurs clés) pour les mots vides NLTK.
J'ai vérifié sur le site NLTK et il y a 4 documents correspondant à des "mots vides" mais aucun d'eux ne décrit cela. https://www.nltk.org/search.html?q=stopwords&check_keywords = yes & area = default
Et rien n'est dit dans leur livre: http://www.nltk.org/book/ch02.html#stopwords_index_term
Alors, savez-vous où puis-je trouver la liste des clés?
3 Réponses :
Vérifiez d'abord si vous avez téléchargé les packages nltk
.
Sinon, vous pouvez le télécharger en utilisant ci-dessous:
C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords
Après cela, vous pouvez trouver les fichiers de langue de mots vides dans le chemin ci-dessous.
import nltk nltk.download()
Il y en a 21 langues prises en charge par celui-ci (j'ai installé nltk
il y a quelques jours, ce numéro doit donc être à jour). Vous pouvez passer le nom de fichier comme paramètre dans
nltk.corpus.stopwords.words('langauage')
Génial! Merci, je ne connaissais pas l'emplacement. J'ai pu utiliser certaines langues mais pas les autres :)
os.listdir('/root/nltk_data/corpora/stopwords/') ['hungarian', 'swedish', 'kazakh', 'norwegian', 'finnish', 'arabic', 'indonesian', 'portuguese', 'turkish', 'azerbaijani', 'slovene', 'spanish', 'danish', 'nepali', 'romanian', 'greek', 'dutch', 'README', 'tajik', 'german', 'english', 'russian', 'french', 'italian']
downvoté: cette approche n'est pas multiplateforme, ni compatible avec l'environnement.
Lorsque vous importez les mots vides en utilisant:
['arabic', 'azerbaijani', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'greek', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali', 'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish', 'swedish', 'tajik', 'turkish']
vous récupérez les mots vides en fonction du fileid (langue). Afin de voir toutes les langues de mots vides disponibles, vous pouvez récupérer la liste des fileids en utilisant:
from nltk.corpos import stopwords print(stopwords.fileids())
dans le cas de nltk v3.4.5, cela renvoie 23 langues: p >
from nltk.corpos import stopwords english_stopwords = stopwords.words('english')
Les programmeurs de faussetés croient à propos des langues: une «langue» est en quelque sorte liée à un «pays». D'une manière ou d'une autre, le fait que les langues parlées aux États-Unis comprennent l'anglais, l'espagnol, le navajo, le cherokee, etc. ne s'inscrit pas, encore moins le fait qu'il n'y a pas de langues nommées «belge» ou «bélizien».