7
votes

NLTK langues disponibles pour les mots vides


1 commentaires

Les programmeurs de faussetés croient à propos des langues: une «langue» est en quelque sorte liée à un «pays». D'une manière ou d'une autre, le fait que les langues parlées aux États-Unis comprennent l'anglais, l'espagnol, le navajo, le cherokee, etc. ne s'inscrit pas, encore moins le fait qu'il n'y a pas de langues nommées «belge» ou «bélizien».


3 Réponses :


4
votes

Vérifiez d'abord si vous avez téléchargé les packages nltk .
Sinon, vous pouvez le télécharger en utilisant ci-dessous:

C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords

Après cela, vous pouvez trouver les fichiers de langue de mots vides dans le chemin ci-dessous.

import nltk
nltk.download()

Il y en a 21 langues prises en charge par celui-ci (j'ai installé nltk il y a quelques jours, ce numéro doit donc être à jour). Vous pouvez passer le nom de fichier comme paramètre dans

nltk.corpus.stopwords.words('langauage')


1 commentaires

Génial! Merci, je ne connaissais pas l'emplacement. J'ai pu utiliser certaines langues mais pas les autres :)



4
votes
os.listdir('/root/nltk_data/corpora/stopwords/')

['hungarian',
 'swedish',
 'kazakh',
 'norwegian',
 'finnish',
 'arabic',
 'indonesian',
 'portuguese',
 'turkish',
 'azerbaijani',
 'slovene',
 'spanish',
 'danish',
 'nepali',
 'romanian',
 'greek',
 'dutch',
 'README',
 'tajik',
 'german',
 'english',
 'russian',
 'french',
 'italian']

1 commentaires

downvoté: cette approche n'est pas multiplateforme, ni compatible avec l'environnement.



2
votes

Lorsque vous importez les mots vides en utilisant:

['arabic', 
 'azerbaijani', 
 'danish', 
 'dutch', 
 'english', 
 'finnish', 
 'french', 
 'german', 
 'greek',
 'hungarian', 
 'indonesian', 
 'italian', 
 'kazakh', 
 'nepali', 
 'norwegian', 
 'portuguese', 
 'romanian', 
 'russian', 
 'slovene', 
 'spanish', 
 'swedish', 
 'tajik', 
 'turkish']

vous récupérez les mots vides en fonction du fileid (langue). Afin de voir toutes les langues de mots vides disponibles, vous pouvez récupérer la liste des fileids en utilisant:

from nltk.corpos import stopwords
print(stopwords.fileids())

dans le cas de nltk v3.4.5, cela renvoie 23 langues: p >

from nltk.corpos import stopwords
english_stopwords = stopwords.words('english')


0 commentaires