7
votes

NLTK langues disponibles pour les mots vides

Je me demande où je peux trouver la liste complète des langages pris en charge (et leurs clés) pour les mots vides NLTK.

Je trouve une liste dans https://pypi.org/project/stop-words/ mais il ne contient pas les clés de chaque pays. Donc, il n'est pas clair si vous pouvez récupérer la liste simplement par stopwords.words ("bulgare") . En fait, cela générera une erreur.

J'ai vérifié sur le site NLTK et il y a 4 documents correspondant à des "mots vides" mais aucun d'eux ne décrit cela. https://www.nltk.org/search.html?q=stopwords&check_keywords = yes & area = default

Et rien n'est dit dans leur livre: http://www.nltk.org/book/ch02.html#stopwords_index_term

Alors, savez-vous où puis-je trouver la liste des clés?

python nlp nltk stop-words

1 commentaires

Les programmeurs de faussetés croient à propos des langues: une «langue» est en quelque sorte liée à un «pays». D'une manière ou d'une autre, le fait que les langues parlées aux États-Unis comprennent l'anglais, l'espagnol, le navajo, le cherokee, etc. ne s'inscrit pas, encore moins le fait qu'il n'y a pas de langues nommées «belge» ou «bélizien».

3 Réponses :

4
votes

Vérifiez d'abord si vous avez téléchargé les packages nltk .
Sinon, vous pouvez le télécharger en utilisant ci-dessous:

C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords

Après cela, vous pouvez trouver les fichiers de langue de mots vides dans le chemin ci-dessous.

import nltk
nltk.download()

Il y en a 21 langues prises en charge par celui-ci (j'ai installé nltk il y a quelques jours, ce numéro doit donc être à jour). Vous pouvez passer le nom de fichier comme paramètre dans

nltk.corpus.stopwords.words('langauage')

1 commentaires

Génial! Merci, je ne connaissais pas l'emplacement. J'ai pu utiliser certaines langues mais pas les autres :)

4
votes

os.listdir('/root/nltk_data/corpora/stopwords/')

['hungarian',
 'swedish',
 'kazakh',
 'norwegian',
 'finnish',
 'arabic',
 'indonesian',
 'portuguese',
 'turkish',
 'azerbaijani',
 'slovene',
 'spanish',
 'danish',
 'nepali',
 'romanian',
 'greek',
 'dutch',
 'README',
 'tajik',
 'german',
 'english',
 'russian',
 'french',
 'italian']

1 commentaires

downvoté: cette approche n'est pas multiplateforme, ni compatible avec l'environnement.

2
votes

Lorsque vous importez les mots vides en utilisant:

['arabic', 
 'azerbaijani', 
 'danish', 
 'dutch', 
 'english', 
 'finnish', 
 'french', 
 'german', 
 'greek',
 'hungarian', 
 'indonesian', 
 'italian', 
 'kazakh', 
 'nepali', 
 'norwegian', 
 'portuguese', 
 'romanian', 
 'russian', 
 'slovene', 
 'spanish', 
 'swedish', 
 'tajik', 
 'turkish']

vous récupérez les mots vides en fonction du fileid (langue). Afin de voir toutes les langues de mots vides disponibles, vous pouvez récupérer la liste des fileids en utilisant:

from nltk.corpos import stopwords
print(stopwords.fileids())

dans le cas de nltk v3.4.5, cela renvoie 23 langues: p >

from nltk.corpos import stopwords
english_stopwords = stopwords.words('english')

0 commentaires