2
votes

Modélisation de sujets sur des textes courts Python

Je veux faire de la modélisation de sujets sur des textes courts. J'ai fait des recherches sur LDA et j'ai trouvé que cela ne va pas bien avec des textes courts. Quelles méthodes seraient meilleures et ont-elles des implémentations Python?


0 commentaires

3 Réponses :


3
votes

Vous pouvez essayer la modélisation de sujet de texte court (reportez-vous à ce https://www.groundai.com/project/sttm-a-tool-for-short-text-topic-modeling/1 ) (code disponible sur https: // github .com / qiang2100 / STTM ). Il combine des algorithmes de pointe et la modélisation de sujets traditionnels pour un texte long qui peut être utilisé de manière pratique pour un texte court.

Pour des bibliothèques plus spécialisées, essayez lda2vec-tf, qui combine des vecteurs de mots avec des vecteurs de rubrique LDA. Il est dérivé du lda2vec original et amélioré et donne de meilleurs résultats que la bibliothèque originale.


2 commentaires

Sont-ils disponibles en python?


Comme je peux le voir, STTM est écrit sur Java et n'a que l'API Java. Ce serait bien, cependant, si quelqu'un crée une liaison Python pour cela.



1
votes

La seule implémentation Python de la modélisation de sujets de texte court est GSDMM . Malheureusement, la plupart des autres sont écrits sur Java.


0 commentaires

1
votes

Outre GSDM , il existe également un biterm implémenté en python pour la modélisation de sujets de texte court.


0 commentaires