11
votes

Calcul de la perplexité d'un modèle de langue pour la classification par courrier électronique

J'ai un ensemble de fonctionnalités de 500 des uni-grammes les plus fréquemment présents d'un corpus d'emails. J'utilise cela pour classer les courriels à l'aide de C5.0 en fonction de la survenance / absence de chacun des mots tout dans le courrier électronique.

Maintenant, je dois calculer la perplexité des termes dans l'ensemble des fonctionnalités et utiliser ceci pour classer les courriels. Je me demandais une expérience de la modélisation linguistique et sait comment je voudrais calculer la perplexité du modèle, toute aide serait formidable!

Je devrais ajouter que je suis au courant des outils qui peuvent le faire pour moi automatiquement, Srilm / CMU-LMToolkit, par exemple, mais je préférerais faire cela moi-même de la base de mon projet de dernière année! Je dois juste avoir besoin de conseils sur la façon de commencer ... peut-être un lien vers "le guide des idiots en calcul de perplexité et la classification à l'aide d'une perplexité" !!

merci beaucoup !!


2 commentaires

OT: Ma propre perplexité vient de sortir de la carte de lecture de la question. Il y a quelque chose à lire sur :)


Haha, excuses Tis un peu longue! Mais je pense que tout ce qui doit être dit ... je meurs de mourir de voir si quelqu'un peut expliquer cela simplement !!


3 Réponses :




1
votes

Je me rends compte que cela a été un moment depuis que vous avez posé la question, mais si vous êtes toujours intéressé par la portée plus large de la perplexité (je veux dire le traitement des langues naturelles, la reconnaissance de la parole, une partie du marquage de la parole et la reconnaissance de l'entité nommée, etc.), puis Je vous recommande de suivre ce cours qui fonctionne actuellement sur COURSERA.

Voici l'URL https://www.coursera.org/course/nlangp << / p>


0 commentaires