11
votes

Calcul de la perplexité d'un modèle de langue pour la classification par courrier électronique

J'ai un ensemble de fonctionnalités de 500 des uni-grammes les plus fréquemment présents d'un corpus d'emails. J'utilise cela pour classer les courriels à l'aide de C5.0 en fonction de la survenance / absence de chacun des mots tout dans le courrier électronique.

Maintenant, je dois calculer la perplexité des termes dans l'ensemble des fonctionnalités et utiliser ceci pour classer les courriels. Je me demandais une expérience de la modélisation linguistique et sait comment je voudrais calculer la perplexité du modèle, toute aide serait formidable!

Je devrais ajouter que je suis au courant des outils qui peuvent le faire pour moi automatiquement, Srilm / CMU-LMToolkit, par exemple, mais je préférerais faire cela moi-même de la base de mon projet de dernière année! Je dois juste avoir besoin de conseils sur la façon de commencer ... peut-être un lien vers "le guide des idiots en calcul de perplexité et la classification à l'aide d'une perplexité" !!

merci beaucoup !!

java perl email classification

2 commentaires

OT: Ma propre perplexité vient de sortir de la carte de lecture de la question. Il y a quelque chose à lire sur :)

Haha, excuses Tis un peu longue! Mais je pense que tout ce qui doit être dit ... je meurs de mourir de voir si quelqu'un peut expliquer cela simplement !!

3 Réponses :

2
votes

Ce EXERCICE DE COURS DE LA CMU < / a> semble avoir ce que vous voulez. Oui, ils vous recommandent d'utiliser Srilm, mais voyez la section "Modèle de langue" - Il pointe vers un chapitre de livre, un didacticiel de la recherche Microsoft et une présentation pour ce tutoriel.

J'espère que cela vous aidera!

2 commentaires

Merci à un million, ce chapitre de livre est parfait. Je suis tombé sur la conférence déjà au cours des derniers jours de Googling, mais le livre donne un très bel exemple. Merci encore!!

Les liens sont cassés. Le livre que vous avez été mentionné est le traitement de la langue parlée?

2
votes

Le lien vers "Etat de la technologie de la langue de la technologie" de Joshua Goodman (Turorial de MS Research) est maintenant: http://research.microsoft.com/apps/pubs/default.aspx ? id = 68595

0 commentaires

1
votes

Je me rends compte que cela a été un moment depuis que vous avez posé la question, mais si vous êtes toujours intéressé par la portée plus large de la perplexité (je veux dire le traitement des langues naturelles, la reconnaissance de la parole, une partie du marquage de la parole et la reconnaissance de l'entité nommée, etc.), puis Je vous recommande de suivre ce cours qui fonctionne actuellement sur COURSERA.

Voici l'URL https://www.coursera.org/course/nlangp << / p>

0 commentaires