Il semble que le moyen le plus simple et le plus naïvest de faire une analyse du sentiment de base soit avec un classificateur bayésien (confirmé par ce que je trouve ici. Tout contre-argument ou d'autres suggestions? P>
3 Réponses :
Un classificateur bayésien avec un sac de la représentation des mots est la méthode statistique la plus simple. Vous pouvez obtenir des résultats significativement meilleurs en passant à des classificateurs et à une représentation de fonctionnalités plus avancés, au coût de la complexité plus complexe. P>
Les méthodes statistiques ne sont pas le seul jeu en ville. Les méthodes basées sur des règles qui ont plus de compréhension de la structure du texte sont l'autre option principale. D'après ce que j'ai vu, ces méthodes ne fonctionnent pas ainsi que des méthodes statistiques. P>
Je recommande les fondements de Manning et Schütze de la transformation des langues naturelles statistiques Chapitre 16, catégorisation de texte. P>
Je ne peux pas penser à une façon plus simple et plus naïve de faire une analyse de sentiment, mais vous pourriez envisager d'utiliser une machine de vecteur de support au lieu de baies naïves (dans certaines boîtes à outils d'apprentissage de la machine, cela peut être un remplaçant de goutte). Jetez un coup d'œil à "Thumbs Up? Classification du sentiment à l'aide de techniques d'apprentissage de la machine" de Bo Pang, Lillian Lee et Shivakumar Vaithyanathan , qui était l'un des premiers articles de ces techniques et donne une bonne table de résultats de précision sur une famille de techniques connexes, dont aucune n'est plus compliquée (d'un perspective du client) que n'importe lequel des autres. P>
C'est un bon début. Plus tard, Pang & Lee avait un autre papier qui approche le problème légèrement différemment pour obtenir un meilleur résultat. Essayez ceci: aclweb.org/anthology-new/p/p04 /P04-1035.pdf
bâtiment sur la réponse fournie par Ken ci-dessus, il y a un autre papier p>
"Analyse du sentiment utilisant des machines de vecteur de support avec diverses sources d'information" de Tony et du Niger, P>
qui semble affecter plus de fonctionnalités qu'un sac de mots utilisés par Pang et Lee. Ici, ils tirent parti de Wordnet pour déterminer la différenciation sémantique des adjectifs et la proximité du sentiment vers le sujet dans le texte, comme des fonctionnalités supplémentaires pour SVM. Ils montrent de meilleurs résultats que les tentatives précédentes de classifier le texte basé sur le sentiment. P>