Je joue avec une analyse du sentiment et je recherche des données de semences. Y a-t-il un dictionnaire libre autour? P>
Il peut être vraiment simple: 3 séries de textes / phrases, pour "positif", "négatif", "neutre". Il n'est pas nécessaire d'être énorme. P>
Finalement, je vais probablement générer mes propres données de semences pour mon étui d'utilisation spécifique, mais ce serait génial d'avoir quelque chose à jouer avec maintenant pendant que je construis la chose. P>
4 Réponses :
Bing Liu et Minqing Hu d'UIC ont Un certain nombre de jeux de données: p>
Bo Pang de Cornell en possède d'autres. p>
Les données Cornell ressemblent à ce que cela fera le tour. Merci!
Si vous êtes intéressé par les dictionnaires du sentiment, de nombreux auteurs ont présenté des travaux basés sur des listes bâties manuellement et d'autres méthodes semi automatisées pour obtenir des listes de termes opinions. Une bonne approche consiste à le calculer à partir du NOREFERRER"> Base de données WordNet , en étendant un noyau de mots positifs / négatifs à l'aide de relations comme des synonymes, etc. p>
Un bon exemple de liste construite manuellement est le Inquirer général . p>
Pour une méthode semi automatisée qui dérive des listes, consultez SentideWordNet de Esuli et Sebastiani. p>
Celles-ci, je crois que nous sommes généralement disponibles pour la recherche, mais vous devrez peut-être contacter les auteurs concernant l'utilisation de ces ressources à des fins autres que de recherche. P>
b. p>
Vous pouvez utiliser la liste des mots AFINN ici: P>
http://www2.imm.dtu.dk/ pubdb / vues / publication_details.php? id = 6010 p>
AFINN est une liste des mots anglais notés pour la valence avec un entier entre moins de cinq (négatif) et plus cinq (positif). Les mots ont été manuellement étiqueté par Finn Årup Nielsen en 2009-2011. Le fichier est tab-séparé. Il y a deux versions: p>
AFINN-111: version la plus récente avec 2477 mots et expressions. P>
AFINN-96: 1468 mots et expressions uniques sur 1480 lignes. Notez qu'il y a sont 1480 lignes, car certains mots sont répertoriés deux fois. La liste de mots dans non entièrement dans la commande alphabétique. p> blockQuote>
Je maintiens une liste des corpus et des listes de mots pour l'analyse du sentiment (où mon afinn est l'un d'entre eux): p>
http://neuro.compute.dtu.dk/wiki/sentiment_analysis#corpora < / a> p>
http://neuro.compute.dtu.dk/wiki/sentiment_analysis#affective_word_lists < / a> p>
+1 Merci pour la base de données Afinn des mots avec des scores.
J'ai The Bing Lui et Minqing Hu Dataset (environ 7 000 commentaires d'environ 9 produits sur Amazon.com) Je les ai mis sur une feuille Excel avec le score moyen combiné de chacun d'entre eux. J'ai également ajouté le score de 3 API d'analyse de sentiment gratuits différentes du Web (ViralHeat, Alchemyapi, Repustate API) si vous souhaitez que la feuille Excel, je puisse vous le donner.
cs.uic.edu/~liub/fbs/sentaliment- analyse.html # lexique
@SherifmahereAid: Comment vous créez votre propre dictionnaire des articles?
@ user123 probablement il catégorise les mots et expressions utilisées dans différents commentaires pouvant être bons, mauvais ou neutres.
+1 merci de poser la question :)