Je prévois une application qui fera des grappes de messages / tweets courts en fonction de sujets. Le nombre de sujets sera limité comme des sports [NBA, NFL, Cricket, Soccer], Divertissement [Films, Musique] et ainsi de suite ... P>
Je peux penser à deux approches de cette p>
J'aimerais savoir s'il existe d'autres approches de ce problème. Ou existe-t-il des moyens d'améliorer les méthodes susmentionnées? P>
suggère également de bons algorithmes de clustering.Je pensez que "K-K-Clustering" "algorithme est apte à cette situation. p>
3 Réponses :
Utilisez Classification bayésienne . Entraînez le filtre avec un corpus prédéfini et (éventuellement) fournir un moyen d'affiner davantage les utilisateurs en signalant des choses mal classées. P>
Voici quelques Exemples d'utiliser le classificateur bayésien dans NLTK . P>
Merci pour la réponse ... En fait, je veux le garder aussi simple que possible pour les utilisateurs. Je pense que ce serait bien si les utilisateurs peuvent simplement entrer des messages et un serveur déterminera où le mettre. Bien que la plupart des informations d'intelligence dans le serveur seront difficiles.
Vous n'avez pas à fournir un moyen de faire une formation continue du filtre; Cela rend le filtre mieux. Si vous avez un bon corpus, la classification doit être acceptable sans accorder en cours.
Je fais aussi un genre de chose similaire. Je pense que les hashtags sont un bon moyen si vous parlez spécifiquement sur Twitter. Vous pouvez également effectuer une certaine classification, mais il devrait être enrichi d'une base de connaissances externe comme Wikipedia, etc. Quoi qu'il en soit, si votre solution est meilleure, veuillez le poster ici P>