Disons-nous, j'ai une chaîne dire «John Doe» et je souhaite déterminer si cette chaîne est un nom d'une personne, nom d'une entreprise ou aucun de ceux-ci. Chaque minute de plus en plus de chaînes entrant dans mon système et que le système doit classer dans l'une de ces 3 catégories. P>
3 Réponses :
Vous auriez besoin d'un dictionnaire de chaînes dans différentes catégories pour les comparer. p>
Sans dictionnaire, vous auriez besoin d'une sorte d'apprentissage AI / machine qui pourrait le faire automatiquement, mais c'est bien au-delà de la portée du type de réponse que vous obtiendrez ici. P>
NLTK fournit aux corpus des mots anglais les plus courants (nltk.corpus.wards.words ("code> et la plupart des noms anglais communs
nltk.corpus.names.words ( )) code> p>
Utilisez Gensim Word2vec, c'est une bibliothèque fournie par Google où il a des vecteurs et une relation pour tous les mots. P>
Maintenant, lorsque vous entrez dans le texte au système, vous obtiendrez d'abord votre mot. En haut de cela, vous pouvez appliquer n'importe quelle classification Algo pour classer votre tâche. P>
J'espère que cette aide! P>
Je ne comprends pas la question que vous demandez.
Pouvez-vous s'il vous plaît collaborer un peu?
@RITULLAKHTARIYA Le mot que vous recherchez est "élaboré". Acclamations!
hahah droite typo .. sa matinée ici, de sorte que les mains ne nous soutiennent pas beaucoup sur nous @our_benefactors
@Our_benefactors Désolé, j'espère que la question actuelle est plus compréhensible.
@RITULLAKHTARIYA Désolé, j'espère que la question actuelle est plus compréhensible.
Avez-vous une table de recherche à rechercher?
La portée de cette question est un peu trop grande pour que je pense. En règle générale, vous devez créer un modèle statistique basé sur un grand ensemble de formation. Peu importe ce que ce sera flou - il y a beaucoup de personnes John Deere, par exemple.