9
votes

Comment puis-je mieux déterminer la capitalisation correcte pour un mot?

J'ai une base de données contenant des phrases qui contiennent uniquement des lettres capitalisées. La base de données est technique, contenant des conditions médicales, et je tiens à le normaliser afin que la capitalisation soit (proche de) ce que l'utilisateur attend. Quel est le meilleur moyen d'y parvenir? Y a-t-il un jeu de données librement disponible que je peux utiliser pour aider au processus?

nlp

2 commentaires

Ceci est spécifique à la langue, BTW. Vos données sont-elles en anglais?


Avez-vous des limites de la phrase? C'est-à-dire que vous savez où se termine une phrase et le prochain commence?


3 Réponses :




2
votes

Le moyen le plus simple de le faire est d'utiliser un algorithme de correction de sorts basé sur des ngams.

Vous pouvez utiliser, par exemple Lingpipe Spellchecker . Vous pouvez trouver un code source pour prédire des espaces dans Word, similaires à ce qui peut être fait pour prévision de cas.


0 commentaires