12
votes

Comment mettre en œuvre la reconnaissance vocale et le texte de discours en C ++?

Je veux savoir sur diverses techniques pour la reconnaissance vocale et le texte à la conversion de la parole. Merci de me laisser savoir toutes les ressources telles que des liens, des tutoriels, des livres électroniques, etc. sur elle.

Quelle est la technique la plus efficace pour y parvenir?

c++ speech-recognition

0 commentaires

6 Réponses :

3
votes

Puisque vous avez mentionné MS -

Vous devriez simplement regarder le Site Microsoft Discours . Il contient de nombreuses ressources pour traiter avec la parole, y compris la TTS et la reconnaissance vocale.

0 commentaires

8
votes

Je vais répondre à la partie de la reconnaissance vocale (puisque je ne sais pas grand chose à propos de Text-The-Speech):

http://ecx.images-amazon.com/ Images / I / 4190SZC61CL._BO2,204,203,200_PISITB-Sticker-Sticker-Click-Click, TOPRight, 35, -76_AA240_SH20_OU01_.JPG

Ce livre, "Méthodes statistiques de reconnaissance vocale" est un classique qui explique les fondements mathématiques de la reconnaissance de la parole statistique, écrite par le fondateur de cette région, Frederick Jelinek.

Le concept le plus important que vous devez savoir est masque Hidden Markov . Les gens les utilisent dans la reconnaissance de la parole depuis des décennies. Une approche récente utilise Champs aléatoires conditionnels , voir le papier (pdf) et la boîte à outils logicielle associée écharpe .

Il est assez difficile d'écrire votre propre reconnaissance vocale. C'est un domaine de recherche actif avec plusieurs conférences scientifiques, par ex. ASRU , InterSpeech , ICASSP .

0 commentaires

3
votes

Si vous recherchez un code réel, consultez Sphinx , un projet de reconnaissance de la parole open source de la CMU. Ce n'est pas écrit en C ++, mais si vous êtes intéressé par des algorithmes, il est mis en œuvre un tas de choses que vous pouvez apprendre. (J'aimerais aussi faire écho au point de Dehmann aussi: Lisez sur les modèles de Markov cachés.)

0 commentaires

6
votes

Les deux sont des zones très larges. Sur la reconnaissance: Dans ce Ce schéma vous allez Trouvez comment construire un système de reconnaissance automatique de la parole de base. Ce n'est par aucun moyen proche du début de l'art, mais c'est quelque chose de réalisable et ça marche . Si vous souhaitez faire quelque chose de plus avancé, lisez sur les coefficients de Cepstral et des modèles de markov cachés. Jetez un coup d'œil à HTK , il s'agit d'une boîte à outils largement utilisée pour les modèles de Markov cachés.

À propos de Texte à la parole: J'aurais consulté Festival .

0 commentaires

4
votes

Il y a plusieurs sphinx. Les principaux actifs sont des pocketsPhinx et Sphinx4.

sphinx4 est écrit en Java. Il vaut mieux pour les applications de bureau et Web.

PocketsPhinx est écrit en C. Il est préférable pour les périphériques embarqués. Il existe des applications iPhone / Android qui l'utilisent.

On dirait que tu veux des pochesPhinx. Essayez ce tutoriel: http://www.speech.cs.cmu.edu/sphinx/Tutorial. HTML

Un meilleur endroit pour demander à PocketsPhinx / Sphinx4 Questions est sur le forum Sourceforge de CMU.

Vous devez également fournir plus d'informations comme ce que vous avez l'intention de faire.

Quant aux livres, la Bible de la reconnaissance vocale est "Traitement de la langue parlée"

1 commentaires

Y a-t-il des instructions pour comment exécuter PocketsPhinx sur Android? (Voir cette question: Stackoverflow.com/Questtions/2920870/pocket-sphinx -on android )

1
votes

Si vous êtes curieux de savoir quoi faire avec votre reconnaissance de discours de fantaisie, vous devriez lire: Conception d'interaction vocale par Randy Allen Harris

Il fournit un excellent conseil sur quand utiliser la voix et comment l'utiliser dans une application.

0 commentaires