2
votes

Comment accéder à la sortie d'une opération de synthèse vocale gcloud ml terminée dans le terminal Mac OS (ou via l'interface utilisateur Web de Gcloud?)

J'ai installé avec succès Gcloud pour Mac OS (utilisation du terminal). J'ai compris comment exécuter la commande appropriée pour transcrire un fichier MP3 d'une interview de 60 minutes à 2 personnes de la parole au texte. Le travail s'est terminé avec succès (la commande "Décrire" affiche 100% terminé). Je ne trouve pas le fichier / la sortie de transcription de texte sur le site Web de Gcloud, ou dans un fichier local sur mon Mac, ou via le terminal.

J'ai essayé différents indicateurs sur la commande, y compris --user-out-enabled. Pas de changement. En utilisant «décrire» pour chacune des (3) tentatives, il indique simplement que le travail est terminé avec succès.

La dernière tentative que j'ai exécutée:

gcloud ml speech operations describe  

{
  "done": true,
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeMetadata",
    "lastUpdateTime": "2019-04-23T22:48:10.075437Z",
    "progressPercent": 100,
    "startTime": "2019-04-23T22:45:20.132178Z"
  },
  "name": "12345"
}

Ensuite, j'ai exécuté ceci pour voir si le travail s'est terminé correctement. Il l'a fait, je pense:

gcloud ml speech recognize-long-running  'gs://transcription-conversions/myfile.mp3' --async --language-code="en-US" --encoding="LINEAR16" --sample-rate=16000 --user-output-enabled

Cependant, je ne sais pas où / comment obtenir la sortie texte du travail / nom 12345 montré ci-dessus. Où est la transcription du texte? Comment y accéder?

gcloud speech-to-text

0 commentaires

3 Réponses :

0
votes

J'ai reproduit le problème et pour moi, cela n'arrive qu'au format mp3, pourriez-vous convertir votre fichier au format flac 1 et exécutez votre commande sans arguments de format?

Voici un exemple:

ffmpeg -i myfile.mp3 -c:a flac myfile.flac

gcloud ml speech recognize-long-running 'gs://transcription-conversions/myfile.flac' --language-code='en-US'

0 commentaires

0
votes

Actuellement, le format MP3 n'est pas pris en charge et vous devez suivre notre Demande de fonctionnalité .

Si la conversion vers un encodage compatible n'est pas idéale, vous pouvez utiliser le API pour tenter des traductions MP3, cependant, il n'y a aucune garantie de qualité . C'est pourquoi vous ne recevez aucune sortie car actuellement seule l'API acceptera l'encodage MP3.

0 commentaires

0
votes

Pour la synthèse vocale Google Cloud:

La documentation recommande les fichiers .wav à 16 000 Hz

.wav mono 16 bits 16000 Hz a fonctionné pour moi.

Je prends mon enregistrement original (ou extrait de la vidéo) et je fais une passe avec quelques effets d'égalisation et de limitation de la voix (avec le logiciel gratuit Audacty ou Adobe Audition) puis enregistrer sous dans le format ci-dessus - puis téléchargez-le sur le stockage gc, puis exécutez ml speech dessus.

Pour accéder à la transcription (sortie), vous l'écrivez dans un fichier avec l'opérateur > à la fin de la commande, comme ceci > my-file.txt … < em> (voir ci-dessous)

BTW, vous pouvez également utiliser la version alpha de ml speech . Il accepte quelques indicateurs supplémentaires qui aident l'IA avec la transcription. Ma commande ressemble à ceci:

gcloud alpha ml speech reconnaît-long-running gs: //my-bucket/my-audio-16bit-16k.wav --language-code = en-US --enable-automatic-punctuation - sample-rate = 16000 --max-alternatives = 1 --interaction-type = dictation --original-media-type = video --recording-device-type = pc --naics-code = 541613> my-transcript.txt

… vous voyez que j'écris la sortie dans un .txt

Voici la documentation sur l'alpha: https://cloud.google.com/sdk/gcloud/reference/alpha/ml/speech/recognize-long-running

0 commentaires