Sprache via IBM Watson

Begonnen von Prof. Dr. Peter Henning, 20 April 2019, 10:55:39

Vorheriges Thema - Nächstes Thema

Prof. Dr. Peter Henning

IBM bietet mit Watson inzwischen auch Cloud-Services zur Sprachanalyse (Speech-To-Text STT) und Sprachsynthese (Text-To-Speech TTS) an. Hier sollen die entsprechenden Codefragmente gesammelt werden, nach der Konsolidierung wird daraus eine Wiki-Seite.

Sprache mit Amazon Polly siehe hier https://forum.fhem.de/index.php/topic,99790.0.html
Sprache mit Google siehe hier https://forum.fhem.de/index.php/topic,99792.0.html

Zum Start benötigt man einen IBM Developer Account - bis zu 100 Minuten STT pro Monat sind dann kostenlos. Anleitung hier: https://www.ibm.com/watson/services/speech-to-text


Im zweiten Schritt legt man dann einen Speech-to-Text Service an, als Ergebnis erhält man einen API-Key und eine URL angezeigt. der API-Key sollte natürlich nicht weitergegeben werden.

Zur STT-Funktion wird dann eine Audiodatei (in einem von mehreren Formaten) benötigt. Ich nehme mal testweise eine meiner Sprachausgabedateien mit dem Namen 063.wav und den Inhalt "Die Sicherung des Hauses wurde aufgehoben".


Der Aufruf
curl -X POST -u "apikey:<API-KEY>" --header "Content-Type: audio/wav" --data-binary @063.wav "https://stream-fra.watsonplatform.net/speech-to-text/api/v1/recognize?model=de-DE_BroadbandModel"

ergibt dann die Antwort als JSON
{
   "results": [
      {
         "alternatives": [
            {
               "confidence": 1,
               "transcript": "die sicherung des hauses wurde aufgehoben "
            }
         ],
         "final": true
      }
   ],
   "result_index": 0
}


Witzig ist das Resultat, wenn ich den model= Parameter weglasse. Die Kiste versucht dann eine Interpretation in englischer Sprache und endet mit

{
   "results": [
      {
         "alternatives": [
            {
               "confidence": 0.42,
               "transcript": "easy selling this house is what I'll school "
            }
         ],
         "final": true
      }
   ],
   "result_index": 0
}


Allerdings auch nur mit einem Confidence Level von 42%.


Fortsetzung folgt.

LG

pah