Sprache via AWS

Begonnen von Prof. Dr. Peter Henning, 20 April 2019, 10:21:10

Vorheriges Thema - Nächstes Thema

Prof. Dr. Peter Henning

Für die Amazon Web Services gibt es inzwischen mit Paws eine Perl-Bindung. Das ermöglicht TTS und STT mit AWS.

TTS - Text-To-Speech mit Amazon Polly geht ganz einfach (und hat eine wesentlich höhere Qualität als bei Google). Außerdem kann man Pausen etc via SSML einfügen. Ich hänge hier mal die entsprechende Seite aus dem neuen FHEM-Buch an.

STT - Speech-To-Text mit Amazon Transcribe ist noch etwas wackelig, weil dabei der Amazon Cloud Speicher S3 involviert ist. Ich habe noch nicht herausgefunden, wie das von der Kommandozeile bzw. aus Paws heraus geht, sondern erst einmal aus der AWS-UI heraus gearbeitet.

Ein Test, bei dem ich eine meiner Sprachausgabedateien mit Namen 063.wav und dem Inhalt "Die Sicherung des Hauses wurde aufgehoben" transkribieren lasse, liefert als JSON:
{
    "jobName": "test063",
    "accountId": "xxxxxxx",
    "results": {
        "transcripts": [{"transcript": "die Sicherung des Hauses wurde aufgehoben."}],
        "items": [
            {
                "start_time": "0.0",
                "end_time": "0.12",
                "alternatives": [{
                    "confidence": "0.9582",
                    "content": "die"
                }],
                "type": "pronunciation"
            },
            {
                "start_time": "0.12",
                "end_time": "0.88",
                "alternatives": [{
                    "confidence": "0.9980",
                    "content": "Sicherung"
                }],
                "type": "pronunciation"
            },
            {
                "start_time": "0.88",
                "end_time": "1.1",
                "alternatives": [{
                    "confidence": "1.0000",
                    "content": "des"
                }],
                "type": "pronunciation"
            },
            {
                "start_time": "1.1",
                "end_time": "1.71",
                "alternatives": [{
                    "confidence": "1.0000",
                    "content": "Hauses"
                }],
                "type": "pronunciation"
            },
            {
                "start_time": "1.71",
                "end_time": "2.2",
                "alternatives": [{
                    "confidence": "0.9889",
                    "content": "wurde"
                }],
                "type": "pronunciation"
            },
            {
                "start_time": "2.2",
                "end_time": "3.21",
                "alternatives": [{
                    "confidence": "1.0000",
                    "content": "aufgehoben"
                }],
                "type": "pronunciation"
            },
            {
                "alternatives": [{
                    "confidence": null,
                    "content": "."
                }],
                "type": "punctuation"
            }
        ]
    },
    "status": "COMPLETED"
}

mit einem Confidence Level von 95%. Witzig ist, dass das Wort mit dem geringsten Vertrauenswert das Wort "die" ist.

Sobald das alles konsolidiert ist, wird daraus eine Wiki-Seite

Sprache mit Google siehe hier https://forum.fhem.de/index.php/topic,99792.0.html
Sprache mit IBM Watson siehe hier https://forum.fhem.de/index.php/topic,99793.0.html

LG

pah

amenomade

Pi 3B, Alexa, CUL868+Selbstbau 1/2λ-Dipol-Antenne, USB Optolink / Vitotronic, Debmatic und HM / HmIP Komponenten, Rademacher Duofern Jalousien, Fritz!Dect Thermostaten, Proteus