Spracherkennung und Sprachsynthese

Uwe B. · 10 Januar 2018, 14:02:14

Hallo,

hat jemand bereits mit dem Arduino Shield MOVI (My Own Voice Interface) Erfahrungen sammeln können?

Bisher konnte ich lesen:
Es ist ein komplett lokal arbeitendes Spracherkennungs- und Synthesemodul, das als HAT auf den Arduino oder (Maker-Lösung) über die serielle Schnittstelle direkt an einen RasPi gekoppelt werden kann. Die Spracherkennung läuft komplett lokal und zielt im Wesentlichen auf das Erkennen von vorgebbaren (Text-Strings) Sentences/Words hinaus - allerdings ohne Anlernen durch den Sprecher sondern bereits Personen neutral. (Allerdings müssen es Erwachsene sein).
Sprachen: Englisch (beste Qualität), Deutsch und Spanisch konfigurierbar mit geringen Geschwindigkeits- und Qualitäts-Einbußen.
Erkennung auf Basis PocketSphinx.
Synthese auf Basis eSpeak bzw. Pico (beides eher weniger gut).
Es wird von ca. 150-200 Sätzen (=Kommandos) gesprochen, die definierbar sind, alles weitere in Abhängigkeit vom Speicherverbrauch, es soll Installationen mit bis zu 1000 Worten geben.
Ein Wörterbuch für die Erkennung ist vorhanden.
API vorhanden via. serieller Schnittstelle oder direkt aus Arduino Sketch.
Liefert wahlweise erkannte Strings bzw. die Nummer des erkannten Patterns.

Kostet ca. 65 Euro.

Illustration: https://www.youtube.com/watch?v=ymL68nrYNZo
Selbstdarstellung: https://www.youtube.com/watch?v=MAwgJyN0blc
Erfahrungsbericht: https://janbpunkt.de/2017/01/21/spracherkennung-mit-dem-arduino/
Projekt auf Deutsch: http://www.instructables.com/id/Connection-less-German-Speech-Recognition-and-Synt/
Handbuch: http://www.audeme.com/uploads/4/3/9/9/43997575/movi_11usermanual111.pdf

Vielleicht hat ja bereits jemand damit Erfahrungen sammeln können?

Prof. Dr. Peter Henning · 10 Januar 2018, 21:54:04

Von solchen Bastellösungen halte ich wenig. Mein Ziel ist eher, das Modell von Snowboy zu hacken.

LG

pah

tiroso · 02 Februar 2018, 14:58:53

Pah...vielleicht kannst du oder einer deiner vielen Studenten helfen

Ich habe seit einiger Zeit mein Matrix Voice hier liegen.

Ebenfalls hatte ich einen Testaufbau mit einer PSCam mit Snowboy...

Ich hätte gerne Snowboy mit dem Matrix Voice laufen...und bekomme es partout nicht hin. Ich weiß nicht ob es an dem MicArray liegt oder an meinen Kenntnissen.
Nach dem Hotword würde ich den Stream gerne bis zur nächsten erkannten "Stille" über Google oder Microsoft o.ä. in Text umwandeln lassen und dann an Fhem schicken lassen.
Richtig geil wäre natürlich wenn man über Fhem den LED Ring steuern könnte.

Habt ihr da was? Oder habt ihr die Zeit und die Muße was zu entwickeln?
Ich würde auch als Leihgabe mein Matrix Voice zur Verfügung stellen wenn es hilft

Prof. Dr. Peter Henning · 04 Februar 2018, 13:40:21

Öh, habe leider im Moment zu viele Baustellen, um mir das noch aufzuladen.

Ach ja: Die neueste Version des Babble-Moduls enthält einen RiveScript Chatbot (bisher nur im Thread erhältlich)

LG

pah

Stumpf · 20 August 2019, 11:41:30

Hallo zusammen,

da ich das Thema hier gerne verfolge, kann vielleicht der Artikel frischen Wind bringen.

LIVE TRANSCRIBE:
Googles Audio-Übersetzungs-Engine wird Open Source

https://www.golem.de/news/live-transcribe-googles-audio-uebersetzungs-engine-wird-open-source-1908-143282.html

Hier das Projekt auf Github.
https://github.com/google/live-transcribe-speech-engine

Damit scheint eine ordentliche Umsetzung Sprache/Text möglich zu sein.

FHEM Forum

Spracherkennung und Sprachsynthese

Uwe B.

Prof. Dr. Peter Henning

tiroso

Prof. Dr. Peter Henning

Stumpf