Spracherkennung und Sprachsynthese

Begonnen von Prof. Dr. Peter Henning, 09 Februar 2017, 08:19:06

Vorheriges Thema - Nächstes Thema

Uwe B.

#105
Hallo,

hat jemand bereits mit dem Arduino Shield MOVI (My Own Voice Interface) Erfahrungen sammeln können?

Bisher konnte ich lesen:
Es ist ein komplett lokal arbeitendes Spracherkennungs- und Synthesemodul, das als HAT auf den Arduino oder (Maker-Lösung) über die serielle Schnittstelle direkt an einen RasPi gekoppelt werden kann. Die Spracherkennung läuft komplett lokal und zielt im Wesentlichen auf das Erkennen von vorgebbaren (Text-Strings) Sentences/Words hinaus - allerdings ohne Anlernen durch den Sprecher sondern bereits Personen neutral. (Allerdings müssen es Erwachsene sein).
Sprachen: Englisch (beste Qualität), Deutsch und Spanisch konfigurierbar mit geringen Geschwindigkeits- und Qualitäts-Einbußen.
Erkennung auf Basis PocketSphinx.
Synthese auf Basis eSpeak bzw. Pico (beides eher weniger gut).
Es wird von ca. 150-200 Sätzen (=Kommandos) gesprochen, die definierbar sind, alles weitere in Abhängigkeit vom Speicherverbrauch, es soll Installationen mit bis zu 1000 Worten geben.
Ein Wörterbuch für die Erkennung ist vorhanden.
API vorhanden via. serieller Schnittstelle oder direkt aus Arduino Sketch.
Liefert wahlweise erkannte Strings bzw. die Nummer des erkannten Patterns.

Kostet ca. 65 Euro.

Illustration: https://www.youtube.com/watch?v=ymL68nrYNZo
Selbstdarstellung: https://www.youtube.com/watch?v=MAwgJyN0blc
Erfahrungsbericht: https://janbpunkt.de/2017/01/21/spracherkennung-mit-dem-arduino/
Projekt auf Deutsch: http://www.instructables.com/id/Connection-less-German-Speech-Recognition-and-Synt/
Handbuch: http://www.audeme.com/uploads/4/3/9/9/43997575/movi_11usermanual111.pdf

Vielleicht hat ja bereits jemand damit Erfahrungen sammeln können?
Grüße - Uwe

Lache nie über die Dummheit der anderen. Sie ist deine Chance.

FHEM 5.9 auf Ubuntu Srv 19.04 u. RasPi Zero W Raspbian Stretch; CUNX mit Modulen HM u. slowRF433; RFXtrx433E; FB 7590; FRITZ!DECT 200; Wetter HM WDS100-C6-O OC3; Xiaomi Flower Sense; Broadlink RM Mini u. Pro; EZcontrol XS1

Prof. Dr. Peter Henning

Von solchen Bastellösungen halte ich wenig. Mein Ziel ist eher, das Modell von Snowboy zu hacken.

LG

pah

tiroso

Pah...vielleicht kannst du oder einer deiner vielen Studenten helfen :)

Ich habe seit einiger Zeit mein Matrix Voice hier liegen.

Ebenfalls hatte ich einen Testaufbau mit einer PSCam mit Snowboy...

Ich hätte gerne Snowboy mit dem Matrix Voice laufen...und bekomme es partout nicht hin. Ich weiß nicht ob es an dem MicArray liegt oder an meinen Kenntnissen.
Nach dem Hotword würde ich den Stream gerne bis zur nächsten erkannten "Stille" über Google oder Microsoft o.ä. in Text umwandeln lassen und dann an Fhem schicken lassen.
Richtig geil wäre natürlich wenn man über Fhem den LED Ring steuern könnte.

Habt ihr da was? Oder habt ihr die Zeit und die Muße was zu entwickeln?
Ich würde auch als Leihgabe mein Matrix Voice zur Verfügung stellen wenn es hilft :)

Prof. Dr. Peter Henning

Öh, habe leider im Moment zu viele Baustellen, um mir das noch aufzuladen.

Ach ja: Die neueste Version des Babble-Moduls enthält einen RiveScript Chatbot (bisher nur im Thread erhältlich)

LG

pah

Stumpf

Hallo zusammen,

da ich das Thema hier gerne verfolge, kann vielleicht der Artikel frischen Wind bringen.


LIVE TRANSCRIBE:
Googles Audio-Übersetzungs-Engine wird Open Source

https://www.golem.de/news/live-transcribe-googles-audio-uebersetzungs-engine-wird-open-source-1908-143282.html

Hier das Projekt auf Github.
https://github.com/google/live-transcribe-speech-engine

Damit scheint eine ordentliche Umsetzung Sprache/Text möglich zu sein.