Spracherkennung und Sprachsynthese

Begonnen von Prof. Dr. Peter Henning, 09 Februar 2017, 08:19:06

Vorheriges Thema - Nächstes Thema

tiroso

Snowboy arbeitet mit Puffern. Wenn du SB über Python einrichtest und dich etwas mit Python auseinander setzt dann schaffst du es das die Aufnahme gestartet wird ohne das eine Pause entsteht. Ist wirklich nicht viel Arbeit. Du brauchst nur eine Datei bearbeiten.
Es entsteht eine Pause wenn du den Befehl abgesetzt hast bis SB die Ruhe bemerkt und die Aufnahme beendet.
Und es entsteht eine Pause wie du schon sagtest bei der Übertragung zuGoogle und Co.
Allerdings hatte ich die bei mir unter 1 bis 2 Sekunden eher 1 Sekunde.
Für mich war es wirklich tragbar und ich hatte nicht das Gefühl das es ewig dauert.

Naja für einen Raum fallen auch mehrere Lichter an. Und auch teils mehrere Rollos. Vllt willst du auch Gruppen steuern (alle rollos erdgeschoss runter z.b) da kommen dann ziemlich schnell viele befehle zusammen.

Ich rate dir erstmal die Geschwindigkeit zu prüfen.

Ubd wenn du es seeehr sehr schnell haben willst dann lässt du Google in Echtzeit konvertieren.

sn0000py

Übrigens gerade gefunden auf seed gibt es für raspberry ein günstigeres 4fach mikro Modul. (Kosten 25$) zwar erst als Preorder aber schaut schon mal interessant aus

https://www.seeedstudio.com/s/ReSpeaker-4-Mic-Array-for-Raspberry-Pi-p-2941.html

sn0000py

Also ich werde mir nächste Woche das Teil mal zum Testen bestellen, kostet zwar 14$ Versand aber naja ...

Nervenzusammenbruch

Hi
Bin auf diesen sehr interessanten Thread gestossen, aufgrund der Tatsache, dass mich die Cloud basierenden Dienste - vor allem die Sprachsteuerung - doch 'etwas' stören.
Dieses Projekt habe ich die Tage ausprobiert - läuft komplett ohne Cloud auf einem raspi:
https://github.com/snipsco
https://github.com/snipsco/snips-platform-documentation/wiki/Protocol-Specification

Spracherkennung ist zwar derzeit nur in Englisch jedoch werden wohl weitere Sprachen (hoffentlich) demnächst implementiert.

Klasse ist, dass die ausgewerteten Sprachbefehle auf mqtt 'published' werden, und so eine Interaktion mit einem Client recht einfach umzusetzen ist
Meine hue Lampen werden sehr zuverlässig per Sprachbefehl eingeschaltet und auch die Farbe gesetzt.
Hab das mit homeassistant realisiert - also:
Raspi mit mic/lautsprecher im LAN -> Befehl -> MQTT -> homeassistant lauscht auf Topic hermes/nlu/intentParsed -> Lampen werden gesteuert
Ist halt noch early Beta ...
Mich versteht Snips sehr gut - meine Frau nicht .... ::)



nccfast

#94
@Nervenzusammenbruch:

Kann das auch auf einem Linux system installiert werden (kein Raspii)?

enno

Habt ihr DeepSpeech von Mozilla schon mal angeschaut? Was haltet ihr von dem Ansatz?

https://voice.mozilla.org/

Gruss
  Enno
Einfacher FHEM Anwender auf Intel®NUC

Prof. Dr. Peter Henning

#96
Klar kenne ich das, habe auch beigetragen. Bisher aber nur Englisch, es bleibt abzuwarten, wann wir das für unsere Muttersprache verwenden können.


Da ist man bei voxforge http://www.voxforge.org/de schon etwas weiter.


Eine interessante Frage ist, ob wir durch irgendeinen Ansatz diese DNN (Deep Neural Networks) dazu bringen könnten, sich gegenseitig zu trainieren. Das ist gegenwärtig eine wichtige Forschungsfrage, unter anderem arbeitet NVIDIA daran, Roboter in Virtuellen Umgebungen zu trainieren, und die neueste Version von AlphaGo, genannt AlphaGo Prime, hat ebenfalls aus virtuellen Go-Spielen gelernt. Und konnte damit ihren Vorgänger AlphaGo besiegen, ohne dass sie vorher Millionen menschlicher Go-Spiele gelernt hat.

LG

pah

the ratman

da ich auch mal ernst machen will mit der spracherkennung und bald keine androiden mehr haben werde, frag ich mich, was ihr so von matrix voice - im speziellen die wlan-version - haltet?

ein paar fragen dazu:

mein gedankengang (is der gut?) ist: die wlan-version deswegen, weil raspberry hab ich eh bald auch keinen mehr und wlan/bt sollte die geschichte eventuell flexibler machen, wo man das mic-array hinstellen kann.

hat man schon gehäuse für die matrix voice gesichtet?

gibts da schon erfahrungswerte zu der hw und der anbindung an fhem?
und wenn ja, würde man das ganze dau-freundlich dem onkel ratti erklären wollen?
am liebsten würd ich das teil dann mit des herrn prof's babbel und dem text2speech-modul betreiben.

das befüllen von babbel mit erkanntem text ist bis jetzt das größte rätsel für meinereiner. wenn man keinen androiden hat, scheints da bei fhem noch nicht viel zu geben, dabei würd wohl googles übersetzungstool/speech2text api reichen, denk ich mal in meiner unendlichen naivität, oder?
→do↑p!dnʇs↓shit←

yrwyddfa

Spannend, das scheint zumindest schon mal eine brauchbare Hardwarealternative zum G-Home oder Alexa zu sein. Hat sich das  jemand schon mal zu Gemüte geführt?
If every day has its number, Monday would be a zero division.

tiroso

Hat jemand denn schon ein Matrix Voice?
Ich habe mir ein Matrix Voice und ein 4 Mic Array bestellt. Leider beides noch nicht da.

Also schön und gut wenn die beiden da sind.
Vielleicht hat jemand schon passende Scripte (python vllt) um die aufnahme zu starten, bei google/bing/amazon/o.w.a.i. auswerten und an fhem zu schicken. (Modul?)

Prof. Dr. Peter Henning

Ich habe eine lauffähige Snowboy-Installation, um auf ein Schlüsselwort zu reagieren.

LG

pah

tiroso

Mit Matrix Voice?

So eine lauffähige Version auf Snowboy hatte ich auch allerdings mit einer PS Kamera ;D
Hast du auch eine Lauffähige Version die auf das Keyword reagiert...die Aufnahme bis zur "Ruhezeit" startet und anschließend in Text via SpeechApi  unwandelt? Das wäre super

the ratman

Zitat von: tiroso am 09 Januar 2018, 07:58:01~snip~ Vielleicht hat jemand schon passende Scripte (python vllt) um die aufnahme zu starten, bei google/bing/amazon/o.w.a.i. auswerten und an fhem zu schicken. (Modul?)
oh ja, oh ja, wir nähern uns meiner träume. 100% anschließe - wäre genau das, was ich suche und würde als eigenständiges modul ja z.b. genau den wünschen der unabhängikeit und universalität unseres herrn professor entsprechen. mir schwebt da schon vor, wie man in ein reading seine eingangs-hw angibt und in nem 2. reading aussuchen kann, welche speechapi man den gerne verwenden wollen würde.
das mit dem lokalen schlüsselwort find ich auch extrem gut - sehr schwer, den snowboy zu installieren und einzurichten?
→do↑p!dnʇs↓shit←

Prof. Dr. Peter Henning

Gemach.

Nein, ich habe auch (noch) keine Matrix Voice. Wir haben das aber mit "normalen" Mikrofonen diversen Tests unterzogen, siehe Anhang.

LG

pah

tiroso

Zitat von: the ratman am 09 Januar 2018, 08:42:08
sehr schwer, den snowboy zu installieren und einzurichten?

Nein. Das ganze ist doch sehr einfach einzurichten.

Man muss das Python script welches von Snowboy schon bereitgestellt wird etwas modifizieren. Und schon kann man Aufnahmen nach dem Keyword sagen. Das Handling mit den BufferedStreams und der VoiceDetecziontion war nur was frickelig.