Hallo alle zusammen,
ich bin an sich mit meinem FHEM sehr zufrieden, alles lässt sich gut steuern (verwende derzeit die App Andfhem auf meinem Smartphone), doch träume ich schon länger von einer Sprachsteuerung. Das große Vorbild ist Jarvis aus Iron Man, der einfach überall präsent ist und auf Wunsch Tonys so ziemlich alles steuern kann.
Das Forum hier ist in der Hinsicht Sprachsteuerung mit derzeit 35 Seiten auch ziemlich riesig und man wird erschlagen von all den Projekten und Möglichkeiten. Kurz: Ich finde zu dem Thema unglaublich viel, aber nicht das, was ich suche (oder gleich 2 Varianten, von denen ich nicht weiß, welche besser ist). Daher möchte ich Euch um Ideen, Vorschläge (und wenn Ihr zufällig passende Links zu HowTo's und/oder Foreneinträgen usw. griffbereit habt gerne auch darum), oder Eure Meinung zu den einzelnen Lösungen bitten.
Was ich gerne erreichen möchte:
- Eine (zumindest nach der Einrichtung) offline Spracherkennung
- Mehrere Lautsprecher/Mikros, ich nenne sie einfach mal "Satelliten" (je einer pro Zimmer, Garage, Keller,...), die meine Anweisung zum FHEM Raspi senden und die Antwort wieder zurück schicken.
- Wenn möglich Hotword Erkennung (wenn der Satellit im Wohnzimmer alles was im Fernsehen läuft an meinen Raspi nonstop weitersendet, vielleicht auch noch gleichzeitig der im Flur oder auch noch der im Esszimmer - das wäre irgendwann eine riesige Funklast, oder? Kann man das Hotword schon im Satelliten integrieren?)
- Bevorzugen würde ich etwas, das mein Gesagtes erkennt (siehe unten Babble) und nicht nur den Befehl mit einer vorab aufgezeichneten Audiodatei vergleicht, so dass es egal ist, ob ich sage: "Schalte die Deckenlampe im Wohnzimmer an", oder "Im Wohnzimmer die Deckenlampe einschalten".
- Ein Bonus wäre zudem, wenn auch jeder dieser Satelliten auch einige bestimmte, ausgewählte Audiodateien wiedergeben könnte (Alarm bei Einbruch, Rauchmelderpiepsen, Weckergeräusch oder eine passende Hintergrundmusik wenn man mal vor Freunden zeigen möchte, was alles geht). Dabei muss das weder besonders laut, noch eine spitzen Qualität sein.
- Das Tüpfelchen auf dem "i" wäre dann noch, wenn NUR der Lautsprecher antwortet, der auch im selben Zimmer steckt wie das Mikro, das den Befehl aufgenommen hat.
Nun hat meine Recherche viele Ergebnisse gebracht - leider aber so viele extrem unterschiedliche, dass ich wiederum gar nicht weiß, welche Richtung für meine Zwecke geeignet ist.
- Folgender Beitrag mit SNIPS hier aus dem Forum klingt beispielsweise was die Satellitenfunktion angeht sehr vielversprechend:
https://forum.fhem.de/index.php/topic,89548.0.html (https://forum.fhem.de/index.php/topic,89548.0.html)
- Auch lese ich sehr viel von ESP8266ern, die gerne als WLAN Lautsprecher verwendet werden, wie z.B. hier: https://forum.fhem.de/index.php/topic,71087.0.html (https://forum.fhem.de/index.php/topic,71087.0.html)
Da frage ich mich, ob diese nicht besser geeignet wären, da sie kleiner und günstiger sind als ein Pi Zero W, auf Dauer (wenn ich von bis zu 10 Stück im Simultanbetrieb für Wohnzimmer, Esszimmer, Schlafzimmer, (...) ausgehe) doch merklich weniger Strom verbrauchen und auch in der Anschaffung ein wenig günstiger sind. Außerdem habe ich von denen schon einige verbaut und bin von den Dingern hellauf begeistert.
- Besonders gut gefällt mir auch der Beitrag aus dem FHEM Wiki mit dem Modul Babble https://wiki.fhem.de/wiki/Modul_Babble (https://wiki.fhem.de/wiki/Modul_Babble)
Und dann war da noch was mit AIVC/Alice, Snowboy, Talk2FHEM und GBridge (aber da ist schon wieder etwas mit Cloud, oder?) und von den klassischen Cloud-Lösungen wie Google, Siri, Bixby, Cortana, Alexa, (...) will ich gar nicht anfangen, da ich nicht unbedingt jedes Wort von uns zu Hause ins Netz senden möchte.
Kurze Rede, langer Sinn:
Welche Hardware würdet Ihr mit welcher Softwarelösung verwenden (oder habt es vielleicht schon getan?) Wo liegen Eurer Meinung nach die Stärken und/oder Schwächen Eures Favoriten (oder von denen, die ich hier angesprochen habe).
Wenn Ihr zufällig ein gutes Tutorial habt, welches ich möglicherweise noch nicht gefunden habe, sehe ich mir dieses gerne auch an - auch um mir zu der jeweiligen Lösung eine eigene Meinung zu bilden.
Eine kleine Bitte zum Schluß: Ich sehe mich immer noch als einen Anfänger, bleibt also einfach.
Falls es eine Rolle spielt, hier meine bisherige Hardware:
- FHEM auf Raspi 3b (wird regelmäßig geupdated), derzeit auf einer 16GB MicroSD
- 3 Cul Sticks konfiguriert für Homematic, FS20 und Max!
- ConBee II mit aktueller Phoscon App Stand 22.5.2020 (2.05.77). (Früher hatte ich den RaspBee in Verwendung, wollte mir aber die GPIOs für ein Gerät aufsparen, von dem es evtl. keine USB-Variante gibt).
- Zwave+ Modul
und natürlich WLAN und Bluetooth onboard.
Ich freue mich auf Eure Antworten,
Gruß Dynalon
Hi,
ich hatte Snips am laufen. Je auf einem Raspberry die zeitgleich aber noch andere Aufgaben haben.
- beide Mediaplayer per MPD
- der eine hat den Conbee dran stecken, der andere macht noch den Unifi Controller
Hotworderkennung, Raumerkennung usw klappte prima. Die erkannten Wörter hab ich zu talk2fhem weiter geschickt. Somit wären die Eingaben per Sprache und per Telegram auf dem Handy identisch.
Antwort kam natürlich auch nur am entsprechende Raspberry.
Tja und dann hab ich Held ein Update ohne Backup gemacht. Snips war damals schon verkauft und nicht mehr einrichtbar.
Mal sehen ob ich mir mal Zeit nehme einen der anderen einzurichten.
Rhasspy hat die "Satellitentechnik" (Hermes Audio) von Snips "adaptiert" - keine Ahnung wie gut das in der Praxis funktioniert: https://github.com/rhasspy/rhasspy-microphone-cli-hermes
Was die offline-Spracherkennung angeht, das wird je nach Anspruch schwierig bzw. ist mit hohem Aufwand verbunden.
Die deutschsprachigen universellen STT-Modelle von Kaldi und DeepSpeech sind für den Alltagsgebrauch einfach noch zu schlecht. Da wird es dann immer wieder vorkommen, dass Du Deine Ansage wiederholen musst oder gar nicht verstanden wirst. Alternativ kannst Du den Snips-Ansatz verfolgen und ein eigenes, auf Deine Anwendungsfälle zugeschnittenes Modell trainieren, aber das ist wiederum mit Aufwand verbunden.
Hallo,
Auch das hier klingt sehr vielversprechend.
https://forum.fhem.de/index.php/topic,102000.0.html (https://forum.fhem.de/index.php/topic,102000.0.html)
Eigentlich sollte das meiste von Deinen Punkten damit lösbar sein.
Ist aber immer noch in der Entwicklung und ich wollte dann wieder einsteigen, wenn die Tage wieder kürzer sind und das Wetter schlechter.
Lg, Gerhard
Schonmal vielen Dank an Euch!
Ich hoffe, dass sich demnächst nochmal jemand zu Wort meldet, der eines (oder noch besser mehrere) davon selbst ausprobiert hat, sonst muss ich mich doch mal durch ein paar Varianten testen.
Das mit dem schlechten Wetter hatte ich ähnlich geplant. Allerdings muss ich mir ja erst mal ein Bild machen, dann die entsprechende Hardware bestellen, da dacht ich mir, ein bissel Vorlauf ist nicht schlecht. in 3 Wochen ist ja schon wieder Oktober...
Moin Dynalon,
ich häng mich hier mal mit rein. Ich nutze "Babble" mit Signal (https://wiki.fhem.de/wiki/SiSi). Damit kann ich schon einfach durch Eingabe von Sätzen am Handy FHEM steuern.
An der Sprachsteuerung bastel ich auch noch rum. Die Hardware, ein Raspi 3 und Respeaker, liegt nach dem Sterben von Snips noch ungenutzt rum.
Zur Zeit versuche ich Sepia zu verstehen. Auf dem Handy nutze ich zur Hotword Erkennung die App https://play.google.com/store/apps/details?id=nl.jolanrensen.hotwordPluginFree&hl=de und Tasker.
Ich bin mal gespannt was hier so an Lösungsansätzen kommt. Ganz Offline wird es vermutlich noch nicht gehen.
Gruss
Enno