matrix voice - wer will "ferntesten"?

Begonnen von the ratman, 09 März 2018, 11:36:50

Vorheriges Thema - Nächstes Thema

the ratman

wies aussieht, is mir pers. egal, solangs mein fhem ned gleich killed.

ja, modul is egal. dachte nur, wenn du schon beides schreibst, sollt ich auch bei beiden helfen *g*. allein schon, um so viele unsicherheitsfaktoren wie möglich beim testen raus zu nehmen.
eher interessant wäre für mich, ob eine "raspi version" von matrix voice auch auf der (abgekoppelten) esp32-version rennt.
→do↑p!dnʇs↓shit←

the ratman

bin gerade über was gestolpert
hier https://github.com/Romkabouter/Matrix-Voice-ESP32-MQTT-Audio-Streamer gibts wohl die ersten ansätze für sprachbefehle über snips https://snips.ai/ .

könnte das was für fhem verwendbares werden?
→do↑p!dnʇs↓shit←

Prof. Dr. Peter Henning

Prima, auf so etwas habe ich gewartet. Matrix Voice habe ich noch nicht bestellt, weil ich nicht weiß, welche Signale ich da herausbekommen kann. Ist auch nirgendwo dokumentiert.

Derzeit tendiere ich hierzu: https://www.seeedstudio.com/ReSpeaker-Mic-Array-v2.0-p-3053.html

LG

pah

the ratman

uije, wenn du jetzt auch noch was anders kaufst, kann ich das ding warscheinlich wirklich am müll werfen *g*.
was matrix labs angeht sind die schon ein bissi anstrengend was dokus angeht. und die esp32 version ist nicht wirklich noob-freundlich. 1 raspi + 1 "kompilier-compi" ist schon a bissi arg viel aufwand für nen klicki-bunti-user wie mich.
allerdings gibts jetzt eine händi-app, die scheinbar per blootooth matrix voices (beider versionen) in der umgebung sucht, und mit der man dann die apps aus deren store per knopfdruck auf das ding spielen kann <-- angelbich ... probiert hab ichs noch nicht - was sollt ich auch drauf spielen?

was meinst mit signale?
meine voice is eigentlich nur ein besseres mikrofon mit oder ohne esp32. und in richtung voice kannst ein paar lamperl steuern - halt eine alexa im eigenbau ...
die haben aber auch ne große Version mit x sensoren drauf - allerdings dann ohne wlan.
→do↑p!dnʇs↓shit←

Wuppi68

Hi,

habe den Fred erst jetzt gesehen :-)

Was die Hardware macht ist soweit verständlich ...

Was kann denn das Teil jetzt schon mit der Sprache anfangen?

gesprochene Buchstaben, Silben, Worte, Sätze, Inhalte verstehen?
Jetzt auf nem I3 und primär Homematic - kein Support für cfg Editierer

Support heißt nicht wenn die Frau zu Ihrem Mann sagt: Geh mal bitte zum Frauenarzt, ich habe Bauchschmerzen

the ratman

#20
nix kann es derzeit - zumindest die wlan-version kommt über demos nicht raus. [ironie]juhuu, es leuchtet auf, wenn ich klatsche![/ironie]
es gibt für die version ohne wlan (also mit nem raspi dran hängen) 2 neue tools um das ding als ersatz für alexa bzw. google hardware zu mißbrauchen. das wars an sinnvollem ...

derzeit bastelt einer - siehe links ein paar beiträge höher - an irgend einer spracherkennung, sagt aber gleich selber, dass er auch kein programmierer ist. vielleicht wird das ja mal was. eingestellte projekt-puzzles findet man ja schon genug.


ich denke also, wenn sich kein frustresistenter c-programmierer mit fhem-neigungen dem ganzen widmet, ist das ding ein recht leichter briefbeschwerer ...
→do↑p!dnʇs↓shit←

Prof. Dr. Peter Henning

Bei dem Re-Speaker 2.0 steht aber zumindest, dass der Standard " USB Audio Class 1.0" voll unterstützt wird - Digitalisierung also auf dem MEMS-Board. In der ganzen Doku des Matrix Voice habe ich dazu nichts gefunden.

LG

pah

the ratman

ach sowas meinste ... da bist du mir wieder lichtjahre voraus.
gut, jetzt weiß ich wenigstens was du brauchst, wenn ich wo drüber stolper.
→do↑p!dnʇs↓shit←

joshi04

Auf der Suche nach einer Offline-Lösung ohne Abhörcharakter hänge ich mich hier auch man rein.

Was mir bei allen Lösungsansätzen immer sehr schwer fällt, auf den ersten Blick zu verstehen, was wie umgesetzt wird.
Nach meinem Verständnis müsste es doch

  • Hardware, sprich irgendeine Art von Mikron sein (Sprache -> Audiofile),
  • Software, die das Aufgenommene nach einem Aktivierungswort durchsucht (z.B. ,,Computer!" o.ä.)
  • Software, die das nach dem Aktivierungswort aufgenommene analysiert und in Text umwandelt,
  • Software, die den Text in einen ,,allgemein FHEM konformen" Befehl übersetzt.
  • Die umgekehrte Richtung, nur mit einem Lautsprecher als Audiofile -> Schall-Interface, um mögliche Rückmeldungen zu geben.

Wenn ich es richtig verstehe, erfüllt das Maxrix Voice von Hause aus erstmal nur ersteres, die Variante von pah scheint schon etwas mehr mitbringen zu wollen.

Ist die Interpretation der Funktionalität des Matrix Voice richtig?
Ist meine Auflistung vollständig?
Gibt es für die Einzelschritte allgemeingültige Ausdrücke, damit man vom Gleichen spricht?

Bin gespannt, wie es weitergeht.
joshi04
NUC: 2xJeeLink, PCA301/TX35DTH; HueBridge, LivingColors; vair-monitor (CO2); HMLan, Winmatic, HM-CC-RT-DN, HM-TC-IT-WM-W-EU, HM-ES-TX-WM, HM-WDS10-TH-O, HM-ES-PMSw1-Pl, HM-SEC-SC-2, HM-SEC-SCo; AVM DECT 200; panStamp; smartVISU

the ratman

ich mag ja ned nerven, aber eigentlich suche ich hier jemanden, der auch ne esp32-version der Matrix voice hat und das ding eventuell schon an fhem als micro-array angebunden hat. jemanden, dem ich mit meinem extrem beschränkten wissen helfen und/oder als tester beistehen kann, damit meine scheiß teure hardware, die ich extra aus der vereinigten stasi von amerika importiert hab, wenigstens irgend nen sinn hat.

ich wär zwar auch extremst an einer internetfreien lösung für Raumschiff Enterprise interessiert, aber könnten wir das wo anders ausdiskutieren bitte?
→do↑p!dnʇs↓shit←

joshi04

Du hast recht, ich sollte nicht Deinen Tread kapern. Sorry.

Bleibt aber die Frage, ob das Ding von Haus aus mehr kann, als nur Hardware sein.
Die Antwort entscheidet, ob ich mir zum testen auch eins bestelle oder andererseits nichts weiter beitragen kann, da außerhalb meiner Fähigkeiten.

Zu den anderen Fragen mache ich bei Gelegenheit mal einen neuen Faden auf.
NUC: 2xJeeLink, PCA301/TX35DTH; HueBridge, LivingColors; vair-monitor (CO2); HMLan, Winmatic, HM-CC-RT-DN, HM-TC-IT-WM-W-EU, HM-ES-TX-WM, HM-WDS10-TH-O, HM-ES-PMSw1-Pl, HM-SEC-SC-2, HM-SEC-SCo; AVM DECT 200; panStamp; smartVISU

CoolTux

Was genau hast du denn nun damit gemacht? hängt es am Pi dran ist es per Wlan eingebunden? Wie testest Du das es geht. Läuft da irgendwo ein Programm welches die IP des Teils anspricht?
Du musst nicht wissen wie es geht! Du musst nur wissen wo es steht, wie es geht.
Support me to buy new test hardware for development: https://www.paypal.com/paypalme/MOldenburg
My FHEM Git: https://git.cooltux.net/FHEM/
Das TuxNet Wiki:
https://www.cooltux.net

the ratman

es hängt wegen inaktivität am pi ... kommt je keine "app" von matrix voice, die man draufbügeln könnte - zumindest is mir bis auf die demos keine bekannt. ansonsten würde das ding - dank dir - ja schon mal rennen und ich könnt alles kompilieren und drauf pappen, was ich kriegen kann.
ich wart derzeit einfach ab, ob sich noch n paar das ding besorgen - und da muß man wohl zw. esp32 und nicht-esp32 auch noch unterscheiden, soweit ich das kapiere - und ich dann meine voice zum blindtesten zur verfügung stellen kann.
ich muß halt auch sagen: mein interesse, das ding nicht per wlan zu betreiben geht gegen 0 - dafür hät ichs ned gekauft und könnt auch was billigeres mit nem pi dran an die wand pappen.

@joshi04
no problem ... und der erste, der rauskriegt, was das ding überhaupt kann, kriegt wohl ne goldmedaile *g*.
→do↑p!dnʇs↓shit←

tomster

So, ich häng mich hier auch Mal rein, weil mir erst durch den Thread wieder eingefallen ist, dass ich vor über einem Jahr ja auch so ein Matrix Dingens in der "Early Bird Version" bei Indiegogo gebacked hatte. Scheint nicht wirklich der "earlieste" Bird gewesen zu sein. Bei Indiegogo steht Liefertermin: Mai 2017. Haben tu ich immer noch nix...





Prof. Dr. Peter Henning

ZitatIst die Interpretation der Funktionalität des Matrix Voice richtig?
Im Prinzip ja - aber eigentlich sollte das Ding auch in der Hardware eine Richtungsdiskriminierung ermöglichen. DIE macht nämlich einen wesentlichen Teil der guten Performance von Alexa aus.
ZitatIst meine Auflistung vollständig?
Nee, nicht ganz. Die Erkennung des Hotwords sollte lokal geschehen - das muss also schnell sein, und damit ein (kleines) neuronales Netz darstellen, das keinen Online-Zugriff braucht.
Die eigentliche Sprachanalyse ist dann aber extrem aufwändig, das lässt sich auf einem kleinen Prozessor (und ohne Gigabytes an Trainingsdaten) kaum erledigen. DARUM sind hier Google, Amazon etc. im Vorteil.
Der letzte Schritt ist dann die semantische Analyse. Da kann man unterschiedliche Wege gehen: Entweder den Text zurückbekommen (von Google) und die Analyse selbst machen (so mache ich es mit dem Modul Babble). Oder alles den Sprachanalyse-provider machen lassen - das ist leider bei Amazon so, von denen man keine Texte bekommt.
ZitatGibt es für die Einzelschritte allgemeingültige Ausdrücke, damit man vom Gleichen spricht?
Siehe oben.

LG

pah