tts (mycroft mimic3) gibts da schon was?

the ratman · 17 Juni 2023, 14:49:53

grüße euch,

ich arbeite grade an meiner zukünftigen nas und da die schon recht gut rennt, bin ich grade bei der kür angelangt.
dazu hab ich mir einen docker-container mit mimic3 von mycroft gefüllt.
selbiger funzt wunderbar (tts-quali entspricht zwar nicht ganz meinem wunschtraum, aber was solls, dafür wird mir eure merkel in zukunft informationen zuflüstern *g*).

hat sich da schon wer mit gespielt, die mimimc3 per fhem zu befüllen?
wenn ja, dürft ich da ein bissi abschreiben?

falls benötigt:
mimic3 ist per webinterface über http://192.168.178.3:59125 zu erreichen
die testversion von fhem unter http://192.168.178.3:8083

btw - ich will keine befehle senden, ich will wirklich nur die mimic3 tts verwenden. der rest von mycroft interessiert mich (derzeit) nicht wirklich.

für jede info dankbar ...

Otto123 · 17 Juni 2023, 15:44:21

Hi,

wie willst Du den Sound denn verwenden? Du hast nicht diesen platt gefahrenen R2D2 zur Ausgabe?

Am Ende produziert die Engine ja nur ein wav File was man in die Ausgabe schicken muss. Ist sicher irgendwie machbar.

BTW: Irgendwo habe ich gelesen, mycroft ist gescheitert. Das hier liest sich auch so:
https://mycroft.ai/blog/update-from-the-ceo-part-1/

Gruß Otto

the ratman · 17 Juni 2023, 17:24:50

der sound kommt dann direkt von 'nem lautsprecher. wahrscheinlich an der nas selber. muss ich mir noch überlegen. die ls-lösung wäre zumindest auch die derzeitige.
am ende produziert die engine auch eine soundausgabe am server oder client, wenn man's den so will. zumindest bietet das webinterface schon mal die möglichkeit dazu und ich habe es auch erfolgreich getestet.

ich nehm anstelle mycrofts auch gern eine andere offline-tts, die unter linux rennt und mir nicht aufgrund der üblich miesen qualität die ohren zerstört *g*.
dazu kommt bei mir noch, dass es möglichst idiotensicher sein muss. ich seh grade wieder mit meinen "zukunfts-nas-versuchen", wie blöd ich mich unter linux aufführe und die mimic3 hat sich erstaunlich wenig gegen meine unkenntnis, es zum laufen zu bringen, gewehrt.
bis jetzt verwend' ich die offline-tts von windows. die qualität wäre natürlich schön, gibts aber wohl unter linux eher nicht. da lass' ich mich aber gern eines besseren belehren.

was das überleben mycrofts angeht - immerhin haben sie ja jetzt mal ihren mycroft2. wenn das ding zu dem preis auch sicher keiner kaufen wird ... ich hätte nicht mal gedacht, dass die so weit kommen.

Otto123 · 17 Juni 2023, 19:08:52

OK, klingt einfach

Du brauchst also "nur" einen Befehl absetzen. Wie war denn dein Testbefehl wo Du erfolgreich Sound gehört hast?

dkreutz · 17 Juni 2023, 20:21:38

Zitat von: Otto123 am 17 Juni 2023, 15:44:21BTW: Irgendwo habe ich gelesen, mycroft ist gescheitert. Das hier liest sich auch so:
https://mycroft.ai/blog/update-from-the-ceo-part-1/

Das Unternehmen Mycroft hat die Geschäfte eingestellt. Der Software-Stack lebt weiter unter:

https://github.com/OpenVoiceOS und http://neon.ai/Download

Inoffizieller Nachfolger von Mimic3 ist Piper: https://github.com/rhasspy/piper
Verwendet ähnliche Technologie und stammt vom selben Entwickler

the ratman · 17 Juni 2023, 20:24:07

der bringt einfach ne website als interface mit. da gibst du deinen text ein und suchst dir aus, was du gerne wie hören würdest. ich hab aber no ned mal g'schaut, ob der nicht auch 'ne api am laufen hat, was ich dann doch sehr stark annehme, weils auch gleich unterm sendebutten nen link gibt *g*.

eigentlich hab ich bisher nur mal das ding zum laufen gebracht und mich umgesehen, ob schon wer was für fhem gebastelt hat, bevor ich wieder was eigenes, halb kaputtes baue.

interessiert am probieren? hast 'nen docker am laufen? wenn ja: pull dir mycroftai/mimic3
schaut dann so aus: Du darfst diesen Dateianhang nicht ansehen.

im file hab ich

Code Auswählen

services: 
 mycroft:
    image: mycroftai/mimic3
    container_name: mycroft
    ports:
      - 59125:59125
    volumes:
      - /docker_container/mimic3:/home/mimic3/.local/share/mycroft/mimic3
    restart: unless-stopped

env is leer

den teil "/home/mimic3/.local/share/mycroft/mimic3" mußt du eventuell händisch anlegen und mit rechten versorgen.
aufrufen kannst die seite dann unter http://localhost:59125/

NACHTRAG:

uij, auch da gibts 'nen container .... https://github.com/OpenVoiceOS/ovos-docker

Otto123 · 17 Juni 2023, 21:09:36

ok, ich hatte was von commandline und api gelesen. Über die Webseite macht es ja quasi der Browser lokal.
Ich schau vielleicht mal, wird aber ein paar Tage dauern

Beta-User · 18 Juni 2023, 06:28:10

https://forum.fhem.de/index.php?msg=1227529

the ratman · 18 Juni 2023, 09:25:15

hihi, da grabens wieder sachen aus.

thx otto. nur ned hetzen. wies ausschaut gibts da ja eh schon wieder was von ratiopharm *lach*
deshalb thx auch ans betateilchen für den link.

@Beta-User
ist im ersten link text2speech.pm vollständig, oder muss ich dann auch den patch irgendwie einbinden?

nachtrag:
wie macht sich denn dieses marytts, die du da erwähnst? leider geht deren online-demo nicht.

Beta-User · 18 Juni 2023, 11:20:46

Die .pm ist vollständig, im dort verlinkten thread ist dann nur der patch.

maryTTS ist eine weitere offline-tts-engine, die ich aber nie installiert hatte.

Die .pm dürfte auch mit dem mimic3-Nachfolger funktionieren; die ist generisch ausgelegt, soweit ich mich entsinne.

the ratman · 18 Juni 2023, 13:14:36

ich wette ja, ich hab wieder was vergessen:

Code Auswählen

2023.06.18 13:12:33 3: TTS: Fehler beim Abrufen der Daten von maryTTS: http://192.168.178.3:59125/process?INPUT_TYPE=TEXT&OUTPUT_TYPE=AUDIO&AUDIO=WAVE_FILE&LOCALE=de_DE&VOICE=de_DE/thorsten_low&INPUT_TEXT=test: Select timeout/error: 
2023.06.18 13:12:33 3: TTS: MP3WRAP Fehler!, Datei wurde nicht generiert.
2023.06.18 13:12:33 2: TTS: Mp3Wrap Datei konnte nicht gefunden werden.

als readings gabs dazu:

Code Auswählen

lastFilename cache/d41d8cd98f00b204e9800998ecf8427e.mp3 2023-06-18 13:15:16
playing 1 2023-06-18 13:14:46

"lastfilename" hat im sekundentackt obigen fehler immer wieder neu gebaut

Code Auswählen

define TTS Text2Speech hw=0.0
attr TTS TTS_Language Deutsch
attr TTS TTS_MplayerCall /usr/bin/mplayer
attr TTS TTS_Quality 48khz_16bit_mono
attr TTS TTS_Ressource maryTTS
attr TTS TTS_UseMP3Wrap 1
attr TTS TTS_User host=192.168.178.3 port=59125 lang=de_DE voice=de_DE/thorsten_low
attr TTS room frontends
#   ALSADEVICE hw=0.0
#   DEF        hw=0.0
#   FUUID      648ee273-f33f-98b1-6829-f344ffc741823c5d
#   MODE       DIRECT
#   NAME       TTS
#   NR         46
#   STATE      Initialized
#   TYPE       Text2Speech
#   READINGS:
#     2023-06-18 13:15:16   lastFilename    cache/d41d8cd98f00b204e9800998ecf8427e.mp3
#     2023-06-18 13:14:46   playing         1
#   helper:
#
setstate TTS 2023-06-18 13:15:16 lastFilename cache/d41d8cd98f00b204e9800998ecf8427e.mp3
setstate TTS 2023-06-18 13:14:46 playing 1

Beta-User · 18 Juni 2023, 15:18:39

Das OS muss das Programm mp3wrap kennen, in der commandref oder im Wiki müßte eine (kurze) Anleitung dazu drin sein. Das scheint zu fehlen?

Ansonsten weiß ich nicht mehr so recht, wie man das Testen kann; Die prinzipielle Funktionalität des Dienstes an sich sollte bei mimic3 über ein Web-Interface abprüfbar sein.

the ratman · 18 Juni 2023, 16:38:55

es wird langsam ... es fehlte "lame" auf dem debian
jetzt macht er schon was, nur noch nicht abspielen *g*

Code Auswählen

LAME 3.100 64bits (http://lame.sf.net)
Using polyphase lowpass filter, transition band:  8269 Hz -  8535 Hz
Encoding cache/ab3e20bd97c9afed5416314e2daf46a5.mp3.wav
      to cache/ab3e20bd97c9afed5416314e2daf46a5.mp3
Encoding as 22.05 kHz single-ch MPEG-2 Layer III (11x)  32 kbps qval=3

    Frame          |  CPU time/estim | REAL time/estim | play/CPU |    ETA 
     0/       ( 0%)|    0:00/     :  |    0:00/     :  |         x|     :  
00:01--------------------------------------------------------------------------
   kbps      %     %                                                           
    0.0                                                                        ␛[A␛[A␛[A
     0/62     ( 0%)|    0:00/    0:00|    0:00/    0:00|   0.0000x|    0:00 
00:01--------------------------------------------------------------------------
   kbps      %     %                                                           
    0.0                                                                        ␛[A␛[A␛[A
    62/62    (100%)|    0:00/    0:00|    0:00/    0:00|   116.25x|    0:00 
-------------------------------------------------------------------------------
   kbps       mono %     long switch short %                                   
   32.0      100.0        74.2  16.1   9.7                                     
ReplayGain: -7.1dB

immerhin keine fehlermeldung (mit mp3wrap ein)

jetzt ists halt wie immer bei mir: das grundwissen fehlt. ich denke, da fehlt "nur mehr" das audiogerät oder so?

Code Auswählen

duration 2 2023-06-18 16:35:07
endTime 00:00:00 2023-06-18 16:35:07
lastFilename cache/ab3e20bd97c9afed5416314e2daf46a5.mp3 2023-06-18 16:35:09
playing 0 2023-06-18 16:35:09

Beta-User · 18 Juni 2023, 19:16:36

Na ja, das "allgemeine Text2speech-environment" sollte schon da sein - zum Abspielen braucht es dann ggf. wieder einen player.

the ratman · 18 Juni 2023, 21:37:01

hab ich nach anleitung aufgesetzt mplayer ... geh morgen nochmal alles durch.