Mimic3 - Text-to-Speech offline

Begonnen von dkreutz, 30 Juni 2022, 19:32:42

Vorheriges Thema - Nächstes Thema

the ratman

@Beta-User hast du neuigkeiten wegen der merkel?


ansonsten: ich hätte wieder mal 'ne offline tts gefunden: https://github.com/rhasspy/piper
immer noch nicht perfekt, aber nicht ganz so schlimm, wie der rest.

da gäb's dann halt auch stimmen zum saugen und wohl auch gut per script zu bearbeiten. die deutschen originale im "testbereich" sind ja eher ... na ja (verschlucken halbe worte)


einbinden möglich?
vielleicht kann man damit ein bissi mehr und besser spielen?
→do↑p!dnʇs↓shit←

dkreutz

Zitat von: the ratman am 28 Oktober 2023, 12:16:02ansonsten: ich hätte wieder mal 'ne offline tts gefunden: https://github.com/rhasspy/piper
immer noch nicht perfekt, aber nicht ganz so schlimm, wie der rest.

da gäb's dann halt auch stimmen zum saugen und wohl auch gut per script zu bearbeiten. die deutschen originale im "testbereich" sind ja eher ... na ja (verschlucken halbe worte)

Mycroft - und damit auch Mimic3 - ist "tot". Piper ist der Quasi-Nachfolger von Mimic3, da steckt der Mimic3-Entwickler (der früher für Mycroft gearbeitet hat) dahinter. Die Thorsten-Voice ist für Piper inzwischen nicht nur in der Qualitätsstufe "low", sonder auch "medium" und "high" verfügbar. Klingt besser, braucht aber auch mehr Resourcen (RAM, CPU).

Übrigens gibt es demnächst die Thorsten-Voice auch in Hessisch (https://www.thorsten-voice.de/2023/10/13/🇩🇪-thorsten-voice-babbelt-suedhessisch/) - wird dann wahrscheinlich auch irgendwann für Piper verfügbar sein.


Raspberry Pi3B+ (Bullseye) / JeeLink868v3c (LaCrosse), nanoCUL433 (a-culfw V1.24.02), HM-MOD-UART (1.4.1), TEK603, MapleCUL / diverse Sensoren/Sender/Aktoren von Technoline, Intertechno, Shelly, Homematic und MAX!, Froggit Wetterstation, Luftdaten.info / Autor des fhem-skill für Mycroft.ai

the ratman

#17
das lest sich ja mal schon ganz gut ... ich werd' der letzte sein, der sich beschwert *g*

jetzt müsste man halt nur das ganze in fhem 'reinkriegen.
oder ist das gar schon der fall? bastelt da jemand und oder kann's mir erklären?

was ressourcen angeht - langsam wirds ja schwer, 'ne plattform zu haben, die für fhem mit allem drum und dran nicht overpowered ist - so gesehen ...

nachtrag:
brauchbar als grundstock? https://exitcode0.net/posts/wyoming-piper-docker-compose/
→do↑p!dnʇs↓shit←

the ratman

#18
aja, jetzt ist der onkel thorsten auch in high unterwegs.

wow! ich bin so überhaupt 'ned begeistert. man hört jetzt nur in besserer qualität, wie er sachen falsch ausspricht oder verschluckt *lach*
mal ganz ehrlich: wenn man nicht d'runter den satz stehen hätte ... ich würd' die hälfte nicht verstehen.

war auch lachen will: https://rhasspy.github.io/piper-samples/
man achte vor allem auf die kreative aussprache des wortes "Phänomen" ... da red ja sogar ICH besseres deutsch *g*
→do↑p!dnʇs↓shit←

dkreutz

Zitat von: the ratman am 30 Oktober 2023, 14:03:15aja, jetzt ist der onkel thorsten auch in high unterwegs.

wow! ich bin so überhaupt 'ned begeistert. man hört jetzt nur in besserer qualität, wie er sachen falsch ausspricht oder verschluckt *lach*
mal ganz ehrlich: wenn man nicht d'runter den satz stehen hätte ... ich würd' die hälfte nicht verstehen.

Nach inzwischen 2-3 Jahren Zuarbeit zur Thorsten-Voice kann ich dazu nur soviel sagen:
Da trennt sich die Spreu vom Weizen bzw. frei/opensource von kommerziellen Modellen. Wenn Du eine deutlich bessere Betonung/Aussprache benötigst, musst Du halt Geld auf den Tisch legen - und selbst einige TTS-Voices von Google und AWS haben da vergleichbare Schwierigkeiten.

Zitat von: the ratman am 30 Oktober 2023, 14:03:15war auch lachen will: https://rhasspy.github.io/piper-samples/
man achte vor allem auf die kreative aussprache des wortes "Phänomen" ... da red ja sogar ICH besseres deutsch *g*
Die "Phänomen"-Aussprache liegt vermutlich schlicht an unterschiedlichen Encoding-Parametern bzw. Phonem-Mappings, die bei Training und Synthesierung verwendet worden sind. Probier einfach mal alle verfügbaren deutschen Stimmen durch, einige sprechen das Wort "richtig" aus, einige nicht. Zumindest die Thorsten-Voice kann "Phänomen" auch "richtig", muss dann aber mit entsprechenden Parametern gefüttert werden (was bei der Erstellung der Piper-Demos wohl vergessen wurde).
Raspberry Pi3B+ (Bullseye) / JeeLink868v3c (LaCrosse), nanoCUL433 (a-culfw V1.24.02), HM-MOD-UART (1.4.1), TEK603, MapleCUL / diverse Sensoren/Sender/Aktoren von Technoline, Intertechno, Shelly, Homematic und MAX!, Froggit Wetterstation, Luftdaten.info / Autor des fhem-skill für Mycroft.ai

the ratman

ich will auch keineswegs die leistung schmälern, die dahinter steht! kann mir schon vorstellen, dass man sich solche stimmen nicht über nacht zusammen bastelt und durchaus herzblut da rein stecken kann, aber:

ZitatDa trennt sich die Spreu vom Weizen bzw. frei/opensource von kommerziellen Modellen. Wenn Du eine deutlich bessere Betonung/Aussprache benötigst, musst Du halt Geld auf den Tisch legen - und selbst einige TTS-Voices von Google und AWS haben da vergleichbare Schwierigkeiten.
ich hab halt bis jetzt die lokalen zu betreibenden 08/15 voices vom windows (jene, die kostenlos beiligen), verwendet. mein fhem läuft in einer vm auf win und bedient sich per modul an windows-resourcen.
das dumme bei mir: ich glaub' immer, was erfahrene leute mir erzählen. darum probier ich immer wieder, voll auf linux zu setzen. das ginge auch zu 90% gut, scheitert aber immer an solchen kleinigkeiten. ich lebe hier übrigens nicht alleine. meine meinung ist als "spielkind" noch relativ gut. ich zitiere lieber nicht, was andere hier zu den stimmen sagen *g*.
btw. da ich auch noch paranoid vom feinsten bin, kommt mir keine google- oder amazon-stimme per zwischennetz ins haus!

ZitatDie "Phänomen"-Aussprache liegt vermutlich schlicht an unterschiedlichen Encoding-Parametern bzw. Phonem-Mappings, die bei Training und Synthesierung verwendet worden sind. Probier einfach mal alle verfügbaren deutschen Stimmen durch, einige sprechen das Wort "richtig" aus, einige nicht. Zumindest die Thorsten-Voice kann "Phänomen" auch "richtig", muss dann aber mit entsprechenden Parametern gefüttert werden (was bei der Erstellung der Piper-Demos wohl vergessen wurde).
ich als "sprachwissenschafter" - jo, genau.
zumindest bei den demo-voices würde ich thorsten sogar in die kategorie "besser als der rest" stellen. bis jetzt bin ich dumm-dämlich von ausgegangen, dass auf der demo-seite präsentiert wird, was am besten funzt. wenn es da andere stimmen gibt, und man mir sagt, wie und wo ich alles nötige zusammenbasteln kann, probier ich auch gerne weiter.
und ganz ehrlich: wie kann man sowas als DEMO rauswerfen? seits ihr ned stolz auf eure arbeit und rotzt dann sowas für leute raus, die nach der besten offline-stimme unter linux suchen? so nach dem motto: "die werden schon wissen, dass und wie es besser klingen kann". kein angriff! ich bin nur echt verwundert.

eigentlich ist das alles ja sowieso nur theoretisch. ich wüsste zumindest nicht, dass (oder wie) piper in fhem funzt. da ich zu 100% anwender und zu 0% programmierer bin, muss ich also sowieso warten, bis sich wer der thematik annimmt ...
→do↑p!dnʇs↓shit←

Beta-User

Hallo zusammen,
nachdem @Tobias grade dabei ist, den TTS-Teil für MaryTTS (bzw. Mimic3) in das offizielle Modul einzupflegen, ich aber selbst grade nicht testen kann, wäre es nett, wenn jemand anders das kurzfristig übernehmen könnte. Link zu Tobias Test-Fassung: https://github.com/tobiasfaust/MyFHEM/raw/master/FHEM/98_Text2Speech.pm (bzw. @Ellerts ergänzte Fassung von hier:
https://forum.fhem.de/index.php?msg=1306518

THX vorab!
Server: HP-elitedesk@Debian 12, aktuelles FHEM@ConfigDB | CUL_HM (VCCU) | MQTT2: MiLight@ESP-GW, BT@OpenMQTTGw | MySensors: seriell, v.a. 2.3.1@RS485 | ZWave | ZigBee@deCONZ | SIGNALduino | MapleCUN | RHASSPY
svn: u.a MySensors, Weekday-&RandomTimer, Twilight,  div. attrTemplate-files