Danke für das Feedback. Ja, das war vor allem für Thorsten viel Arbeit, er hat über 30h Texte "eingesprochen".
Na ja, die "30h Texte" sind ja "nur" das Audio-Endergebnis, insgesamt würde ich davon ausgehen, dass der Gesamtaufwand um ein vielfaches darüber liegt (auch bei den Supportern...).
Ich weiß nicht ob das weiter hilft, aber der Mimic3-Webserver ist kompatibel zu MaryTTS.
Hatte dann gestern auch noch gesehen, dass Michael vor ein paar Tagen auch einen entsprechenden Patch eingecheckt hatte - für Rhasspy macht das die Sache sehr viel leichter, weil man dann direkt auch die zur Verfügung stehenden Sprachen per dropdown-Liste auswählen kann. (War nur bei mir kaputtgespielt gewesen, weil ich mit der nicht funktionierenden preview-Version einen anderen endpoint konfiguriert gehabt hatte).
Habe dann damit noch ein wenig rumgespielt und uU. auch thorsten-emptional_low ausgetestet.
Das Mimic3-CLI unterstützt SSML, damit kann man Sprechgeschwindigkeit, Betonung, etc. beeinflussen
Was ich mit "Sprachmelodie" gemeint hatte, läßt sich aber m.E. weder hierdurch (auf einfache Art und Weise) beeinflussen, und auch nicht durch die "emotional"-Variante.
Die Beispiele auf thorsten-voice.de wurden mit dem VITS-Modell von Coqui-TTS erzeugt. Beide Modelle basieren auf VITS und dem neuen Dataset (das haben wir Michael Hansen/Synthesiam vorab zur Verfügung gestellt), aber für Mimic3 "thorsten_low" wurde die Samplingrate reduziert und weitere Optimierungen vorgenommen, damit der RTF <1 auf dem RPI4 erreicht werden konnte.
Für meine Ohren klingt das so, als würden die beiden "Thorsten"-Varianten die derzeit mit Miminc3 heruntergeladen werden können, auf "Thorsten-21.02-neutral" (=> "thorsten_low") bzw. "Thorsten-21.06-emotional" basieren, jedenfalls wäre das (neben der Namensgebung) meine Folgerung auch aus den Hörproben unter
https://www.thorsten-voice.de/2022/03/20/vergleich-thorsten-aktuell-mit-dem-neuen-modell/.
EDIT: als Versionsangabe findet sich für "thorsten_low" in
https://github.com/MycroftAI/mimic3-voices/blob/master/voices/de_DE/thorsten_low/config.json:
"audio_dir": "/media/12tb/de-de/Thorsten-Voice-Neutral-Dec2021-22kHz/wavs"
Vielleicht habe ich auch zu schnell auf die emotional-Variante gewechselt?!?
Habe das erst mal auch im Rhasspy-Forum nachgefragt, vielleicht kann man ja einfach die erforderlichen files manuell nachrüsten (
https://mycroft-ai.gitbook.io/docs/mycroft-technologies/mimic-tts/mimic-3#downloading-voices)?Bzgl. maryTTS-Kompabilität und dem Text2Speech-Modul: Bisher war maryTTS nach meinen Recherchen nicht als Synthetisierungsweg vorgesehen und irgendwie könnte man den Eindruck haben, dass für das Modul häufig vorgefertigte mp3-files bereitgehalten werden. Die könnte man auch mit Coqui-TTS erzeugen, da kommt es ja nicht unbedingt auf Geschwindigkeit an. Da das auch eine "HTTP-Server"-Schnittstelle (aber nur für localhost) anbietet, könnte man das evtl. auch für ad-hoc-Ausgaben anzapfen, was aber wiederum voraussetzen würde, dass Text2Speech so eine Schnittstelle hätte... In meinem momentanen Setup wäre das nicht/nur über Umwege zu machen, von daher würde mir insgesamt der Mimic3-Weg mehr zusagen.
Na ja, ein weites Feld

.