Ich arbeite für ein Medienunternehmen. Wir wollen KI künftig für automatisierte Moderationen wie z. B. Wetter- und Verkehrsmeldungen in der Nacht nutzen.
Das bestehende Angebot an "text to speech" ist leider noch nicht "Audio-tauglich", so dass wir aktuell für einen Test von einem Moderator etwa 5.000 Worte/ Satzfragmente einsprechen lassen, um am Ende eine möglichst authentisches Stimmbild zu erhalten.