Ausgehend vom Thema „Wie ändern Chamäleons ihre Farbe?“ übernahm der Skill automatisch die inhaltliche Recherche, schrieb das Voice-over-Skript und erzeugte die TTS-Erzählung. Anschließend plante er 7 animierte Infokarten, legte sie über das Video, renderte alles und brannte Untertitel ein, um ein 67 Sekunden langes Wissenschaftsvideo im Querformat zu produzieren. Der Nutzer musste unterwegs nur das Skript und den Kartenplan freigeben – alles andere erledigte der Skill.


Der Nutzer muss nur ein Stichwort eingeben. Der Skill ruft dann gleichzeitig wissenschaftliches Kernwissen aus mehreren Quellen ab und verdichtet es zu visuell darstellbaren Konzepten – ganz ohne vorbereitete Materialien oder Copy seitens des Nutzers.
Das Voice-over-Skript wird automatisch in eine dreiteilige Struktur gebracht: „unerwarteter Hook → Mechanismus erklärt → abschließende Erkenntnis“, mit natürlichem Sprechton, der sich an Formate von 60 Sekunden bis 5 Minuten anpasst.
Auf Basis des Inhaltsstils wählt der Skill automatisch Stimme und Sprechgeschwindigkeit zwischen Dokumentarton und Science-Creator-Tonfall. Für Chinesisch und Englisch werden jeweils passende Stimmen eingesetzt, ganz ohne manuelle Auswahl.
Sobald TTS abgeschlossen ist, gibt der Skill gleichzeitig eine Untertiteldatei mit Zeitstempeln aus. Außerdem kann er Tippfehler korrigieren und die Zeichensetzung bereinigen, damit die Untertitel perfekt mit der Erzählung ausgerichtet bleiben.
Für Schlüsselbegriffe und Datenpunkte im Skript plant der Skill dynamische Karten wie Keyword, Vergleich und Lower Third. Nach einer framebasierten Vorschau-Bestätigung legt er sie mit ffmpeg über das Video und brennt die Untertitel ein, sodass die Informationsdichte im Bild stets mit dem Tempo der Erzählung abgestimmt bleibt.