À partir du sujet « Comment les caméléons changent-ils de couleur ? », le Skill a automatiquement pris en charge la recherche de contenu, rédigé le script de voix off et généré la narration TTS. Il a ensuite planifié 7 cartes d’information animées, les a superposées et rendues, puis a incrusté les sous-titres pour produire une vidéo scientifique horizontale de 67 secondes. Pendant tout le processus, l’utilisateur n’a eu qu’à valider le script et le plan des cartes — tout le reste a été géré par le Skill.


L’utilisateur n’a qu’à fournir un mot-clé. Le Skill récupère alors en une fois les connaissances scientifiques essentielles depuis plusieurs sources et les distille en concepts visualisables, sans que l’utilisateur ait à préparer des matériaux ni du texte.
Le script de voix off est automatiquement organisé en une structure en trois temps : « accroche contre-intuitive → mécanisme expliqué → idée de conclusion », avec un ton oral naturel qui s’adapte à des formats allant de 60 secondes à 5 minutes.
Selon le style du contenu, le Skill choisit automatiquement la voix et le débit entre un ton documentaire et un ton de créateur de contenus scientifiques. Le chinois comme l’anglais reçoivent chacun une voix adaptée, sans sélection manuelle.
Une fois le TTS terminé, le Skill génère en même temps un fichier de sous-titres horodaté. Il peut aussi relire les coquilles et nettoyer la ponctuation pour que les sous-titres restent parfaitement alignés sur la narration.
Pour les concepts clés et les données du script, le Skill planifie des cartes dynamiques comme Keyword, Compare et LowerThird. Après validation via un aperçu image par image, il les superpose à la vidéo avec ffmpeg et y incruste les sous-titres, afin que la densité d’information à l’écran reste synchronisée avec le rythme de la narration.