Partiendo del tema "¿Cómo cambian de color los camaleones?", la Skill se encargó automáticamente de investigar el contenido, escribir el guion de locución y generar la narración TTS. Después planificó 7 tarjetas informativas animadas, las superpuso, las renderizó e incrustó subtítulos para producir un video científico horizontal de 67 segundos. Durante todo el proceso, el usuario solo tuvo que aprobar el guion y el plan de tarjetas; de todo lo demás se ocupó la Skill.


El usuario solo necesita proporcionar una palabra clave. La Skill recupera al mismo tiempo conocimiento científico central de múltiples fuentes y lo destila en conceptos visualizables, sin necesidad de que el usuario prepare materiales ni textos.
El guion de locución se organiza automáticamente en una estructura de tres partes: "gancho contraintuitivo → explicación del mecanismo → idea final", con un tono hablado natural que se adapta a formatos de 60 segundos a 5 minutos.
Según el estilo del contenido, la Skill elige automáticamente la voz y la velocidad de habla entre un tono documental y uno de creador de contenido científico. El chino y el inglés reciben voces acordes, sin necesidad de selección manual.
Una vez terminada la TTS, la Skill genera al mismo tiempo un archivo de subtítulos con marcas de tiempo. También puede corregir erratas y limpiar la puntuación para que los subtítulos queden perfectamente alineados con la narración.
Para los conceptos clave y los datos del guion, la Skill planifica tarjetas dinámicas como Keyword, Compare y LowerThird. Tras confirmar una vista previa basada en fotogramas, las superpone al video con ffmpeg e incrusta los subtítulos, para que la densidad de información en pantalla se mantenga sincronizada con el ritmo de la narración.