

用户只需要提供一个关键词。随后 Skill 会同时从多个来源提取核心科学知识,并提炼成适合可视化表达的概念,无需用户自己准备素材或撰写文案。
配音稿会被自动整理成“三段式”结构:“反直觉钩子 → 机制解释 → 结尾洞见”,语气自然口语化,并能适配从 60 秒到 5 分钟的不同视频时长。
Skill 会根据内容风格,在纪录片语气和科普创作者语气之间自动选择合适的人声与语速。中文和英文也都会匹配对应声音,无需手动挑选。
TTS 完成后,Skill 会同步输出带时间戳的字幕文件。它还可以校对错别字并清理标点,让字幕始终与解说精准对齐。
针对脚本中的关键概念与数据点,Skill 会规划关键词卡、对比卡、LowerThird 等动态信息卡。在逐帧预览确认后,它会通过 ffmpeg 将这些卡片叠加到视频中并烧录字幕,让画面信息密度与解说节奏保持一致。