Bắt đầu từ chủ đề “Tắc kè hoa đổi màu như thế nào?”, Skill tự động xử lý phần nghiên cứu nội dung, viết kịch bản thuyết minh và tạo giọng đọc TTS. Sau đó, nó lên kế hoạch cho 7 thẻ thông tin động, chồng lớp, render và đốt cứng phụ đề để tạo ra một video khoa học ngang dài 67 giây. Trong suốt quá trình, người dùng chỉ cần duyệt kịch bản và phương án thẻ — mọi phần còn lại đều do Skill xử lý.


Người dùng chỉ cần đưa ra một từ khóa. Skill sẽ đồng thời truy xuất kiến thức khoa học cốt lõi từ nhiều nguồn và chắt lọc thành các khái niệm có thể trực quan hóa, không cần người dùng chuẩn bị tư liệu hay viết nội dung sẵn.
Kịch bản thuyết minh được tự động sắp xếp theo cấu trúc ba phần: “mở đầu trái trực giác → giải thích cơ chế → chốt lại bằng một nhận định”, với giọng điệu tự nhiên như đang nói, thích ứng linh hoạt từ định dạng 60 giây đến 5 phút.
Dựa trên phong cách nội dung, Skill tự động chọn giọng đọc và tốc độ nói giữa tông phim tài liệu và tông nhà sáng tạo nội dung khoa học. Tiếng Trung và tiếng Anh đều được ghép giọng phù hợp mà không cần chọn thủ công.
Ngay khi hoàn tất TTS, Skill đồng thời xuất ra tệp phụ đề có mốc thời gian. Nó cũng có thể rà lỗi chính tả và dọn dấu câu để phụ đề luôn khớp hoàn toàn với lời thuyết minh.
Với các khái niệm trọng tâm và dữ liệu quan trọng trong kịch bản, Skill sẽ lên kế hoạch cho các thẻ động như Từ khóa, So sánh và LowerThird. Sau khi xác nhận bản xem trước theo từng khung hình, nó chồng các thẻ này lên video bằng ffmpeg và đốt cứng phụ đề, giúp mật độ thông tin trên màn hình luôn đồng bộ với nhịp thuyết minh.