问我让AI读完PPT后自己写文案、配音、剪视频，它真的做到了

#WPS灵犀 #靠谱AI办公WPS #WPS技巧达人

前置信息

电脑系统：Windows

使用场景：自媒体视频制作（知识分享类）

我输入了什么

我手头有一份15页的PPT《时代的莫比乌斯环》（内容是关于年轻人社会困境的深度分析），还有一个对应的视频文案txt文件。

我只跟灵犀说了一句话：

"这是视频文案和视频文案生成的PPT，我需要给PPT生成自媒体视频。先理解PPT内容，然后生成每一页对应的视频文案，再生成配音，画面就用PPT内容，再合成视频，能做到吗，用python实现"

就这一句，没给任何技术细节，没指定用什么库、什么方案。

灵犀是怎么做的（完整流程）

它自己规划了一个完整的视频制作pipeline，分了这几步：

Step 1：理解内容

先读取了我的txt文案（1600多行），又逐页解析了PPT。因为PPT每页都是整张PNG图片没有可提取的文字，它还逐页调用了图片识别来理解每页的标题、正文、图表、引用等内容。15页全部读完，花了几分钟。

Step 2：撰写视频文案

基于原始文案和PPT每页内容，它为每一页重新编写了口语化的视频解说词。不是简单复制原文，而是改成了适合配音的口语风格，每段长度也做了控制。15页 = 15段独立文案。

Step 3：生成配音

它选了微软Edge TTS引擎（edge-tts），选了一个叫"云希"的年轻男声。第一版生成后发现语速偏慢，我说"语速太慢了，提升25%"，它马上用FFmpeg的atempo滤镜把所有音频加速1.25倍处理好了。

Step 4：合成视频

用纯FFmpeg方案完成：

每页PPT图片作为静态画面

对应配音作为音频轨

自动淡入淡出转场

逐页拼接成完整视频

最终输出：1920x1080，H.264编码，7分03秒，23.9MB的MP4文件。

它还自动输出了一份 build_video.py 脚本，以后改了文案可以一键重新生成。

中间出了点小插曲

slide_01音频文件损坏（0字节）：可能是生成过程中环境不稳定导致的，它自动检测到并重新生成了

moviepy导出超时：第一次用的moviepy库合成视频，编码太慢直接卡住了，它果断切换成纯FFmpeg方案，速度快了好几倍

ffprobe缺失：系统里只有ffmpeg没有ffprobe（moviepy内置的），它改用ffmpeg自身的stderr解析来获取音频时长

这几个问题它都是自己发现、自己解决的，没有来问我怎么办。

超出预期的点：

只给了一句需求描述，它自己拆解了整个视频制作pipeline，从内容理解到最终输出全链路自动完成

中途遇到的各种技术问题（音频损坏、库超时、工具缺失）都是自主排查修复的，不需要人工干预

输出的脚本可以直接复用，改文案就能重新生成，这点很实用

可以改进的点：

第一版语速偏慢，需要我手动提要求才调整。如果能根据视频类型自动判断语速会更好（比如知识类可以快一点，故事类可以慢一点）

画面目前是纯静态PPT图，如果能自动加一些简单的动效（比如文字逐行出现、关键数据高亮动画）会更有自媒体感

edge-tts虽然免费，但音色选择有限且音质和真人比还是有差距。如果能集成更高质量的TTS（比如阿里云CosyVoice、讯飞）效果会更好

希望未来能支持直接上传到B站/抖音等平台的接口

和其他AI工具对比：

我试过让ChatGPT/Claude写视频脚本，它们确实能写，但无法执行。灵犀最大的优势是能直接在你的电脑上跑代码、调工具，从文案到成片一条龙完成，这是纯对话式AI做不到的。

一个彩蛋

本帖子也是灵犀生成的，你只需输入“

你能根据我之前进行的对话，帮我整理一下我的操作步骤，然后发帖吗，

正文不少于400字，需图文并茂（操作/效果截图）

✅ 惊喜玩法，体验心得分享

✅ 遇到了Bug？告诉我们，越详细越好

✅ 某个功能用着不顺手？说出你的期望

✅ 发现了隐藏用法？分享给大家

✅ 想要什么新功能？尽管提

✅ 和其他AI工具比起来感觉怎么样？”

灵犀使用交流

2026-06-09 09:46:02 湖北省

8 +1

3 +1

问 我让AI读完PPT后自己写文案、配音、剪视频，它真的做到了