我让AI读完PPT后自己写文案、配音、剪视频,它真的做到了
前置信息
电脑系统:Windows
使用场景:自媒体视频制作(知识分享类)
我输入了什么
我手头有一份15页的PPT《时代的莫比乌斯环》(内容是关于年轻人社会困境的深度分析),还有一个对应的视频文案txt文件。
我只跟灵犀说了一句话:
就这一句,没给任何技术细节,没指定用什么库、什么方案。
灵犀是怎么做的(完整流程)
它自己规划了一个完整的视频制作pipeline,分了这几步:
Step 1:理解内容
先读取了我的txt文案(1600多行),又逐页解析了PPT。因为PPT每页都是整张PNG图片没有可提取的文字,它还逐页调用了图片识别来理解每页的标题、正文、图表、引用等内容。15页全部读完,花了几分钟。
Step 2:撰写视频文案
基于原始文案和PPT每页内容,它为每一页重新编写了口语化的视频解说词。不是简单复制原文,而是改成了适合配音的口语风格,每段长度也做了控制。15页 = 15段独立文案。
Step 3:生成配音
它选了微软Edge TTS引擎(edge-tts),选了一个叫"云希"的年轻男声。第一版生成后发现语速偏慢,我说"语速太慢了,提升25%",它马上用FFmpeg的atempo滤镜把所有音频加速1.25倍处理好了。
Step 4:合成视频
用纯FFmpeg方案完成:
每页PPT图片作为静态画面
对应配音作为音频轨
自动淡入淡出转场
逐页拼接成完整视频
最终输出:1920x1080,H.264编码,7分03秒,23.9MB的MP4文件。
它还自动输出了一份 build_video.py 脚本,以后改了文案可以一键重新生成。
中间出了点小插曲
slide_01音频文件损坏(0字节):可能是生成过程中环境不稳定导致的,它自动检测到并重新生成了
moviepy导出超时:第一次用的moviepy库合成视频,编码太慢直接卡住了,它果断切换成纯FFmpeg方案,速度快了好几倍
ffprobe缺失:系统里只有ffmpeg没有ffprobe(moviepy内置的),它改用ffmpeg自身的stderr解析来获取音频时长
这几个问题它都是自己发现、自己解决的,没有来问我怎么办。
超出预期的点:
只给了一句需求描述,它自己拆解了整个视频制作pipeline,从内容理解到最终输出全链路自动完成
中途遇到的各种技术问题(音频损坏、库超时、工具缺失)都是自主排查修复的,不需要人工干预
输出的脚本可以直接复用,改文案就能重新生成,这点很实用
可以改进的点:
第一版语速偏慢,需要我手动提要求才调整。如果能根据视频类型自动判断语速会更好(比如知识类可以快一点,故事类可以慢一点)
画面目前是纯静态PPT图,如果能自动加一些简单的动效(比如文字逐行出现、关键数据高亮动画)会更有自媒体感
edge-tts虽然免费,但音色选择有限且音质和真人比还是有差距。如果能集成更高质量的TTS(比如阿里云CosyVoice、讯飞)效果会更好
希望未来能支持直接上传到B站/抖音等平台的接口
和其他AI工具对比:
我试过让ChatGPT/Claude写视频脚本,它们确实能写,但无法执行。灵犀最大的优势是能直接在你的电脑上跑代码、调工具,从文案到成片一条龙完成,这是纯对话式AI做不到的。
一个彩蛋
本帖子也是灵犀生成的,你只需输入“
你能根据我之前进行的对话,帮我整理一下我的操作步骤,然后发帖吗,
正文不少于400字,需图文并茂(操作/效果截图)
✅ 惊喜玩法,体验心得分享
✅ 遇到了Bug?告诉我们,越详细越好
✅ 某个功能用着不顺手?说出你的期望
✅ 发现了隐藏用法?分享给大家
✅ 想要什么新功能?尽管提
✅ 和其他AI工具比起来感觉怎么样?”
@金山办公