我让AI读完PPT后自己写文案、配音、剪视频,它真的做到了

前置信息

  • 电脑系统:Windows

  • 使用场景:自媒体视频制作(知识分享类)

我输入了什么

我手头有一份15页的PPT《时代的莫比乌斯环》(内容是关于年轻人社会困境的深度分析),还有一个对应的视频文案txt文件。

我只跟灵犀说了一句话:

"这是视频文案和视频文案生成的PPT,我需要给PPT生成自媒体视频。先理解PPT内容,然后生成每一页对应的视频文案,再生成配音,画面就用PPT内容,再合成视频,能做到吗,用python实现"

就这一句,没给任何技术细节,没指定用什么库、什么方案。

灵犀是怎么做的(完整流程)

它自己规划了一个完整的视频制作pipeline,分了这几步:

Step 1:理解内容

先读取了我的txt文案(1600多行),又逐页解析了PPT。因为PPT每页都是整张PNG图片没有可提取的文字,它还逐页调用了图片识别来理解每页的标题、正文、图表、引用等内容。15页全部读完,花了几分钟。

Step 2:撰写视频文案

基于原始文案和PPT每页内容,它为每一页重新编写了口语化的视频解说词。不是简单复制原文,而是改成了适合配音的口语风格,每段长度也做了控制。15页 = 15段独立文案。

Step 3:生成配音

它选了微软Edge TTS引擎(edge-tts),选了一个叫"云希"的年轻男声。第一版生成后发现语速偏慢,我说"语速太慢了,提升25%",它马上用FFmpeg的atempo滤镜把所有音频加速1.25倍处理好了。

Step 4:合成视频

用纯FFmpeg方案完成:

  • 每页PPT图片作为静态画面

  • 对应配音作为音频轨

  • 自动淡入淡出转场

  • 逐页拼接成完整视频

最终输出:1920x1080,H.264编码,7分03秒,23.9MB的MP4文件。

它还自动输出了一份 build_video.py 脚本,以后改了文案可以一键重新生成。


中间出了点小插曲

  1. slide_01音频文件损坏(0字节):可能是生成过程中环境不稳定导致的,它自动检测到并重新生成了

  1. moviepy导出超时:第一次用的moviepy库合成视频,编码太慢直接卡住了,它果断切换成纯FFmpeg方案,速度快了好几倍

  1. ffprobe缺失:系统里只有ffmpeg没有ffprobe(moviepy内置的),它改用ffmpeg自身的stderr解析来获取音频时长

这几个问题它都是自己发现、自己解决的,没有来问我怎么办。

超出预期的点:

  • 只给了一句需求描述,它自己拆解了整个视频制作pipeline,从内容理解到最终输出全链路自动完成

  • 中途遇到的各种技术问题(音频损坏、库超时、工具缺失)都是自主排查修复的,不需要人工干预

  • 输出的脚本可以直接复用,改文案就能重新生成,这点很实用

可以改进的点:

  • 第一版语速偏慢,需要我手动提要求才调整。如果能根据视频类型自动判断语速会更好(比如知识类可以快一点,故事类可以慢一点)

  • 画面目前是纯静态PPT图,如果能自动加一些简单的动效(比如文字逐行出现、关键数据高亮动画)会更有自媒体感

  • edge-tts虽然免费,但音色选择有限且音质和真人比还是有差距。如果能集成更高质量的TTS(比如阿里云CosyVoice、讯飞)效果会更好

  • 希望未来能支持直接上传到B站/抖音等平台的接口

和其他AI工具对比:

我试过让ChatGPT/Claude写视频脚本,它们确实能写,但无法执行。灵犀最大的优势是能直接在你的电脑上跑代码、调工具,从文案到成片一条龙完成,这是纯对话式AI做不到的。

一个彩蛋

本帖子也是灵犀生成的,你只需输入“

你能根据我之前进行的对话,帮我整理一下我的操作步骤,然后发帖吗,

正文不少于400字,需图文并茂(操作/效果截图)

惊喜玩法,体验心得分享

遇到了Bug?告诉我们,越详细越好

某个功能用着不顺手?说出你的期望

发现了隐藏用法?分享给大家

想要什么新功能?尽管提

和其他AI工具比起来感觉怎么样?

湖北省
浏览 272
2
7
分享
7 +1
4
2 +1
全部评论 4
 
金小晶
哇哇哇!支持支持!!
· 湖北省
2
回复
 
WPS灵犀小队长
WPS灵犀小队长

@金山办公

灵犀视频大师已上线
· 广东省
回复
 
文飞
呃呃呃,我要体验一下。好像非常强大啊
· 安徽省
回复
 
☘️
· 山东省
1
回复