我们已经好长一段时间未使用剪映了，记不住剪映的功能，但对于这种知道与不知道的知识，我们就随手问就可以了，虽然答案不是很准确，但基本看看界面就知道点哪里了，看这里我们也不想用谷歌、百度、Bing 搜索了，搜索引擎在我们这里已经快被抛弃了。

如何通过剪映导入音频文件导出对应字幕内容

最终我们导出的字幕 txt 文本，保存在 5月28日.txt 文件中，方便我们后续 AI 生图使用。

剪映字幕导出 txt

剪映字幕导出

AI 分析播客内容与生成生图提示词

将字幕文本文件5月28日.txt提供给 AI 作为状态上下文，再给出我们的意图，意图上下文如下：

你分析这份播客文案内容，按照播客播报正常语速，根据句子之间的紧密关系，分成小文案段落，这些小段落可能是1~10句子组成，所有文案保持不变，只是区分了段落，
先初步估算一般10~15秒的文案内容可以作为一个小段落，当然如果有特殊内容可以缩短文字数作为段落，请来回确认，并在对应目录下创建一个新的文件保存区分段落的播客新文案。

我们得到一份经过 AI 分析后，保留原文文字，但分割小段落的新文案：

播客内容分段

你紧接着为这些小段落设计生图提示词，要求贴切播客主题及与小段落高度相关，要求动漫风格，所有小段落的图片要求风格一致，不突兀，生图提示词追加在每个段落下方，
方便识别区分播客文案还是生图提示词，也要方便一键复制。@5月28日-分段稿.txt

结合段落生成豆包生图提示词

按提示词通过豆包或 minimax 生成图片

豆包暂时没有对外提供生图服务，虽然 minimax 服务支持，但是收费，我们暂时免费手动串联流程。

通过豆包 pc 端，手动输入提示词，生成图片，并保存到本地。

豆包生图

根据以上提示词用豆包生成了几百张图片

图片上传剪映完善视频

这里应该要有脚本，看过公众号文章有这种脚本生成，可以一键匹配视频与文字，为了效果，暂时手动来上传和拉下图片与字母对齐即可，补充上片头、片尾、背景音乐，因为这次生图都是静态图，所以每张图都需要一个转场，感官上会更舒服。

再不久的将来或者已经发生了，我们可以做好多个一致性高的 5~10 秒动态视频或动态图，用来做视频，效果会更好，甚至昨天我们在哔哩哔哩上已经看到有人直接 AI 播客主持人和播客音频对口型了，视频虽短，但很精美。有时间再来试验。

图片上传剪映

视频效果截图：

01 开场

02 洗碗

03 洗碗

04 洗碗

05 洗碗

06 洗碗

小结

这个试验，虽然没有完全自动化，但大部分环节都使用 AI 实现，在以前这些环节一个人处理不了，不专业处理不了，比如播客音频、音频转字幕、字幕分析并按内容生图等。

AI 的发展迭代非常快，前两个月我们为 AI 准备的提示词，AI 经常为我们的文章生成一个当时训练他的日期，比如之前 Qwen、DeepSeek 经常会把日期定格在 2023 年 11 月（好像是 2023 年），这个时间是这个模型训练的日期。

现在 AI 已经可以为我们的文章生成一个更准确的日期了，当然不是他生成的，而是 Agent 根据 AI 智能决策觉得此时需要一个当地当下日期，就会调用本地工具获取一个当地当下的日期。

要高估 AI，给他戴高帽，要低估 AI，给他戴紧箍咒。

9ong@TsingChan 2025 markdown

AI 播客视频之如何洗碗

目录

试验文章

文章转播客

音频文件转字幕

AI 分析播客内容与生成生图提示词

按提示词通过豆包或 minimax 生成图片

图片上传剪映完善视频

小结

TsingChan