目录

试验文章

我们只需要提供一份文章,文章来源:如何洗碗 - 9ong

文章转播客

工具:notebookllm 平台或扣子空间。

通过 notebookLLM 生成一份播客音频,生成的播客内容质量对我们目前来说还挺高,甚至比原文档质量高些。

国内现在可以使用扣子空间,生成播客音频,但从声音来说,扣子空间的播客音频质量更好、更自然紧凑,但有网友反馈生成内容可能不如 notebookLLM。

通过 notebookLLM 生成一份播客音频

音频文件转字幕

工具:剪映。VIP 付费。

我们已经好长一段时间未使用剪映了,记不住剪映的功能,但对于这种知道与不知道的知识,我们就随手问就可以了,虽然答案不是很准确,但基本看看界面就知道点哪里了,看这里我们也不想用谷歌、百度、Bing 搜索了,搜索引擎在我们这里已经快被抛弃了。

如何通过剪映导入音频文件导出对应字幕内容

最终我们导出的字幕 txt 文本,保存在 5月28日.txt 文件中,方便我们后续 AI 生图使用。

剪映字幕导出 txt

剪映字幕导出

AI 分析播客内容与生成生图提示词

将字幕文本文件5月28日.txt提供给 AI 作为状态上下文,再给出我们的意图,意图上下文如下:

你分析这份播客文案内容,按照播客播报正常语速,根据句子之间的紧密关系,分成小文案段落,这些小段落可能是1~10句子组成,所有文案保持不变,只是区分了段落,
先初步估算一般10~15秒的文案内容可以作为一个小段落,当然如果有特殊内容可以缩短文字数作为段落,请来回确认,并在对应目录下创建一个新的文件保存区分段落的播客新文案。

我们得到一份经过 AI 分析后,保留原文文字,但分割小段落的新文案:

播客内容分段

你紧接着为这些小段落设计生图提示词,要求贴切播客主题及与小段落高度相关,要求动漫风格,所有小段落的图片要求风格一致,不突兀,生图提示词追加在每个段落下方,
方便识别区分播客文案还是生图提示词,也要方便一键复制。@5月28日-分段稿.txt

结合段落生成豆包生图提示词

按提示词通过豆包或 minimax 生成图片

豆包暂时没有对外提供生图服务,虽然 minimax 服务支持,但是收费,我们暂时免费手动串联流程。

通过豆包 pc 端,手动输入提示词,生成图片,并保存到本地。

豆包生图

根据以上提示词用豆包生成了几百张图片

图片上传剪映完善视频

这里应该要有脚本,看过公众号文章有这种脚本生成,可以一键匹配视频与文字,为了效果,暂时手动来上传和拉下图片与字母对齐即可,补充上片头、片尾、背景音乐,因为这次生图都是静态图,所以每张图都需要一个转场,感官上会更舒服。

再不久的将来或者已经发生了,我们可以做好多个一致性高的 5~10 秒动态视频或动态图,用来做视频,效果会更好,甚至昨天我们在哔哩哔哩上已经看到有人直接 AI 播客主持人和播客音频对口型了,视频虽短,但很精美。有时间再来试验。

图片上传剪映

视频效果截图:

01 开场

02 洗碗

03 洗碗

04 洗碗

05 洗碗

06 洗碗

小结

这个试验,虽然没有完全自动化,但大部分环节都使用 AI 实现,在以前这些环节一个人处理不了,不专业处理不了,比如播客音频、音频转字幕、字幕分析并按内容生图等。

AI 的发展迭代非常快,前两个月我们为 AI 准备的提示词,AI 经常为我们的文章生成一个当时训练他的日期,比如之前 Qwen、DeepSeek 经常会把日期定格在 2023 年 11 月(好像是 2023 年),这个时间是这个模型训练的日期。

现在 AI 已经可以为我们的文章生成一个更准确的日期了,当然不是他生成的,而是 Agent 根据 AI 智能决策觉得此时需要一个当地当下日期,就会调用本地工具获取一个当地当下的日期。

要高估 AI,给他戴高帽,要低估 AI,给他戴紧箍咒。


9ong@TsingChan 2025 markdown