🎯 做完你会得到
音频文件自动转录为文字,并整理成结构化摘要:主要观点、金句、时间戳索引,可以直接搜索和引用。
🛠 需要什么
- agent-reach
👤 适合谁
- 播客听众
- 内容创作者
- 研究员
⚡ 效果预览
播客自动转录为文字,生成摘要和关键点,一小时内容10分钟读完
⚠️ 待验证案例:本案例依赖语音转录工具(Whisper 等),需要额外安装配置。转录质量因音质、口音、语速而异。如果你跑通了,欢迎联系站长提交验证记录。
🔧 Step 0:先配置 Notion(推荐存储后端)
⚠️ 本案例推荐使用 Notion 管理数据,免费且多人协作 👉 去配置 Notion 接入 →
解决什么问题
一期播客两小时,想提取里面的干货要花同样的时间;会议录音发了但没人整理;自己录的语音备忘录积压了几十条。这个场景让 OpenClaw 帮你处理音频:
- 谁会用到:播客重度用户、需要整理会议录音的职场人、内容创作者
- 省了什么:不用反复回听,不用手动整理笔记
- 效果是什么:音频 → 文字 → 结构化摘要,可搜索、可引用
前置条件
- OpenClaw 已安装
- 安装 Whisper(OpenAI 开源语音识别)或其他转录工具
- 音频文件(支持 mp3、mp4、wav、m4a 等格式)
- Claude Max 账号,或 Anthropic API Key
安装 Whisper:
pip install openai-whisper(需要 Python 环境) 中文转录效果:推荐使用medium或large模型
用到的工具
| 工具 | 用途 | 获取方式 |
|---|---|---|
| Whisper(本地) | 音频转文字 | pip install openai-whisper |
| anthropic/claude-sonnet-4-6 | 整理摘要、提炼要点 | Claude Max 账号 |
| 代码执行(内置) | 运行 Whisper 转录脚本 | OpenClaw 内置 |
预期结果
输入:一期 90 分钟的播客音频
输出:
🎙️ 播客摘要:《XX节目 第103期》
基本信息
• 时长:1小时32分钟
• 主要嘉宾:xxx
• 主题:AI 工具对知识工作者的影响
核心观点(5条)
1. [00:08:30] AI 不会取代人,但会取代不使用 AI 的人
2. [00:23:15] 提示词工程的本质是把你的思维过程外化
3. [00:45:00] 知识管理的终极目标不是收藏,而是能被用到
4. [01:02:40] 个人品牌的护城河是观点,不是信息量
5. [01:18:20] 工具选择的原则:用最少的工具做最多的事
金句摘录
• "你用的工具,决定了你能处理什么规模的问题。"(00:15:42)
• "真正的效率不是做得更快,而是不做不必要的事。"(00:38:17)
章节索引
• 00:00-10:00 开场:嘉宾介绍和本期主题
• 10:00-25:00 AI 工具现状:哪些真的有用
• 25:00-50:00 知识管理实践案例
...
推荐给谁听:对 AI 生产力工具感兴趣的知识工作者
最简上手
第一步:安装 Whisper 并转录:
帮我用 Whisper 转录这个音频文件:~/Downloads/podcast_ep103.mp3
步骤:
1. 检查本机是否已安装 whisper(运行 `whisper --help`)
2. 如果没有,安装:`pip install openai-whisper`
3. 运行转录:`whisper ~/Downloads/podcast_ep103.mp3 --model medium --language zh --output_dir ~/Downloads/`
4. 转录完成后告诉我生成了哪些文件
第二步:整理摘要:
Whisper 转录完成了,文本文件在 ~/Downloads/podcast_ep103.txt
请帮我整理这份转录文字:
1. 这期播客的主题是什么?
2. 提炼5个核心观点(每个附上大概的时间戳,如果转录文件里有的话)
3. 摘录3-5句最有价值的金句
4. 按内容分成4-6个章节,给每个章节写标题和一句话概括
5. 这期内容适合推荐给什么类型的听众?
输出保存为 ~/Downloads/podcast_ep103_summary.md
一键完整流程
帮我处理这个播客文件:~/Downloads/podcast.mp3
完整流程:
1. 用 Whisper(medium 模型,中文)转录音频,保存到同目录
2. 读取转录文件
3. 生成结构化摘要(主题、核心观点、金句、章节索引)
4. 保存摘要为 podcast_summary.md
如果 Whisper 未安装,先安装再执行。遇到错误告诉我。
批量处理多个录音
我的 ~/Recordings/ 目录下有上个月的10段会议录音,
文件名格式:meeting_YYYYMMDD_主题.mp3
请逐个处理:
1. 用 Whisper 转录每个文件
2. 提取:会议主题、主要讨论点、决策结论、待办事项
3. 把所有会议的待办事项汇总到一个文件:meeting_todos_总结.md
4. 每处理完一个告诉我进度
一次处理一个,完成后继续下一个。
字幕生成
我有一段视频讲座 ~/Downloads/lecture.mp4,需要生成中文字幕(SRT格式):
1. 用 Whisper 转录,输出 SRT 格式:
`whisper lecture.mp4 --model medium --language zh --output_format srt`
2. 读取生成的 SRT 文件,检查有没有明显的转录错误
3. 如果有专业术语错误,帮我修正(术语表:OpenClaw=小龙虾AI,cron=定时任务)
4. 保存修正后的 SRT 文件
踩坑记录
Whisper 下载模型很慢
症状:首次运行 Whisper 时下载模型要很久(medium 模型约 1.5GB)。
解法:提前挂梯子下载,或者使用更小的 base 模型(速度快但准确率稍低):--model base。
转录中文效果差
症状:转录结果有很多错别字或识别成了英文。
解法:确保指定了语言参数 --language zh,并使用 medium 或 large 模型。口音较重时效果会差一些。
音频文件太大
症状:转录时报内存不足。
解法:先用 ffmpeg 把音频压缩:ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav,再用 Whisper 转录压缩后的文件。
转录没有时间戳
症状:生成的文本文件没有时间信息,无法定位到原音频。
解法:使用 --output_format srt 输出 SRT 格式,会包含时间戳;或者 --word_timestamps True 开启词级时间戳。
不满意怎么调
- 想要更快的转录 → 使用
--model base或--model small,速度更快但准确率降低 - 想要实时转录 → 配合麦克风输入,Whisper 支持实时流式转录(需要额外配置)
- 想要导出到 Notion → 整理完摘要后,配合 Notion API 写入到你的知识库
- 想要播客内容再创作 → 把摘要给 OpenClaw,要求根据这期播客的核心观点,写一篇小红书笔记
用 AI 替代虚拟助理(VA)
邮件回复、日程安排、信息整理、客户跟进——这些虚拟助理做的事,OpenClaw 能接管大部分,每月省下 VA 费用。
100+ 企业平台一键接入
安装 API Gateway 技能,一口气打通 Google Workspace、Microsoft 365、GitHub、Notion、Slack、HubSpot 等 100+ 平台,统一管理。
数据报表自动生成与定时分发
把你的数据源(Excel/飞书/数据库)接入 OpenClaw,每天/每周自动生成数据报表,并准时发送到对应的人或群,彻底告别"每天早上手动跑数据、发给领导"的重复劳动。"