如何将播客转录为文字

需求来源

一般听播客都是在通勤的时候打发时间听听，主打一个陪伴的目的。

但在某些时候，听到非常精彩的对话，想要记录下来。或者听到”干货“满满的播客，想要停下来做笔记，通常这个时候都不具备对应的条件。（比如软件不支持标记，回不到那一个时间点，没有网络….)

通常来说，我们在之后的时间即便回想起来也大概率不愿意再听一遍播客，觉得效率太低。

这时想着如果有播客逐字稿，提高下信息获取效率，就好了。

如何做

简单搜了下，似乎没有一个大家都一致认可并推荐的产品（如果有推荐的，欢迎评论）

OK，既然没有现有的All in One的解决方案软件，那我们就看看如果自己来做的话，步骤是怎样的。

我搜到了知乎这篇文章播客批量转文字技巧：小宇宙，喜马拉雅都能用，

总结下流程大概是：

下载对应的播客音频
将音频转录为文本

如果想转录多集播客的话，可以使用MusicBee软件批量下载，使用方法参见：【教程】如何用一个软件下载播客所有音频

下载完大概是这样

MusicBee下载播客剧集效果图

OK，现在我们已经有了想要转录为文字的播客音频了。

如何选择语音转文字的工具

接下来就是语音转文字，想到这应该是一个常见的需求，也应该是一个相对成熟的技术了。

看了下有开源的模型，也有现有的软件，不知道该如何选。

搜一下，看到了这篇文章几款免费的语音转文字工具推荐（附识别准确度排行榜）已经有同学帮忙测试了

这位同学用三段不同时长及特点的的音频(30s, 5min, 13min)测试了不同工具的识别准确度。

直接看结论吧

13min各工具效果识别图

5min各工具效果识别图

30s各工具效果识别图

观察测试结果，我们发现。

对whisper来说，说模型越大识别准确率越高并不绝对（至少对中文不是）。比如5min音源的识别，small模式比更高级的模式准确率要高。whisper高级模式的语音识别准确率在日常语境（成语典故较少）可以做到比一些在线服务要强大。

剪映和必剪在三次测试中识别准确率都位于前三名。微软语音识别和whisper分别进入了两次测试的前三名，不过whisper的两次分别是不同识别模式。飞书妙记进入一次前三名。

七、建议
通过文章第五部分三组音源的数据，可以给出一些建议：

剪映和必剪的识别准确率相对而言比较高，大家可优先选择，但是剪映支持直接导出字幕，必剪需要你自己找到json文件再处理才能得到文本，所以推荐剪映。

对一些成语和古语引用比较多的音频，对隐私不敏感的话，不建议使用whisper（buzz），其他在线平台识别准确率都比较高。日常语境下whisper（buzz）表现还是不错。

随时间发展免费的在线语音识别服务可能收费，或者突然关停（之前网易见外工作台有段时间停止对外开放，后来又恢复了），建议大家下载个buzz（你要是愿意花时间安装whisper更好），开源软件、离线运行不受制于人，处理一般的语音转写完全没问题，隐私也有保障。作者：1590856 https://www.bilibili.com/read/cv21023516/ 出处：bilibili

我想转录的播客，类似于5min的聊天播客，这里按准确度和工具的操作方便性来看，我试了剪映，微软自带语音识别，及飞书妙记这几个工具。

从个人体验来看

剪映：识别准确率最高，但导出的文本没有具体的分时时间段。

微软自带语音识别：识别准确率也不错，环境准备起来稍微麻烦点，且在转录过程中，光标需一直在编辑器中，不能同时做其他事，不是很方便

飞书妙记：识别准确率稍低，但也够用。支持显示音频语音时间段

	剪映	微软自带语言识别	飞书妙记
是否需要安装软件	是	否	网页版
自动化适配难度（批量场景）	较难	困难	简单
识别准确率	0.988	0.961	0.931
是否支持显示分时时间段	否	否	支持

鉴于播客场景，展示分时时间段是一个亮点（便于回顾）。以及我有批量转录的场景，自动化适配简单比较重要，选了飞书妙记

如果单纯的语音转文字的话，剪映应该是普通用户不折腾的前提下的最好选择了。

关于飞书妙记使用方法参见：播客音频转文字小技巧

最后我们看下效果图（能够看到比较明显的错字，但似乎不影响理解）：

飞书转录后的效果图

如果有批量的播客转文字的需求的话，飞书妙记支持一次性最多上传20个（似乎限流2分钟），在上传并转录完成处理后，可以使用飞书妙记批量导出脚本导出。

Helious.wu's Blog

那些困扰过我的问题可能也困扰着你，我慢慢写，你慢慢看…

需求来源

如何做

如何选择语音转文字的工具

发表回复取消回复

需求来源

如何做

如何选择语音转文字的工具

发表回复 取消回复

发表回复取消回复