需求来源
一般听播客都是在通勤的时候打发时间听听,主打一个陪伴的目的。
但在某些时候,听到非常精彩的对话,想要记录下来。或者听到”干货“满满的播客,想要停下来做笔记,通常这个时候都不具备对应的条件。(比如软件不支持标记,回不到那一个时间点,没有网络….)
通常来说,我们在之后的时间即便回想起来也大概率不愿意再听一遍播客,觉得效率太低。
这时想着如果有播客逐字稿,提高下信息获取效率,就好了。
如何做
简单搜了下,似乎没有一个大家都一致认可并推荐的产品(如果有推荐的,欢迎评论)
OK,既然没有现有的All in One的解决方案软件,那我们就看看如果自己来做的话,步骤是怎样的。
我搜到了知乎这篇文章播客批量转文字技巧:小宇宙,喜马拉雅都能用,
总结下流程大概是:
- 下载对应的播客音频
- 将音频转录为文本
如果想转录多集播客的话,可以使用MusicBee软件批量下载,使用方法参见:【教程】如何用一个软件下载播客所有音频
下载完大概是这样
OK,现在我们已经有了想要转录为文字的播客音频了。
如何选择语音转文字的工具
接下来就是语音转文字,想到这应该是一个常见的需求,也应该是一个相对成熟的技术了。
看了下有开源的模型,也有现有的软件,不知道该如何选。
搜一下,看到了这篇文章几款免费的语音转文字工具推荐(附识别准确度排行榜)已经有同学帮忙测试了
这位同学用三段不同时长及特点的的音频(30s, 5min, 13min)测试了不同工具的识别准确度。
直接看结论吧
观察测试结果,我们发现。
对whisper来说,说模型越大识别准确率越高并不绝对(至少对中文不是)。比如5min音源的识别,small模式比更高级的模式准确率要高。whisper高级模式的语音识别准确率在日常语境(成语典故较少)可以做到比一些在线服务要强大。
剪映和必剪在三次测试中识别准确率都位于前三名。微软语音识别和whisper分别进入了两次测试的前三名,不过whisper的两次分别是不同识别模式。飞书妙记进入一次前三名。
七、建议
通过文章第五部分三组音源的数据,可以给出一些建议:剪映和必剪的识别准确率相对而言比较高,大家可优先选择,但是剪映支持直接导出字幕,必剪需要你自己找到json文件再处理才能得到文本,所以推荐剪映。
对一些成语和古语引用比较多的音频,对隐私不敏感的话,不建议使用whisper(buzz),其他在线平台识别准确率都比较高。日常语境下whisper(buzz)表现还是不错。
随时间发展免费的在线语音识别服务可能收费,或者突然关停(之前网易见外工作台有段时间停止对外开放,后来又恢复了),建议大家下载个buzz(你要是愿意花时间安装whisper更好),开源软件、离线运行不受制于人,处理一般的语音转写完全没问题,隐私也有保障。 作者:1590856 https://www.bilibili.com/read/cv21023516/ 出处:bilibili
我想转录的播客,类似于5min的聊天播客,这里按准确度和工具的操作方便性来看,我试了剪映,微软自带语音识别,及飞书妙记这几个工具。
从个人体验来看
剪映:识别准确率最高,但导出的文本没有具体的分时时间段。
微软自带语音识别:识别准确率也不错,环境准备起来稍微麻烦点,且在转录过程中,光标需一直在编辑器中,不能同时做其他事,不是很方便
飞书妙记:识别准确率稍低,但也够用。支持显示音频语音时间段
剪映 | 微软自带语言识别 | 飞书妙记 | |
---|---|---|---|
是否需要安装软件 | 是 | 否 | 网页版 |
自动化适配难度(批量场景) | 较难 | 困难 | 简单 |
识别准确率 | 0.988 | 0.961 | 0.931 |
是否支持显示分时时间段 | 否 | 否 | 支持 |
鉴于播客场景,展示分时时间段是一个亮点(便于回顾)。以及我有批量转录的场景,自动化适配简单比较重要,选了飞书妙记
如果单纯的语音转文字的话,剪映应该是普通用户不折腾的前提下的最好选择了。
关于飞书妙记使用方法参见:播客音频转文字小技巧
最后我们看下效果图(能够看到比较明显的错字,但似乎不影响理解):
如果有批量的播客转文字的需求的话,飞书妙记支持一次性最多上传20个(似乎限流2分钟),在上传并转录完成处理后,可以使用飞书妙记批量导出脚本导出。