如何将播客转录为文字

需求来源

一般听播客都是在通勤的时候打发时间听听,主打一个陪伴的目的。

但在某些时候,听到非常精彩的对话,想要记录下来。或者听到”干货“满满的播客,想要停下来做笔记,通常这个时候都不具备对应的条件。(比如软件不支持标记,回不到那一个时间点,没有网络….)

通常来说,我们在之后的时间即便回想起来也大概率不愿意再听一遍播客,觉得效率太低。

这时想着如果有播客逐字稿,提高下信息获取效率,就好了。

如何做

简单搜了下,似乎没有一个大家都一致认可并推荐的产品(如果有推荐的,欢迎评论)

OK,既然没有现有的All in One的解决方案软件,那我们就看看如果自己来做的话,步骤是怎样的。

我搜到了知乎这篇文章播客批量转文字技巧:小宇宙,喜马拉雅都能用

总结下流程大概是:

  1. 下载对应的播客音频
  2. 将音频转录为文本

如果想转录多集播客的话,可以使用MusicBee软件批量下载,使用方法参见:【教程】如何用一个软件下载播客所有音频

下载完大概是这样

MusicBee下载播客剧集效果图

OK,现在我们已经有了想要转录为文字的播客音频了。

如何选择语音转文字的工具

接下来就是语音转文字,想到这应该是一个常见的需求,也应该是一个相对成熟的技术了。

看了下有开源的模型,也有现有的软件,不知道该如何选。

搜一下,看到了这篇文章几款免费的语音转文字工具推荐(附识别准确度排行榜)已经有同学帮忙测试了

这位同学用三段不同时长及特点的的音频(30s, 5min, 13min)测试了不同工具的识别准确度。

直接看结论

13min各工具效果识别图

5min各工具效果识别图

30s各工具效果识别图

观察测试结果,我们发现。

对whisper来说,说模型越大识别准确率越高并不绝对(至少对中文不是)。比如5min音源的识别,small模式比更高级的模式准确率要高。whisper高级模式的语音识别准确率在日常语境(成语典故较少)可以做到比一些在线服务要强大。

剪映和必剪在三次测试中识别准确率都位于前三名。微软语音识别和whisper分别进入了两次测试的前三名,不过whisper的两次分别是不同识别模式。飞书妙记进入一次前三名。

七、建议
通过文章第五部分三组音源的数据,可以给出一些建议:

剪映和必剪的识别准确率相对而言比较高,大家可优先选择,但是剪映支持直接导出字幕,必剪需要你自己找到json文件再处理才能得到文本,所以推荐剪映。

对一些成语和古语引用比较多的音频,对隐私不敏感的话,不建议使用whisper(buzz),其他在线平台识别准确率都比较高。日常语境下whisper(buzz)表现还是不错。

随时间发展免费的在线语音识别服务可能收费,或者突然关停(之前网易见外工作台有段时间停止对外开放,后来又恢复了),建议大家下载个buzz(你要是愿意花时间安装whisper更好),开源软件、离线运行不受制于人,处理一般的语音转写完全没问题,隐私也有保障。 作者:1590856 https://www.bilibili.com/read/cv21023516/ 出处:bilibili

我想转录的播客,类似于5min的聊天播客,这里按准确度和工具的操作方便性来看,我试了剪映,微软自带语音识别,及飞书妙记这几个工具。

从个人体验来看

剪映:识别准确率最高,但导出的文本没有具体的分时时间段。

微软自带语音识别:识别准确率也不错,环境准备起来稍微麻烦点,且在转录过程中,光标需一直在编辑器中,不能同时做其他事,不是很方便

飞书妙记:识别准确率稍低,但也够用。支持显示音频语音时间段

剪映 微软自带语言识别 飞书妙记
是否需要安装软件 网页版
自动化适配难度(批量场景) 较难 困难 简单
识别准确率 0.988 0.961 0.931
是否支持显示分时时间段 支持

鉴于播客场景,展示分时时间段是一个亮点(便于回顾)。以及我有批量转录的场景,自动化适配简单比较重要,选了飞书妙记

如果单纯的语音转文字的话,剪映应该是普通用户不折腾的前提下的最好选择了。

关于飞书妙记使用方法参见:播客音频转文字小技巧

最后我们看下效果图(能够看到比较明显的错字,但似乎不影响理解):

飞书转录后的效果图

如果有批量的播客转文字的需求的话,飞书妙记支持一次性最多上传20个(似乎限流2分钟),在上传并转录完成处理后,可以使用飞书妙记批量导出脚本导出。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注