MacWhisper 利用 OpenAI Whisper 技术将音讯影片自动转逐字稿

0
614

OpenAI 公司最为人所知的就是 ChatGPT 人工智慧聊天机器人(现在还有人不知道吗?),其实它还有其他也是很强大的专案研究,例如「DALL·E 以描述让 AI 创造图片,也能编辑现有图片呈现逼真效果」或是另一个对语音即时辨识、转为文字档的 Whisper 技术,都是当今 AI 领域的伟大发明,对於使用者来说或许不用很清楚这些技术背後的实际运作方式,只要善用对的工具就能提高工作效率。

本文要介绍「MacWhisper」是一个将录音或影片自动转为逐字稿的 Mac 应用程式,使用的正是 OpenAI 旗下的 Whisper 技术,无论是会议录音、讲座或是任何音讯档都能透过 MacWhisper 快速准确地转换为文字,同时标记时间轴,也能在辨识後直接修正错误的本文段落,支援超过 100 种语言。

更棒的是 MacWhisper 所有辨识、转录工作都在使用者的电脑上进行,不需要让任何资料离开电脑,即使遇到隐私、敏感的资料也很适合透过 MacWhisper 进行转换,应用程式本身有免费和付费 PRO 方案,差异在於可下载的训练模型(Models)大小不一样,即使如此,免费版模型就能获得相当不错的正确性,同时也能在很短时间完成音讯的识别工作。

MacWhisper 适用於 MP3、WAV、M4A、MP4 和 MOV 格式,付费後还能直接贴上 YouTube 影片网址、直接将影音内容转为文字逐字稿,转换後可保存为 SRT、VTT、TXT、CSV、DOCX(付费後还有 HTML、PDF 和 DOTE 格式),速度上很快速、准确性很高,有需要的朋友可以试试看。

MacWhisper
https://goodsnooze.gumroad.com/l/macwhisper

下载应用程式,选择要使用的方案

STEP 1

开启 MacWhisper 页面後从右侧选择最上方免费选项(价格是 €0),点选下方「我要这个」按钮,未来需要 Pro 授权序号一样可以回到这里从下方找到对应的购买选项,有依照授权数提供不同的价格,买越多单价就越便宜啦!

STEP 2

选择免费方案後前往付款页面,输入电子邮件地址後按下「获取」完成结帐。

STEP 3

完成前还是不忘推销一下,问问使用者要不要升级 MacWhisper Pro 授权解锁完整功能,在这里点选不升级进入下个画面,如果你需要的话也是可以在这里选择付费升级。

最後点选「Download MacWhisper」下载应用程式,虽然下面有个许可密钥,但对於免费版来说似乎是没有作用。

下载 Whisper 语音模型,开始语音辨识

STEP 1

开启 MacWhisper 第一件事是要下载 Whisper 模型,如果你要辨识的音讯或影片不是英文,那麽就要从多种语言(Multiple Languages)下方的模型选择、下载,免费方案可下载到「Small」模型(约 500 MB),拥有不错的辨识度、处理速度普通,如果下载较小的模型处理速度会更快,不过准确度就会稍差一些。

升级为 PRO 方案可取得更大型的音讯模型,最多有 3 GB 大小,应该会有相当高的准确性,不过处理速度会是最慢的,以我的实际操作经验,我选择免费方案的 Small 模型处理一个六分半的录音,差不多只要耗费约 34 秒,其实速度还算快。

STEP 2

完成模型下载後就能开始使用,未来也能随时将已下载的模型删除或进行切换。

STEP 3

进入 MacWhisper 主画面就能开始使用,操作方式很简单,只要将档案直接拖曳进去即可开始辨识、把内容产生为文字格式或是逐字稿,支援 MP3、WAV、M4A、MP4 和 MOV 格式。

STEP 4

虽然也可以输入 YouTube 影片直接产生字幕档,但这个功能需要付费升级为 Pro 方案才能使用,即使转换出来後也没办法顺利取得文字档(会出现要求购买 Pro 方案才能取得字幕的错误讯息)。

STEP 5

如果你想要转换的影片或音讯在 YouTube,可以先透过 YouTube 影片下载工具保存为 MP3 就能免除这个限制,反正也只是多绕个圈而已,并不会影响太多,将影片先下载为 MP4 或 MP3 格式。

接着从 MacWhisper 主画面点选「Open Files」或直接将档案拖曳进去就能开始使用 Whisper 技术将影音转换为逐字稿或是纯文字格式。

经过实际测试六分半钟的影片大约 34 秒即可完成辨识、转出字幕档和时间轴,速度相当快,不过依然有些地方不太正确,需要手动检查、勘误,时间轴上会有每个段落的字幕。

STEP 6

产生的逐字稿可以调整文字大小(透过上方选单)。

也能随时编辑字幕内容或是标记、删除,操作上还蛮简单的,透过下方操控栏位随时跳转特定段落播放。

STEP 7

转换後点选右上角「Export」汇出按钮即可选择保存格式,支援 SRT、VTT、纯文字 TXT、CSV、DOCS,其他还有 HTML、PDF 和 DOTE 格式是需要付费升级 Pro 方案才能选择的格式。

选择纯文字格式没有时间轴,点选右下角「Export」即可汇出、保存为特定文字格式,将影片或是音讯档案的逐字稿汇出。

值得一试的三个理由:

  1. 辨识与转录工作皆在使用者的电脑上进行,不需让任何资料离开电脑
  2. 快速准确将各种音讯档案转换为文字,同时支援超过 100 种语言
  3. 可转换多种音讯影片格式,付费後还可直接转换 YouTube 影片

分享本文FacebookTwitterPinterestLineCopy

Pseric

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论