能離線使用的語音識別工具:Buzz,使用OpenAI Whisper神經網路,正確率高

Buzz是一個離線運行的語音識別工具,使用OpenAI的Whisper模型。

1. Whisper 是什麼?

Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達到人類水準的Whisper神經網路,且它亦支援其它98種語言的自動語音辨識。

Whisper系統所提供的自動語音辨識(Automatic Speech Recognition,ASR)模型是被訓練來執行語音辨識與翻譯任務的,它們能將各種語言的語音變成文字,也能將這些文字翻譯成英文。

Whisper 是一种通用语音识别模型。它利用各种大型数据集上的音频进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

在第一次使用 Buzz 時,會下載 Whisper 的模型,儲存在本機下列位置:

OS Location
Windows C:\Users/<username>\AppData\Local\Buzz\Buzz\Cache
macOS /.cache/whisper/Library/Caches/Buzz
Linux ~/.cache/Buzz

2. 操作

  • Task: Transcribe(轉錄,逐字稿)或Translate
  • 按〔Ctrl+O〕或【File】→【Import Audio File...】選擇要操作的語音檔或影片檔
  • 點擊【Run】開始執行


3. 結論

  • 當【Quality】為Medium或High時耗費時間頗多
  • 辨識正確率與斷句適切性皆可接受,感覺比剪映的智能字幕表現還好
  • 最重要的:全部在本地端完成,操作時不須網路,不用再擔心資料可能被不當保留了

4. Subtitle Edit整合

字幕編輯工具 Subtitle Edit 3.6.8版以後,也整合了OpenAI Whisper的功能:

  1. 功能表 視窗→Audio to text (Whisper)
  2. 第一次執行時由【...】下載要使用模型的檔案,small為480MB,medium大小為1.5GB
  3. 點擊【產生】後開始處理

03|500

補充測試 2022/12/04

使用同一個教學影片轉錄後的結果:

5. 相關鏈接

就中文而言,Whisper各模型:

  • tiny 是没有做断句的,或者说,直接根据停顿断句
  • base 已经开始根据逻辑断句,但会出语法错误
  • small 已经很少语法错误,但断句水平却直线下降,很奇怪
  • medium 不仅能够完美的断句,还能判断语气

6. 教學影片

##

您可能也會有興趣的類似文章

您可能也會喜歡…

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *