能離線使用的語音識別工具:Buzz,使用OpenAI Whisper神經網路,正確率高
Buzz是一個離線運行的語音識別工具,使用OpenAI的Whisper模型。
1. Whisper 是什麼?
Open AI在2022年9月21日開源了號稱其英文語音辨識能力已達到人類水準的Whisper神經網路,且它亦支援其它98種語言的自動語音辨識。
Whisper系統所提供的自動語音辨識(Automatic Speech Recognition,ASR)模型是被訓練來執行語音辨識與翻譯任務的,它們能將各種語言的語音變成文字,也能將這些文字翻譯成英文。
Whisper 是一种通用语音识别模型。它利用各种大型数据集上的音频进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
在第一次使用 Buzz 時,會下載 Whisper 的模型,儲存在本機下列位置:
OS | Location |
---|---|
Windows | C:\Users/<username>\AppData\Local\Buzz\Buzz\Cache |
macOS | /.cache/whisper/Library/Caches/Buzz |
Linux | ~/.cache/Buzz |
2. 操作
- Task: Transcribe(轉錄,逐字稿)或Translate
- 按〔Ctrl+O〕或【File】→【Import Audio File...】選擇要操作的語音檔或影片檔
- 點擊【Run】開始執行
3. 結論
- 當【Quality】為Medium或High時耗費時間頗多
- 辨識正確率與斷句適切性皆可接受,感覺比剪映的智能字幕表現還好
- 最重要的:全部在本地端完成,操作時不須網路,不用再擔心資料可能被不當保留了
4. Subtitle Edit整合
字幕編輯工具 Subtitle Edit 3.6.8版以後,也整合了OpenAI Whisper的功能:
- 功能表 視窗→Audio to text (Whisper)
- 第一次執行時由【...】下載要使用模型的檔案,small為480MB,medium大小為1.5GB
- 點擊【產生】後開始處理
補充測試 2022/12/04
使用同一個教學影片轉錄後的結果:
5. 相關鏈接
-
iThome報導: Open AI開源自動語音辨識系統Whisper | iThome
就中文而言,Whisper各模型:
- tiny 是没有做断句的,或者说,直接根据停顿断句
- base 已经开始根据逻辑断句,但会出语法错误
- small 已经很少语法错误,但断句水平却直线下降,很奇怪
- medium 不仅能够完美的断句,还能判断语气
6. 教學影片
##
您可能也會有興趣的類似文章
- 免費影片後製軟體《剪映》語音辨識上字幕和簡轉繁技巧~JianYing (0則留言, 2021/07/24)
- B站生存手記 (0則留言, 2021/09/23)
- SE003|Subtitle Edit整合Whisper的使用步驟-快速AI語音轉文字 (0則留言, 2023/10/01)
- 能使用GPU的OpenAI Whisper語音識別工具(ASR),超快超準確:WhisperDesktop (9則留言, 2023/03/16)
- SE004|Subtitle Edit 製作雙語字幕的操作步驟 (0則留言, 2023/11/05)
- [轉貼] 圖片、影音瀏覽一套搞定:Fresh View (0則留言, 2005/09/27)
- [分享] 爸爸與女兒感人的美好時光,相鉄東急直通營運紀念廣告片 (0則留言, 2023/03/16)
- [Tools] 簡單錄製教學課程的HyperCam與e-Pointer (0則留言, 2005/08/14)
- 使用Subtitle Edit合併兩個.srt字幕檔的方法,讓播放時間自動調整 (0則留言, 2023/08/05)
- 失聰嬰兒第一次聽到聲音的喜悅-令人感動 (3則留言, 2010/06/05)
- 字幕編輯軟體Subtitle Edit的使用技巧 (0則留言, 2020/05/15)
- Filmora 12實務05-製作內嵌字幕的技巧 (0則留言, 2023/10/08)
- [AHK#36] 自製AutoSub圖形介面工具:AutoSub-AHK;Windows適用 (7則留言, 2020/05/15)
- 捕捉每次點擊:用Keyviz展示你的按鍵操作,讓教學影片更生動 (0則留言, 2024/04/07)
- [Ubuntu] 使用youtube-dl下載YouTube.com的影片 (0則留言, 2014/02/01)
Sorry, 很久沒用Google sc…