能使用GPU的OpenAI Whisper語音識別工具(ASR)，超快超準確：WhisperDesktop

由簡睿 · 發表於: 2023/03/16 · 更新於: 2023/03/16 | 瀏覽數: 3 / 12197

標籤： OpenAI whisper youtube

和ChatGPT師出同門（OpenAI公司）的自動語音識別(ASR)工具－Whisper又有了新的增強：除了用C/C++改寫執行緩慢的Python外，也有高手幫它加上了翅膀－也能使用GPU執行了！

還在使用剪映上傳影片以取得字幕的朋友們，Whisper是離線執行，能充份保障影片隱私，現在又有了GPU的並行處理能力，不換Whiper更待何時？

可惜WihsperDesktop目前只有Windows版本，macOS與Linux的朋友們要再等一等。

1. 安裝與執行

由GitHub下載Zip檔後解壓縮即可
下載Model檔案，建議下載ggml-medium.bin檔案（1.5G），可在安裝資料夾建立 models 子目錄，將.bin檔存入
執行WhisperDesktop.exe，指定Model檔案，再逐一輸入資料後，按【Transcribe】即可產生需要的輸出格式

gh|700

2. 命令行

須下載cli.zip
命令行main.exe只接受音訊檔，因此先用 ffmpeg.exe 將影片檔轉轉換成.wav。
音訊檔必須是16MHz

ffmpeg.exe -i "%~1" -ar 16000 -acodec pcm_s16le "%~1.wav"

指定語音語言為中文(不指定則為auto自動偵測，可能會輸出成英文)，輸出格式為.srt，使用medium模型
```
main.exe -l zh -osrt -m models\ggml-medium.bin "%~1.wav"
```
顯示在螢幕上的中文會是問號，但輸出檔案正常

3. 相關鏈接

ffmpeg下載：https://ffmpeg.org/download.html
ggml檔案下載: https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main
WhisperDesktop Const-me/Whisper: High-performance GPGPU inference of OpenAI's Whisper automatic speech recognition (ASR) model
Whisper.cpp ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++
Buzz GitHub

4. 教學影片

＃＃

您可能也會有興趣的類似文章

能離線使用的語音識別工具：Buzz，使用OpenAI Whisper神經網路，正確率高 (0則留言, 2022/12/04)
SE003｜Subtitle Edit整合Whisper的使用步驟－快速AI語音轉文字 (0則留言, 2023/10/01)
SE004｜Subtitle Edit 製作雙語字幕的操作步驟 (0則留言, 2023/11/05)
[AHK#36] 自製AutoSub圖形介面工具：AutoSub-AHK；Windows適用 (7則留言, 2020/05/15)
捕捉每次點擊：用Keyviz展示你的按鍵操作，讓教學影片更生動 (0則留言, 2024/04/07)
[Ubuntu] 使用youtube-dl下載YouTube.com的影片 (0則留言, 2014/02/01)
歡迎參觀與訂閱YouTube新頻道：《簡睿軟體頻道》！ (0則留言, 2018/02/26)
Vrew2-【AI技術大揭密】從一句標題自動產出完整影片！腳本、配圖、語音、背景音樂一次搞定！ (0則留言, 2023/04/14)
B站生存手記 (0則留言, 2021/09/23)
Filmora 12實務04 | YouTuber必看！綜藝字製作技巧，讓你的影片更加精彩獨特！ (0則留言, 2023/04/02)
使用Subtitle Edit合併兩個.srt字幕檔的方法，讓播放時間自動調整 (0則留言, 2023/08/05)
YouTube播放清單影片排序的選擇 (0則留言, 2024/04/16)
AI 降噪！ 🙉 Krisp 測試：能有效遮蔽鍵盤打字聲嗎？ (0則留言, 2021/04/16)
字幕編輯軟體Subtitle Edit的使用技巧 (0則留言, 2020/05/15)
Filmora 12實務05-製作內嵌字幕的技巧 (0則留言, 2023/10/08)

您可能也會喜歡…

Giao表示:

2023/06/3012:39:48

如果不玩 game 的話，請問有推薦實惠的顯卡嗎?
選購上是先看 VRAM大小還是GPU能力?
用途上是每段1.5-3小時英語的學術會議，想先得到英文逐字稿再依照領域專業順語意
目前只用 Asus prime b660m-a wifi d4 內建顯示晶片算，得用9倍的時間 @@
感謝樓主&各位看倌 ~

回覆
- 簡睿表示:
  
  2023/07/0308:51:19
  
  抱歉無法推薦，我對硬體並不是太精通。
  
  回覆
匿名訪客表示:

2023/06/3000:35:57

感謝大大分享，
請教如果不玩game，經費有限的情況下，推薦哪一張顯卡呢？
我用 asus prime B660m 內建圖形晶片算，大概得花8倍的時間產出逐字稿，認真考慮要來找一塊顯卡 @@

回覆
abc表示:

2023/05/0816:17:45

不支援32位元作業系統嗎?

回覆
- 簡睿表示:
  
  2023/05/1122:08:20
  
  似乎只支援64-bit。
  
  回覆
KAME表示:

2023/04/1623:59:32

只有大約前十分鐘是能夠翻譯後面都會重複同一句有方法嗎

回覆
- 簡睿表示:
  
  2023/04/1900:02:49
  
  換模型也不行嗎？我有轉過1個半小時都正常。真不行的話:
  1. 用命令行試試
  2. 切換影片成多個10分鐘再把文字檔或SRT檔合併起來
  
  回覆
CCC表示:

2023/04/1009:58:28

這款速度非常快，美中不足的就是時間戳的樣式無法調整，但我不會命令行，不知道有沒有可能讓輸出的結果只要顯示每一行開始的時分秒就好，不用到秒後的時間、也不用當行結束的時間。

回覆
- 簡睿表示:
  
  2023/04/1212:16:22
  
  可以用Subtitlte Edit調整時間。可搜尋我的Blog或YouTube影片。
  
  回覆

能使用GPU的OpenAI Whisper語音識別工具(ASR)，超快超準確：WhisperDesktop

1. 安裝與執行

2. 命令行

3. 相關鏈接

4. 教學影片

您可能也會有興趣的類似文章

您可能也會喜歡…

9 個回應

發佈留言取消回覆

本日最熱門

最新留言

歷史排行榜

頁面

標籤雲

頁面鏈接

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

能使用GPU的OpenAI Whisper語音識別工具(ASR)，超快超準確：WhisperDesktop

1. 安裝與執行

2. 命令行

3. 相關鏈接

4. 教學影片

您可能也會有興趣的類似文章

您可能也會喜歡…

Vrew2-【AI技術大揭密】從一句標題自動產出完整影片！腳本、配圖、語音、背景音樂一次搞定！

獨立的YouTube播放器應用程式，適用於Windows、Mac與Ubuntu

Filmora 12實務04 | YouTuber必看！綜藝字製作技巧，讓你的影片更加精彩獨特！

9 個回應

發佈留言 取消回覆

本日最熱門

最新留言

歷史排行榜

頁面

發佈留言取消回覆