能使用GPU的OpenAI Whisper語音識別工具(ASR),超快超準確:WhisperDesktop

gh

和ChatGPT師出同門(OpenAI公司)的自動語音識別(ASR)工具-Whisper又有了新的增強:除了用C/C++改寫執行緩慢的Python外,也有高手幫它加上了翅膀-也能使用GPU執行了!

還在使用剪映上傳影片以取得字幕的朋友們,Whisper是離線執行,能充份保障影片隱私,現在又有了GPU的並行處理能力,不換Whiper更待何時?

可惜WihsperDesktop目前只有Windows版本,macOS與Linux的朋友們要再等一等。

1. 安裝與執行

  1. GitHub下載Zip檔後解壓縮即可
  2. 下載Model檔案,建議下載ggml-medium.bin檔案(1.5G),可在安裝資料夾建立 models 子目錄,將.bin檔存入
  3. 執行WhisperDesktop.exe,指定Model檔案,再逐一輸入資料後,按【Transcribe】即可產生需要的輸出格式

gh|700

2. 命令行

  • 須下載cli.zip
  • 命令行main.exe只接受音訊檔,因此先用 ffmpeg.exe 將影片檔轉轉換成.wav。
  • 音訊檔必須是16MHz
ffmpeg.exe -i "%~1" -ar 16000 -acodec pcm_s16le "%~1.wav"
  • 指定語音語言為中文(不指定則為auto自動偵測,可能會輸出成英文),輸出格式為.srt,使用medium模型
    main.exe -l zh -osrt -m models\ggml-medium.bin "%~1.wav"
  • 顯示在螢幕上的中文會是問號,但輸出檔案正常

3. 相關鏈接

4. 教學影片

##

您可能也會有興趣的類似文章

您可能也會喜歡…

9 個回應

  1. Giao表示:

    如果不玩 game 的話,請問有推薦實惠的顯卡嗎?
    選購上是先看 VRAM大小還是GPU能力?
    用途上是每段1.5-3小時英語的學術會議,想先得到英文逐字稿再依照領域專業順語意
    目前只用 Asus prime b660m-a wifi d4 內建顯示晶片算,得用9倍的時間 @@
    感謝樓主&各位看倌 ~

  2. 匿名訪客表示:

    感謝大大分享,
    請教如果不玩game,經費有限的情況下,推薦哪一張顯卡呢?
    我用 asus prime B660m 內建圖形晶片算,大概得花8倍的時間產出逐字稿,認真考慮要來找一塊顯卡 @@

  3. abc表示:

    不支援32位元作業系統嗎?

  4. KAME表示:

    只有大約前十分鐘是能夠翻譯 後面都會重複同一句 有方法嗎

    • 簡睿表示:

      換模型也不行嗎?我有轉過1個半小時都正常。真不行的話:
      1. 用命令行試試
      2. 切換影片成多個10分鐘再把文字檔或SRT檔合併起來

  5. CCC表示:

    這款速度非常快,美中不足的就是時間戳的樣式無法調整,但我不會命令行,不知道有沒有可能讓輸出的結果只要顯示每一行開始的時分秒就好,不用到秒後的時間、也不用當行結束的時間。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *