文章

GPT-SoVITS,克隆聲音,一分鐘就可以複製你的聲音.

GPT-SoVITS

GPT-SoVITS

官方的Github 連結

這個專案在一月中開始之後有一直在注意,今天來實作一下.

專案主 是 billbill 的花月不哭

當初發布的時候的video

這邊有一篇他的文章也可以參考

當初 2,3 百個 start 到了現在已經有 15.3K 的 start 是真的蠻厲害的.

這個專案把整個流程整合成為一個 webGUI 的方式做整合.

現在試玩後,對於克隆出來的聲音因該說堪用但是還是聽得出來是機器產出的,但是對於訓練出來的聲音可以使用不同的語言這個部分就蠻驚訝的.

對於商用的部分可能有幾個方式可以參考或是來玩看看

  1. 語言教學方面

  2. 即時多語言翻譯語音

  • 可能搭配小的語言模型 7B 因該就夠用
  1. 說故事頻道
  • 搭配圖片輸出做 Youtube
  • Procast 方式?
  • 最可能的方式大概是小孩市場
  1. 語音客服
  • 這個可能就要跟企業端坐客製
  1. 心靈健康
  • 衍伸方面可能是心靈部分 包含陪伴跟情感
  • 冥想也是一個
  • 打發無聊也是
  • 以上這些可能就需要大一點的模型 可能還是串接 chatGPT 才可能有好的效果,語音在這事會比文字更好的訊息媒介.

記錄一下 Mac 安裝方式

基礎條件

搭載 Apple 晶片的 Mac

macOS 12.3 或更高版本

已透過運行 xcode-select –install 安裝 Xcode command-line tools

安裝 anaconda

先前往 anaconda 下載

anaconda

然後更新一下

1
conda update conda

安裝 ffmpeg

1
2
brew install ffmpeg
ffmpeg -version

這個要確定版本要大於 6.1

環境設定

git clone https://github.com/RVC-Boss/GPT-SoVITS.git

1
2
3
4
5
6
7
8
9
10
git clone https://github.com/RVC-Boss/GPT-SoVITS.git

cd GPT-SoVITS

conda create -n GPTSoVits python=3.9

conda activate GPTSoVits

bash install.sh

這邊要注意 因為用 bash 安裝的時候 他會安裝 ffmapg 會是舊的 4.1 版本

1
2
conda list ffmpeg
conda remove ffmpeg

看一下版本有的話就移除

啟動

1
pyhton webui.py

webui

素材準備

聲音獲取並且提取人聲

工具裡面第一個是 UVR5 這個是一個 opensource 的聲音樂器分離的工具 可以看他的github

如果錄音的時候直接只有一個人聲就不需要另外提取

這邊要注意到 一次就是一個聲音不能一次兩個不同聲音來訓練

聲音切片

自動語音識別 ASR

語音本文

訓練

推理

本文章以 CC BY 4.0 授權