O PyVideoTrans oferece suporte a uma variedade de modelos de reconhecimento de voz (Automatic Speech Recognition - ASR) para transcrição. Abaixo estão as instruções e links para download dos modelos disponíveis.
Para sua conveniência, você pode baixar todos os modelos de reconhecimento de voz em um único arquivo:
- Baixar todos os modelos de reconhecimento de voz: https://github.com/jianchang512/stt/releases/tag/0.0
Os modelos Faster Whisper são otimizados para velocidade e desempenho.
- Baixe o modelo desejado da lista abaixo.
- Extraia o arquivo baixado.
- Copie a pasta extraída, para o diretório
models
do PyVideoTrans.
Nome do Modelo | Tamanho | Link para Download | Mirrors |
---|---|---|---|
tiny | 64MB | GitHub Link | |
tiny.en | 64MB | GitHub Link | |
base | 124MB | GitHub Link | |
base.en | 124MB | GitHub Link | |
small | 415MB | GitHub Link | Baidu Netdisk |
small.en | 415MB | GitHub Link | |
medium | 1.27G | GitHub Link | |
medium.en | 1.27G | GitHub Link | |
large-v1 | - | Hugging Face Link | Baidu Netdisk |
large-v2 | - | Hugging Face Link | Baidu Netdisk |
large-v3 | - | Hugging Face Link | Baidu Netdisk |
distil-whisper-small.en | 282MB | GitHub Link | |
distil-whisper-medium.en | 671MB | GitHub Link | |
distil-medium | - | Baidu Netdisk | |
distil-whisper-large-v2 | 1.27G | GitHub Link | |
distil-large-v2 | - | Baidu Netdisk | |
distil-whisper-large-v3 | 1.3G | GitHub Link | Baidu Netdisk |
Após copiar os modelos para o diretório models
, você deverá ter as seguintes pastas:
models
├── models--Systran--faster-whisper-base
├── models--Systran--faster-whisper-small
├── models--Systran--faster-whisper-medium
├── models--Systran--faster-whisper-large-v2
└── models--Systran--faster-whisper-large-v3
Os modelos OpenAI Whisper são conhecidos por sua precisão e qualidade de transcrição.
- Baixe o arquivo
.pt
do modelo desejado da lista abaixo. - Copie o arquivo
.pt
diretamente para o diretóriomodels
.
Nome do Modelo | Tamanho | Link para Download |
---|---|---|
tiny | 66 MB | Download Link |
tiny.en | 74 MB | Download Link |
base | 142 MB | Download Link |
base.en | 155 MB | Download Link |
small | 500 MB | Download Link |
small.en | 518 MB | Download Link |
medium | 1.5 GB | Download Link |
medium.en | 1.6 GB | Download Link |
large-v1 | 2.9 GB | Download Link |
large-v2 | 2.9 GB | Download Link |
large-v3 | 3 GB | Download Link |
Obs: Se ao invés de um arquivo .pt
você baixar um arquivo .zip
, basta renomear o arquivo .zip
para .pt
.
Após copiar os modelos para o diretório models
, você deverá ter os seguintes arquivos:
models
├── tiny.pt
├── tiny.en.pt
├── base.pt
├── base.en.pt
├── small.pt
├── small.en.pt
├── medium.pt
├── medium.en.pt
├── large-v1.pt
├── large-v2.pt
└── large-v3.pt
O modelo UVR5 é um modelo de reconhecimento de voz específico para o idioma chinês.
- Baixe o modelo UVR5: https://github.com/jianchang512/stt/releases/download/0.0/uvr5-model.7z
- Extraia o arquivo baixado.
- Copie a pasta
uvr5_weights
para o diretório raiz da instalação do PyVideoTrans (onde está localizado o arquivopyvideotrans.exe
).
Se você possui uma placa de vídeo NVIDIA compatível com CUDA e deseja habilitar a aceleração por GPU no PyVideoTrans, precisará baixar as bibliotecas cuBLAS e cuDNN.
- Verifique a versão do seu CUDA executando o comando
nvcc -V
no terminal. - Baixe as bibliotecas correspondentes à sua versão do CUDA:
- CUDA 11.x: cuBLAS e cuDNN
- CUDA 12.x: cuBLAS e cuDNN
- Extraia os arquivos baixados.
- Copie os arquivos
.dll
para o diretórioC:/Windows/System32
ou para o diretório raiz do PyVideoTrans.
Se você encontrar erros como "cublasxxx.dll não existe" ou o software travar após habilitar a aceleração CUDA, siga estas etapas:
- Verifique se você baixou as bibliotecas cuBLAS e cuDNN corretas para a sua versão do CUDA.
- Certifique-se de que os arquivos
.dll
foram copiados para o local correto (C:/Windows/System32
ou o diretório raiz do PyVideoTrans). - Reinicie o computador e tente executar o PyVideoTrans novamente.
Se o problema persistir, consulte a documentação do PyVideoTrans ou busque ajuda nos fóruns de suporte.