Whisper 是一个通用的语音识别模型。它在一个庞大的多样化音频数据集上进行训练,是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。仓库地址:openai/whisper。安装环境要求根据官方文档,开发人员采用了Python 3.9.9 和 PyTorch 1.10.1去开发和训练Whisper,但是同时也提到了支持Python 3.8-3.11和最近版本的PyTorch,这里以PyTorch 2.0.1版本和Python 3.10.12版本为例,操作系统版本为Ubuntu 20.04 LTS。依赖项最基础的依赖项是FFmpeg和Git。1apt install ffmpeg gitPython不再赘述,详情请看上篇文章:Ubuntu 下 Python 编译安装及关联问题解决。顺带提一嘴,Python换源:1pip configsetglobal.index-url https://pypi.tuna.tsinghua.edu.cn/simplePytorch我这里服务器没显卡,所以选择了CPU版本。实际情况请打开PyTorch下拉找到“INSTALL PYTORCH”根据自己实际情况选择,nvidia显卡选CUDA版本,AMD显卡选ROCm版本,都没有的选CPU版本。查看CUDA版本:在Shell或命令提示符输入nvidia-smi查看CUDA版本:12345678
...
继续阅读
(78)