有小伙伴私信到杜老师,询问语音转文字的方法。其实网上有很多此类的工具,不过大多数的工具都有时长限制,需要开通会员才能转换长时间的语音。本次为大家分享的工具,可以免费离线转换文字。
Whisper 是 GitHub 上一款开源程序,杜老师也是机缘巧合遇到的。
此工具仅支持 64 位架构,分为 GPU 版和 CPU 版本。
本次为小伙伴们分享的是 GPU 版本「需要独立显卡才能运行」如果需要 CPU 版本可在评论区留言。
该工具不仅可以将录制语音转为文字,还支持实时的转换,并可翻译文字。
在说明使用前,需要先下载好语音模型。Model 为模型名称,Disk 为模型大小,Mem 为预计显存占用:
Model | Disk | Mem |
---|---|---|
tiny | 75MB | 390MB |
base | 142MB | 500MB |
small | 466MB | 1.0GB |
medium | 1.5GB | 2.6GB |
large | 2.9GB | 4.7GB |
请根据自己显存选择对应的模型文件「模型越大识别的越精准」杜老师已将模型文件转存至网盘,小伙伴可打开链接后点击 ggml 目录,在右侧弹出的文件浏览框双击 ggml,选择模型右键下载即可:
下载地址打开工具后首先需加载模型,图中杜老师选择了最大那个,点击 OK 进入下一步「此步操作后可一劳永逸,再次进入软件会跳过这一步」
Language 选择 Chinese「中文识别」Translate 是转换后翻译成英文「这里不做勾选」Transcribe File 框选择要转换的语音文件,Output Format 选择输出的文本样式「其中 Text file 为普通文本,Text with timestamps 为带时间线,其余两个均为字幕文件」并在下方框中设置输出路径,点击 Transcribe 即开始转换:
转换后弹出完成提示框,关闭即可:
如需实时转换,可点击下方 Audio Capture,在切换的页面中点击 Capture,工具会弹出终端提示框,不断刷新转换后的文字「会有较长延迟」如需保存为文件需要勾选 Save to text file: