针对使用此工具来进行训练(非开发)
一.准备工作:
1.启动后台的数据集采集程序:
先执行java -version 确保使用的是java21,如果不是就输入sudo update-alternatives --config java 切换
后台:
cd /home/boying/IdeaProjects/asr_datasets
nohup java -jar AutoLabelASR > output.log 2>&1 &
前端:
控制台输入idea打开,启动AutoLabelASR项目,记得node选20.19,可以用nvm use 20.19.5命令,然后npm run dev会打开https接口
2.清库清文件
192.168.0.5的数据库asr_datasets每次重新训练时需要清库,不然会有之前已经训练好的重复数据,
同样cd /home/boying/IdeaProjects/asr_datasets 项目启动文件里的upload文件夹需要清空
3.进行采集
浏览器打开https://192.168.0.5:1443页面,输入要识别的正确文本,点击开始录音,录入文本对应的语音,
点击保存到数据库,每次录入建议100条以上,点击导出excel
二.训练流程:
1.文件生成:
vscode打开项目FunASRxl-0313,把导出的excel复制到根目录,命名为”音频标注数据.xlsx“,打开终端(右上角的切换面板),依次执行:
conda activate fun_asr_xl #切换虚拟环境
python gen_funasr_file.py #生成文件
执行完看data/train目录下有没有生成train_text.txt和train_wav.scp文件
把项目启动文件里的upload文件夹里的audio文件拷贝到data/train/wav目录下
2.开始训练:
分为paraformer和sensvoice两个模型训练,以后可能会多whisper和nano-2512,操作方法相同paraformer举例:
cd /home/boying/IdeaProjects/FunASRxl-0313/examples/industrial_data_pretraining/paraformer
./finetune.sh 会看到控制台输出:开始funasr
训练结束后会看到模型保存在xxx目录下,里面有很多model模型(因为有训练轮次,每一次都会生成模型),有个model.pt.best(最优模型)即可成功
需要把整个文件夹另存到别的目录,下一次训练会覆盖此目录,model只留best那个