python/FunASR-XL.git

			@@ -70,6 +70,34 @@


			#### 非实时语音识别
			##### SenseVoice
			```python
			from funasr import AutoModel
			from funasr.utils.postprocess_utils import rich_transcription_postprocess

			model_dir = "iic/SenseVoiceSmall"

			model = AutoModel(
			model=model_dir,
			vad_model="fsmn-vad",
			vad_kwargs={"max_single_segment_time": 30000},
			device="cuda:0",
			)

			# en
			res = model.generate(
			input=f"{model.model_path}/example/en.mp3",
			cache={},
			language="auto", # "zn", "en", "yue", "ja", "ko", "nospeech"
			use_itn=True,
			batch_size_s=60,
			merge_vad=True, #
			merge_length_s=15,
			)
			text = rich_transcription_postprocess(res[0]["text"])
			print(text)
			```
			##### Paraformer
			```python
			from funasr import AutoModel
			# paraformer-zh is a multi-functional asr model
			@@ -131,7 +159,7 @@

			model = AutoModel(model="fsmn-vad")

			wav_file = f"{model.model_path}/example/asr_example.wav"
			wav_file = f"{model.model_path}/example/vad_example.wav"
			res = model.generate(input=wav_file)
			print(res)
			```
			@@ -225,7 +253,7 @@
			++train_conf.validate_interval=2000 \
			++train_conf.save_checkpoint_interval=2000 \
			++train_conf.keep_nbest_models=20 \
			++train_conf.avg_nbest_model=5 \
			++train_conf.avg_nbest_model=10 \
			++optim_conf.lr=0.0002 \
			++output_dir="${output_dir}" &> ${log_file}
			```
			@@ -242,7 +270,7 @@
			- `train_conf.save_checkpoint_interval`（int）：`5000`（默认），训练中模型保存间隔step数。
			- `train_conf.avg_keep_nbest_models_type`（str）：`acc`（默认），保留nbest的标准为acc（越大越好）。`loss`表示，保留nbest的标准为loss（越小越好）。
			- `train_conf.keep_nbest_models`（int）：`500`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 保留最佳的n个模型，其他删除，节约存储空间。
			- `train_conf.avg_nbest_model`（int）：`5`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
			- `train_conf.avg_nbest_model`（int）：`10`（默认），保留最大多少个模型参数，配合 `avg_keep_nbest_models_type` 按照验证集 acc/loss 对最佳的n个模型平均。
			- `train_conf.accum_grad`（int）：`1`（默认），梯度累积功能。
			- `train_conf.grad_clip`（float）：`10.0`（默认），梯度截断功能。
			- `train_conf.use_fp16`（bool）：`False`（默认），开启fp16训练，加快训练速度。
			@@ -256,10 +284,10 @@
			export CUDA_VISIBLE_DEVICES="0,1"
			gpu_num=$(echo $CUDA_VISIBLE_DEVICES \| awk -F "," '{print NF}')

			torchrun --nnodes 1 --nproc_per_node ${gpu_num} \
			torchrun --nnodes 1 --nproc_per_node ${gpu_num} --master_port 12345 \
			../../../funasr/bin/train.py ${train_args}
			```
			--nnodes 表示参与的节点总数，--nproc_per_node 表示每个节点上运行的进程数
			--nnodes 表示参与的节点总数，--nproc_per_node 表示每个节点上运行的进程数，--master_port 表示端口号

			##### 多机多gpu训练

			@@ -268,7 +296,7 @@
			export CUDA_VISIBLE_DEVICES="0,1"
			gpu_num=$(echo $CUDA_VISIBLE_DEVICES \| awk -F "," '{print NF}')

			torchrun --nnodes 2 --node_rank 0 --nproc_per_node ${gpu_num} --master_addr=192.168.1.1 --master_port=12345 \
			torchrun --nnodes 2 --node_rank 0 --nproc_per_node ${gpu_num} --master_addr 192.168.1.1 --master_port 12345 \
			../../../funasr/bin/train.py ${train_args}
			```
			在从节点上（假设IP为192.168.1.2），你需要确保MASTER_ADDR和MASTER_PORT环境变量与主节点设置的一致，并运行同样的命令：
			@@ -276,11 +304,11 @@
			export CUDA_VISIBLE_DEVICES="0,1"
			gpu_num=$(echo $CUDA_VISIBLE_DEVICES \| awk -F "," '{print NF}')

			torchrun --nnodes 2 --node_rank 1 --nproc_per_node ${gpu_num} --master_addr=192.168.1.1 --master_port=12345 \
			torchrun --nnodes 2 --node_rank 1 --nproc_per_node ${gpu_num} --master_addr 192.168.1.1 --master_port 12345 \
			../../../funasr/bin/train.py ${train_args}
			```

			--nnodes 表示参与的节点总数，--node_rank 表示当前节点id，--nproc_per_node 表示每个节点上运行的进程数（通常为gpu个数）
			--nnodes 表示参与的节点总数，--node_rank 表示当前节点id，--nproc_per_node 表示每个节点上运行的进程数（通常为gpu个数），--master_port 表示端口号

			#### 准备数据