python/FunASR-XL.git

			@@ -1,12 +1,11 @@
			#!/usr/bin/env bash



			CUDA_VISIBLE_DEVICES="0,1"

			# general configuration
			feats_dir="../DATA" #feature output dictionary
			exp_dir="."
			exp_dir=`pwd`
			lang=zh
			token_type=char
			stage=0
			@@ -18,6 +17,7 @@
			inference_device="cuda" #"cpu"
			inference_checkpoint="model.pt"
			inference_scp="wav.scp"
			inference_batch_size=32

			# data
			raw_data=../raw_data
			@@ -39,7 +39,7 @@
			valid_set=dev
			test_sets="dev test"

			config=train_asr_paraformer_conformer_12e_6d_2048_256.yaml
			config=paraformer_conformer_12e_6d_2048_256.yaml
			model_dir="baseline_$(basename "${config}" .yaml)_${lang}_${token_type}_${tag}"


			@@ -105,10 +105,12 @@
			echo "stage 4: ASR Training"

			mkdir -p ${exp_dir}/exp/${model_dir}
			log_file="${exp_dir}/exp/${model_dir}/train.log.txt"
			current_time=$(date "+%Y-%m-%d_%H-%M")
			log_file="${exp_dir}/exp/${model_dir}/train.log.txt.${current_time}"
			echo "log_file: ${log_file}"

			gpu_num=$(echo CUDA_VISIBLE_DEVICES \| awk -F "," '{print NF}')
			export CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES
			gpu_num=$(echo $CUDA_VISIBLE_DEVICES \| awk -F "," '{print NF}')
			torchrun \
			--nnodes 1 \
			--nproc_per_node ${gpu_num} \
			@@ -128,21 +130,21 @@
			if [ ${stage} -le 5 ] && [ ${stop_stage} -ge 5 ]; then
			echo "stage 5: Inference"

			if ${inference_device} == "cuda"; then
			nj=$(echo CUDA_VISIBLE_DEVICES \| awk -F "," '{print NF}')
			if [ ${inference_device} == "cuda" ]; then
			nj=$(echo $CUDA_VISIBLE_DEVICES \| awk -F "," '{print NF}')
			else
			nj=$njob
			batch_size=1
			gpuid_list=""
			inference_batch_size=1
			CUDA_VISIBLE_DEVICES=""
			for JOB in $(seq ${nj}); do
			gpuid_list=CUDA_VISIBLE_DEVICES"-1,"
			CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES"-1,"
			done
			fi

			for dset in ${test_sets}; do

			inference_dir="${asr_exp}/${inference_checkpoint}/${dset}"
			inference_dir="${exp_dir}/exp/${model_dir}/inference-${inference_checkpoint}/${dset}"
			_logdir="${inference_dir}/logdir"
			echo "inference_dir: ${inference_dir}"

			mkdir -p "${_logdir}"
			data_dir="${feats_dir}/data/${dset}"
			@@ -154,8 +156,13 @@
			done
			utils/split_scp.pl "${key_file}" ${split_scps}

			gpuid_list_array=(${CUDA_VISIBLE_DEVICES//,/ })
			for JOB in $(seq ${nj}); do
			{
			id=$((JOB-1))
			gpuid=${gpuid_list_array[$id]}

			export CUDA_VISIBLE_DEVICES=${gpuid}
			python ../../../funasr/bin/inference.py \
			--config-path="${exp_dir}/exp/${model_dir}" \
			--config-name="config.yaml" \
			@@ -164,7 +171,10 @@
			++frontend_conf.cmvn_file="${feats_dir}/data/${train_set}/am.mvn" \
			++input="${_logdir}/keys.${JOB}.scp" \
			++output_dir="${inference_dir}/${JOB}" \
			++device="${inference_device}"
			++device="${inference_device}" \
			++ncpu=1 \
			++disable_log=true \
			++batch_size="${inference_batch_size}" &> ${_logdir}/log.${JOB}.txt
			}&

			done
			@@ -180,10 +190,10 @@
			done

			echo "Computing WER ..."
			cp ${inference_dir}/1best_recog/text ${inference_dir}/1best_recog/text.proc
			cp ${data_dir}/text ${inference_dir}/1best_recog/text.ref
			python utils/postprocess_text_zh.py ${inference_dir}/1best_recog/text ${inference_dir}/1best_recog/text.proc
			python utils/postprocess_text_zh.py ${data_dir}/text ${inference_dir}/1best_recog/text.ref
			python utils/compute_wer.py ${inference_dir}/1best_recog/text.ref ${inference_dir}/1best_recog/text.proc ${inference_dir}/1best_recog/text.cer
			tail -n 3 ${inference_dir}/1best_recog/text.cer
			done

			fi
			fi