python/FunASR-XL.git

FUNASR训练

parent: 87f9f2ba | 补丁 | 提交 | ignore whitespace

嘉渊

2023-05-17 33693c4182793960f154c040bbd5ba092370e83b

update repo

4个文件已修改

	egs/aishell/conformer/conf/train_asr_conformer.yaml	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	egs/aishell2/conformer/run.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	egs/aishell2/data2vec_pretrain/run.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	egs/alimeeting/sa-asr/conf/train_sa_asr_conformer.yaml	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史

 egs/aishell/conformer/conf/train_asr_conformer.yaml

@@ -83,6 +83,8 @@
    num_time_mask: 2

dataset_conf:
    data_names: speech,text
    data_types: sound,text
    shuffle: True
    shuffle_conf:
        shuffle_size: 2048
@@ -93,4 +95,4 @@
    num_workers: 8

log_interval: 50
normalize: None
normalize: None

 egs/aishell2/conformer/run.sh

@@ -103,8 +103,6 @@
    utils/text2token.py -s 1 -n 1 --space "" ${feats_dir}/data/${train_set}/text | cut -f 2- -d" " | tr " " "\n" \
        | sort | uniq | grep -a -v -e '^\s*$' | awk '{print $0}' >> ${token_list}
    echo "<unk>" >> ${token_list}
    mkdir -p ${feats_dir}/asr_stats_fbank_zh_char/${train_set}
    mkdir -p ${feats_dir}/asr_stats_fbank_zh_char/${valid_set}
 fi

# LM Training Stage

 egs/aishell2/data2vec_pretrain/run.sh

@@ -82,8 +82,6 @@
    utils/text2token.py -s 1 -n 1 --space "" ${feats_dir}/data/${train_set}/text | cut -f 2- -d" " | tr " " "\n" \
        | sort | uniq | grep -a -v -e '^\s*$' | awk '{print $0}' >> ${token_list}
    echo "<unk>" >> ${token_list}
    mkdir -p ${feats_dir}/asr_stats_fbank_zh_char/${train_set}
    mkdir -p ${feats_dir}/asr_stats_fbank_zh_char/${valid_set}
 fi

# Training Stage

 egs/alimeeting/sa-asr/conf/train_sa_asr_conformer.yaml

@@ -43,7 +43,6 @@
  pooling_type: statistic
  num_nodes_resnet1: 256
  num_nodes_last_layer: 256
  batchnorm_momentum: 0.5

# decoder related
decoder: sa_decoder

			@@ -83,6 +83,8 @@
			num_time_mask: 2

			dataset_conf:
			data_names: speech,text
			data_types: sound,text
			shuffle: True
			shuffle_conf:
			shuffle_size: 2048
			@@ -93,4 +95,4 @@
			num_workers: 8

			log_interval: 50
			normalize: None
			normalize: None

			@@ -103,8 +103,6 @@
			utils/text2token.py -s 1 -n 1 --space "" ${feats_dir}/data/${train_set}/text \| cut -f 2- -d" " \| tr " " "\n" \
			\| sort \| uniq \| grep -a -v -e '^\s*$' \| awk '{print $0}' >> ${token_list}
			echo "<unk>" >> ${token_list}
			mkdir -p ${feats_dir}/asr_stats_fbank_zh_char/${train_set}
			mkdir -p ${feats_dir}/asr_stats_fbank_zh_char/${valid_set}
			fi

			# LM Training Stage

			@@ -82,8 +82,6 @@
			utils/text2token.py -s 1 -n 1 --space "" ${feats_dir}/data/${train_set}/text \| cut -f 2- -d" " \| tr " " "\n" \
			\| sort \| uniq \| grep -a -v -e '^\s*$' \| awk '{print $0}' >> ${token_list}
			echo "<unk>" >> ${token_list}
			mkdir -p ${feats_dir}/asr_stats_fbank_zh_char/${train_set}
			mkdir -p ${feats_dir}/asr_stats_fbank_zh_char/${valid_set}
			fi

			# Training Stage

			@@ -43,7 +43,6 @@
			pooling_type: statistic
			num_nodes_resnet1: 256
			num_nodes_last_layer: 256
			batchnorm_momentum: 0.5

			# decoder related
			decoder: sa_decoder