python/FunASR-XL.git

FUNASR训练

parent: 27d2d3cc | 补丁 | 提交 | show whitespace

游雁

2024-04-15 90bc3ad02eee3745188be3960036ae3e9e746049

bugfix

3个文件已修改

	examples/industrial_data_pretraining/paraformer/finetune.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/sense_voice/model.py	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/tokenizer/char_tokenizer.py	3 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史

 examples/industrial_data_pretraining/paraformer/finetune.sh

@@ -10,7 +10,7 @@

## option 1, download model automatically
model_name_or_model_dir="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"

model_name_or_model_dir="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"

## option 2, download model by git
#local_path_root=${workspace}/modelscope_models

 funasr/models/sense_voice/model.py

@@ -96,9 +96,9 @@
        options = whisper.DecodingOptions(**DecodingOptions)
        
        result = whisper.decode(self.model, speech, options)

        text = f"{result.text}\n"
        results = []
        result_i = {"key": key[0], "text": result.text}
        result_i = {"key": key[0], "text": text}

        results.append(result_i)
    

 funasr/tokenizer/char_tokenizer.py

@@ -93,7 +93,8 @@
    return seg_dict

def seg_tokenize(txt, seg_dict):
    pattern = re.compile(r'^[\u4E00-\u9FA50-9]+$')
    # pattern = re.compile(r'^[\u4E00-\u9FA50-9]+$')
    pattern = re.compile(r"([\u4E00-\u9FA5A-Za-z0-9])")
    out_txt = ""
    for word in txt:
        word = word.lower()

			@@ -10,7 +10,7 @@

			## option 1, download model automatically
			model_name_or_model_dir="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"

			model_name_or_model_dir="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"

			## option 2, download model by git
			#local_path_root=${workspace}/modelscope_models

			@@ -96,9 +96,9 @@
			options = whisper.DecodingOptions(**DecodingOptions)

			result = whisper.decode(self.model, speech, options)

			text = f"{result.text}\n"
			results = []
			result_i = {"key": key[0], "text": result.text}
			result_i = {"key": key[0], "text": text}

			results.append(result_i)

			@@ -93,7 +93,8 @@
			return seg_dict

			def seg_tokenize(txt, seg_dict):
			pattern = re.compile(r'^[\u4E00-\u9FA50-9]+$')
			# pattern = re.compile(r'^[\u4E00-\u9FA50-9]+$')
			pattern = re.compile(r"([\u4E00-\u9FA5A-Za-z0-9])")
			out_txt = ""
			for word in txt:
			word = word.lower()