游雁
2024-04-15 90bc3ad02eee3745188be3960036ae3e9e746049
bugfix
3个文件已修改
9 ■■■■■ 已修改文件
examples/industrial_data_pretraining/paraformer/finetune.sh 2 ●●● 补丁 | 查看 | 原始文档 | blame | 历史
funasr/models/sense_voice/model.py 4 ●●●● 补丁 | 查看 | 原始文档 | blame | 历史
funasr/tokenizer/char_tokenizer.py 3 ●●●● 补丁 | 查看 | 原始文档 | blame | 历史
examples/industrial_data_pretraining/paraformer/finetune.sh
@@ -10,7 +10,7 @@
## option 1, download model automatically
model_name_or_model_dir="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model_name_or_model_dir="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
## option 2, download model by git
#local_path_root=${workspace}/modelscope_models
funasr/models/sense_voice/model.py
@@ -96,9 +96,9 @@
        options = whisper.DecodingOptions(**DecodingOptions)
        
        result = whisper.decode(self.model, speech, options)
        text = f"{result.text}\n"
        results = []
        result_i = {"key": key[0], "text": result.text}
        result_i = {"key": key[0], "text": text}
        results.append(result_i)
    
funasr/tokenizer/char_tokenizer.py
@@ -93,7 +93,8 @@
    return seg_dict
def seg_tokenize(txt, seg_dict):
    pattern = re.compile(r'^[\u4E00-\u9FA50-9]+$')
    # pattern = re.compile(r'^[\u4E00-\u9FA50-9]+$')
    pattern = re.compile(r"([\u4E00-\u9FA5A-Za-z0-9])")
    out_txt = ""
    for word in txt:
        word = word.lower()