python/FunASR-XL.git

parent: 37d7764e | 补丁 | 提交 | ignore whitespace

zhifu gao

2024-01-22 1159adbca076fa1a33bf4292ec5043e536285c5c

funasr1.0 update (#1278)

11个文件已修改

	README.md	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	README_zh.md	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/bicif_paraformer/demo.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/bicif_paraformer/infer.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer-zh-spk/demo.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer-zh-spk/infer.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer/demo.py	7 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/seaco_paraformer/demo.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/seaco_paraformer/infer.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/auto/auto_model.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/paraformer/model.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史

 README.md

@@ -93,7 +93,7 @@
# use vad, punc, spk or not as you need
model = AutoModel(model="paraformer-zh", model_revision="v2.0.2",
                  vad_model="fsmn-vad", vad_model_revision="v2.0.2",
                  punc_model="ct-punc-c", punc_model_revision="v2.0.2",
                  punc_model="ct-punc-c", punc_model_revision="v2.0.3",
                  # spk_model="cam++", spk_model_revision="v2.0.2",
                  )
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", 

 README_zh.md

@@ -89,7 +89,7 @@
# use vad, punc, spk or not as you need
model = AutoModel(model="paraformer-zh", model_revision="v2.0.2",
                  vad_model="fsmn-vad", vad_model_revision="v2.0.2",
                  punc_model="ct-punc-c", punc_model_revision="v2.0.2",
                  punc_model="ct-punc-c", punc_model_revision="v2.0.3",
                  # spk_model="cam++", spk_model_revision="v2.0.2",
                  )
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", 

 examples/industrial_data_pretraining/bicif_paraformer/demo.py

@@ -10,7 +10,7 @@
                  vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch",
                  vad_model_revision="v2.0.2",
                  punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
                  punc_model_revision="v2.0.2",
                  punc_model_revision="v2.0.3",
                  spk_model="damo/speech_campplus_sv_zh-cn_16k-common",
                  spk_model_revision="v2.0.2",
                  )

 examples/industrial_data_pretraining/bicif_paraformer/infer.sh

@@ -4,7 +4,7 @@
vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch"
vad_model_revision="v2.0.2"
punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
punc_model_revision="v2.0.2"
punc_model_revision="v2.0.3"
spk_model="damo/speech_campplus_sv_zh-cn_16k-common"
spk_model_revision="v2.0.2"


 examples/industrial_data_pretraining/paraformer-zh-spk/demo.py

@@ -10,7 +10,7 @@
                  vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch",
                  vad_model_revision="v2.0.2",
                  punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
                  punc_model_revision="v2.0.2",
                  punc_model_revision="v2.0.3",
                  spk_model="damo/speech_campplus_sv_zh-cn_16k-common",
                  spk_model_revision="v2.0.2"
                  )

 examples/industrial_data_pretraining/paraformer-zh-spk/infer.sh

@@ -4,7 +4,7 @@
vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch"
vad_model_revision="v2.0.2"
punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
punc_model_revision="v2.0.2"
punc_model_revision="v2.0.3"
spk_model="damo/speech_campplus_sv_zh-cn_16k-common"
spk_model_revision="v2.0.2"


 examples/industrial_data_pretraining/paraformer/demo.py

@@ -5,7 +5,12 @@

from funasr import AutoModel

model = AutoModel(model="damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.2")
model = AutoModel(model="damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.3",
                  # vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch",
                  # vad_model_revision="v2.0.2",
                  # punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
                  # punc_model_revision="v2.0.3",
                  )

res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav")
print(res)

 examples/industrial_data_pretraining/seaco_paraformer/demo.py

@@ -10,7 +10,7 @@
                  vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch",
                  vad_model_revision="v2.0.2",
                  punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
                  punc_model_revision="v2.0.2",
                  punc_model_revision="v2.0.3",
                  spk_model="damo/speech_campplus_sv_zh-cn_16k-common",
                  spk_model_revision="v2.0.2",
                  )

 examples/industrial_data_pretraining/seaco_paraformer/infer.sh

@@ -4,7 +4,7 @@
vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch"
vad_model_revision="v2.0.2"
punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
punc_model_revision="v2.0.2"
punc_model_revision="v2.0.3"

python funasr/bin/inference.py \
+model=${model} \

 funasr/auto/auto_model.py

@@ -391,7 +391,7 @@
            if self.punc_model is not None:
                self.punc_kwargs.update(cfg)
                punc_res = self.inference(result["text"], model=self.punc_model, kwargs=self.punc_kwargs, **cfg)
                result["text_with_punc"] = punc_res[0]["text"]
                result["text"] = punc_res[0]["text"]
                     
            # speaker embedding cluster after resorted
            if self.spk_model is not None:

 funasr/models/paraformer/model.py

@@ -451,7 +451,7 @@
            self.nbest = kwargs.get("nbest", 1)
        
        meta_data = {}
        if isinstance(data_in, torch.Tensor): # fbank
        if isinstance(data_in, torch.Tensor) and kwargs.get("data_type", "sound") == "fbank": # fbank
            speech, speech_lengths = data_in, data_lengths
            if len(speech.shape) < 3:
                speech = speech[None, :, :]

			@@ -93,7 +93,7 @@
			# use vad, punc, spk or not as you need
			model = AutoModel(model="paraformer-zh", model_revision="v2.0.2",
			vad_model="fsmn-vad", vad_model_revision="v2.0.2",
			punc_model="ct-punc-c", punc_model_revision="v2.0.2",
			punc_model="ct-punc-c", punc_model_revision="v2.0.3",
			# spk_model="cam++", spk_model_revision="v2.0.2",
			)
			res = model.generate(input=f"{model.model_path}/example/asr_example.wav",

			@@ -89,7 +89,7 @@
			# use vad, punc, spk or not as you need
			model = AutoModel(model="paraformer-zh", model_revision="v2.0.2",
			vad_model="fsmn-vad", vad_model_revision="v2.0.2",
			punc_model="ct-punc-c", punc_model_revision="v2.0.2",
			punc_model="ct-punc-c", punc_model_revision="v2.0.3",
			# spk_model="cam++", spk_model_revision="v2.0.2",
			)
			res = model.generate(input=f"{model.model_path}/example/asr_example.wav",

			@@ -10,7 +10,7 @@
			vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch",
			vad_model_revision="v2.0.2",
			punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
			punc_model_revision="v2.0.2",
			punc_model_revision="v2.0.3",
			spk_model="damo/speech_campplus_sv_zh-cn_16k-common",
			spk_model_revision="v2.0.2",
			)

			@@ -4,7 +4,7 @@
			vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch"
			vad_model_revision="v2.0.2"
			punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
			punc_model_revision="v2.0.2"
			punc_model_revision="v2.0.3"
			spk_model="damo/speech_campplus_sv_zh-cn_16k-common"
			spk_model_revision="v2.0.2"

			@@ -5,7 +5,12 @@

			from funasr import AutoModel

			model = AutoModel(model="damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.2")
			model = AutoModel(model="damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.3",
			# vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch",
			# vad_model_revision="v2.0.2",
			# punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
			# punc_model_revision="v2.0.3",
			)

			res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav")
			print(res)

			@@ -391,7 +391,7 @@
			if self.punc_model is not None:
			self.punc_kwargs.update(cfg)
			punc_res = self.inference(result["text"], model=self.punc_model, kwargs=self.punc_kwargs, **cfg)
			result["text_with_punc"] = punc_res[0]["text"]
			result["text"] = punc_res[0]["text"]

			# speaker embedding cluster after resorted
			if self.spk_model is not None:

			@@ -451,7 +451,7 @@
			self.nbest = kwargs.get("nbest", 1)

			meta_data = {}
			if isinstance(data_in, torch.Tensor): # fbank
			if isinstance(data_in, torch.Tensor) and kwargs.get("data_type", "sound") == "fbank": # fbank
			speech, speech_lengths = data_in, data_lengths
			if len(speech.shape) < 3:
			speech = speech[None, :, :]