python/FunASR-XL.git

parent: 8c1016ca | 补丁 | 提交 | show whitespace

游雁

2024-03-25 447222c00e545906879364c641846f399290dcee

install requirements automatically

50个文件已修改

	examples/common_voice/whisper_lid/demo_funasr.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/common_voice/whisper_lid/demo_modelscope.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/bicif_paraformer/demo.py	6 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/bicif_paraformer/demo.sh	6 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/bicif_paraformer/export.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/bicif_paraformer/export.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/bicif_paraformer/finetune.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/conformer/demo.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/conformer/demo.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/contextual_paraformer/demo.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/contextual_paraformer/demo.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/contextual_paraformer/finetune.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/ct_transformer/demo.py	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/ct_transformer/demo.sh	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/ct_transformer/export.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/ct_transformer/export.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/ct_transformer_streaming/demo.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/ct_transformer_streaming/demo.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/ct_transformer_streaming/export.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/ct_transformer_streaming/export.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/emotion2vec/demo.py	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/fsmn_vad_streaming/demo.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/fsmn_vad_streaming/demo.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/fsmn_vad_streaming/export.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/fsmn_vad_streaming/export.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/monotonic_aligner/demo.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/monotonic_aligner/demo.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer-zh-spk/demo.py	6 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer-zh-spk/demo.sh	6 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer/demo.py	8 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer/export.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer/export.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer/finetune.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer/infer.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer_streaming/demo.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer_streaming/demo.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer_streaming/export.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer_streaming/export.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer_streaming/finetune.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/scama/demo.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/scama/demo.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/seaco_paraformer/demo.py	6 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/seaco_paraformer/demo.sh	6 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/uniasr/demo.py	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/uniasr/demo.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/whisper/infer.sh	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/auto/auto_model.py	6 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/download/download_from_hub.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/llm_asr/model.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/llm_asr_nar/model.py	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史

 examples/common_voice/whisper_lid/demo_funasr.py

@@ -12,7 +12,7 @@
    "example_ko.mp3",
]

model = AutoModel(model="iic/speech_whisper-large_lid_multilingual_pytorch", model_revision="v2.0.4")
model = AutoModel(model="iic/speech_whisper-large_lid_multilingual_pytorch", model_revision="master")
for wav_id in multilingual_wavs:
    wav_file = f"{model.model_path}/examples/{wav_id}"
    res = model.generate(input=wav_file, data_type="sound", inference_clip_length=250)

 examples/common_voice/whisper_lid/demo_modelscope.py

@@ -15,7 +15,7 @@

inference_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='iic/speech_whisper-large_lid_multilingual_pytorch', model_revision="v2.0.4")
    model='iic/speech_whisper-large_lid_multilingual_pytorch', model_revision="master")

for wav in multilingual_wavs:
    rec_result = inference_pipeline(input=wav, inference_clip_length=250)

 examples/industrial_data_pretraining/bicif_paraformer/demo.py

@@ -6,11 +6,11 @@
from funasr import AutoModel

model = AutoModel(model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
                  model_revision="v2.0.4",
                  model_revision="master",
                  vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
                  vad_model_revision="v2.0.4",
                  vad_model_revision="master",
                  punc_model="iic/punc_ct-transformer_cn-en-common-vocab471067-large",
                  punc_model_revision="v2.0.4",
                  punc_model_revision="master",
                  # spk_model="iic/speech_campplus_sv_zh-cn_16k-common",
                  # spk_model_revision="v2.0.2",
                  )

 examples/industrial_data_pretraining/bicif_paraformer/demo.sh

@@ -1,11 +1,11 @@

model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model_revision="v2.0.4"
model_revision="master"
vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch"
vad_model_revision="v2.0.4"
vad_model_revision="master"
#punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
punc_model="iic/punc_ct-transformer_cn-en-common-vocab471067-large"
punc_model_revision="v2.0.4"
punc_model_revision="master"
spk_model="iic/speech_campplus_sv_zh-cn_16k-common"
spk_model_revision="v2.0.2"


 examples/industrial_data_pretraining/bicif_paraformer/export.py

@@ -8,7 +8,7 @@
from funasr import AutoModel

model = AutoModel(model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
                  model_revision="v2.0.4", device="cpu")
                  model_revision="master", device="cpu")

res = model.export(type="onnx", quantize=False)
print(res)

 examples/industrial_data_pretraining/bicif_paraformer/export.sh

@@ -6,7 +6,7 @@


model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model_revision="v2.0.4"
model_revision="master"

python -m funasr.bin.export \
++model=${model} \

 examples/industrial_data_pretraining/bicif_paraformer/finetune.sh

@@ -11,7 +11,7 @@

## option 1, download model automatically
model_name_or_model_dir="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model_revision="v2.0.4"
model_revision="master"

## option 2, download model by git
#local_path_root=${workspace}/modelscope_models

 examples/industrial_data_pretraining/conformer/demo.py

@@ -5,7 +5,7 @@

from funasr import AutoModel

model = AutoModel(model="iic/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch", model_revision="v2.0.4",
model = AutoModel(model="iic/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch", model_revision="master",
                  )

res = model.generate(input="https://modelscope.oss-cn-beijing.aliyuncs.com/test/audios/asr_example.wav")

 examples/industrial_data_pretraining/conformer/demo.sh

@@ -1,6 +1,6 @@

model="iic/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch"
model_revision="v2.0.4"
model_revision="master"

python funasr/bin/inference.py \
+model=${model} \

 examples/industrial_data_pretraining/contextual_paraformer/demo.py

@@ -5,7 +5,7 @@

from funasr import AutoModel

model = AutoModel(model="iic/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404", model_revision="v2.0.4")
model = AutoModel(model="iic/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404", model_revision="master")

res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav",
            hotword='达摩院 魔搭')

 examples/industrial_data_pretraining/contextual_paraformer/demo.sh

@@ -1,6 +1,6 @@

model="iic/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404"
model_revision="v2.0.4"
model_revision="master"

python ../../../funasr/bin/inference.py \
+model=${model} \

 examples/industrial_data_pretraining/contextual_paraformer/finetune.sh

@@ -11,7 +11,7 @@

## option 1, download model automatically
model_name_or_model_dir="iic/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404"
model_revision="v2.0.4"
model_revision="master"

## option 2, download model by git
#local_path_root=${workspace}/modelscope_models

 examples/industrial_data_pretraining/ct_transformer/demo.py

@@ -5,7 +5,7 @@

from funasr import AutoModel

model = AutoModel(model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch", model_revision="v2.0.4")
model = AutoModel(model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch", model_revision="master")

res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_text/punc_example.txt")
print(res)
@@ -13,7 +13,7 @@

from funasr import AutoModel

model = AutoModel(model="iic/punc_ct-transformer_cn-en-common-vocab471067-large", model_revision="v2.0.4")
model = AutoModel(model="iic/punc_ct-transformer_cn-en-common-vocab471067-large", model_revision="master")

res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_text/punc_example.txt")
print(res)

 examples/industrial_data_pretraining/ct_transformer/demo.sh

@@ -1,9 +1,9 @@

#model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
#model_revision="v2.0.4"
#model_revision="master"

model="iic/punc_ct-transformer_cn-en-common-vocab471067-large"
model_revision="v2.0.4"
model_revision="master"

python funasr/bin/inference.py \
+model=${model} \

 examples/industrial_data_pretraining/ct_transformer/export.py

@@ -8,7 +8,7 @@
from funasr import AutoModel

model = AutoModel(model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
                  model_revision="v2.0.4")
                  model_revision="master")

res = model.export(type="onnx", quantize=False)
print(res)

 examples/industrial_data_pretraining/ct_transformer/export.sh

@@ -6,7 +6,7 @@


model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
model_revision="v2.0.4"
model_revision="master"

python -m funasr.bin.export \
++model=${model} \

 examples/industrial_data_pretraining/ct_transformer_streaming/demo.py

@@ -5,7 +5,7 @@

from funasr import AutoModel

model = AutoModel(model="iic/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727", model_revision="v2.0.4")
model = AutoModel(model="iic/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727", model_revision="master")

inputs = "跨境河流是养育沿岸|人民的生命之源长期以来为帮助下游地区防灾减灾中方技术人员|在上游地区极为恶劣的自然条件下克服巨大困难甚至冒着生命危险|向印方提供汛期水文资料处理紧急事件中方重视印方在跨境河流问题上的关切|愿意进一步完善双方联合工作机制|凡是|中方能做的我们|都会去做而且会做得更好我请印度朋友们放心中国在上游的|任何开发利用都会经过科学|规划和论证兼顾上下游的利益"
vads = inputs.split("|")

 examples/industrial_data_pretraining/ct_transformer_streaming/demo.sh

@@ -1,6 +1,6 @@

model="iic/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727"
model_revision="v2.0.4"
model_revision="master"

python funasr/bin/inference.py \
+model=${model} \

 examples/industrial_data_pretraining/ct_transformer_streaming/export.py

@@ -8,7 +8,7 @@
from funasr import AutoModel

model = AutoModel(model="iic/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727",
                  model_revision="v2.0.4")
                  model_revision="master")

res = model.export(type="onnx", quantize=False)
print(res)

 examples/industrial_data_pretraining/ct_transformer_streaming/export.sh

@@ -6,7 +6,7 @@


model="iic/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727"
model_revision="v2.0.4"
model_revision="master"

python -m funasr.bin.export \
++model=${model} \

 examples/industrial_data_pretraining/emotion2vec/demo.py

@@ -6,9 +6,9 @@
from funasr import AutoModel

# model="iic/emotion2vec_base"
model = AutoModel(model="iic/emotion2vec_base_finetuned", model_revision="v2.0.4",
model = AutoModel(model="iic/emotion2vec_base_finetuned", model_revision="master",
                  # vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
                  # vad_model_revision="v2.0.4",
                  # vad_model_revision="master",
                  # vad_kwargs={"max_single_segment_time": 2000},
                  )


 examples/industrial_data_pretraining/fsmn_vad_streaming/demo.py

@@ -6,7 +6,7 @@
from funasr import AutoModel
wav_file = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/vad_example.wav"

model = AutoModel(model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch", model_revision="v2.0.4")
model = AutoModel(model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch", model_revision="master")

res = model.generate(input=wav_file)
print(res)

 examples/industrial_data_pretraining/fsmn_vad_streaming/demo.sh

@@ -1,7 +1,7 @@


model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch"
model_revision="v2.0.4"
model_revision="master"

python funasr/bin/inference.py \
+model=${model} \

 examples/industrial_data_pretraining/fsmn_vad_streaming/export.py

@@ -8,7 +8,7 @@

from funasr import AutoModel

model = AutoModel(model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch", model_revision="v2.0.4")
model = AutoModel(model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch", model_revision="master")

res = model.export(type="onnx", quantize=False)
print(res)

 examples/industrial_data_pretraining/fsmn_vad_streaming/export.sh

@@ -7,7 +7,7 @@


model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch"
model_revision="v2.0.4"
model_revision="master"

python -m funasr.bin.export \
++model=${model} \

 examples/industrial_data_pretraining/monotonic_aligner/demo.py

@@ -5,7 +5,7 @@

from funasr import AutoModel

model = AutoModel(model="iic/speech_timestamp_prediction-v1-16k-offline", model_revision="v2.0.4")
model = AutoModel(model="iic/speech_timestamp_prediction-v1-16k-offline", model_revision="master")

res = model.generate(input=("https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav",
                   "欢迎大家来到魔搭社区进行体验"),

 examples/industrial_data_pretraining/monotonic_aligner/demo.sh

@@ -1,6 +1,6 @@

model="iic/speech_timestamp_prediction-v1-16k-offline"
model_revision="v2.0.4"
model_revision="master"

python funasr/bin/inference.py \
+model=${model} \

 examples/industrial_data_pretraining/paraformer-zh-spk/demo.py

@@ -6,11 +6,11 @@
from funasr import AutoModel

model = AutoModel(model="iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
                  model_revision="v2.0.4",
                  model_revision="master",
                  vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
                  vad_model_revision="v2.0.4",
                  vad_model_revision="master",
                  punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
                  punc_model_revision="v2.0.4",
                  punc_model_revision="master",
                  # spk_model="iic/speech_campplus_sv_zh-cn_16k-common",
                  # spk_model_revision="v2.0.2"
                  )

 examples/industrial_data_pretraining/paraformer-zh-spk/demo.sh

@@ -1,10 +1,10 @@

model="iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model_revision="v2.0.4"
model_revision="master"
vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch"
vad_model_revision="v2.0.4"
vad_model_revision="master"
punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
punc_model_revision="v2.0.4"
punc_model_revision="master"
spk_model="iic/speech_campplus_sv_zh-cn_16k-common"
spk_model_revision="v2.0.2"


 examples/industrial_data_pretraining/paraformer/demo.py

@@ -6,12 +6,12 @@
from funasr import AutoModel

model = AutoModel(model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch", 
                  model_revision="v2.0.4",
                  model_revision="master",
                  vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
                  vad_model_revision="v2.0.4",
                  vad_model_revision="master",
                  vad_kwargs={"max_single_segment_time": 60000},
                  punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
                  punc_model_revision="v2.0.4",
                  punc_model_revision="master",
                  # spk_model="iic/speech_campplus_sv_zh-cn_16k-common",
                  # spk_model_revision="v2.0.2",
                  )
@@ -23,7 +23,7 @@
''' can not use currently
from funasr import AutoFrontend

frontend = AutoFrontend(model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.4")
frontend = AutoFrontend(model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="master")

fbanks = frontend(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav", batch_size=2)


 examples/industrial_data_pretraining/paraformer/export.py

@@ -10,7 +10,7 @@
from funasr import AutoModel

model = AutoModel(model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
                  model_revision="v2.0.4")
                  model_revision="master")

res = model.export(type="onnx", quantize=False)
print(res)

 examples/industrial_data_pretraining/paraformer/export.sh

@@ -6,7 +6,7 @@


model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model_revision="v2.0.4"
model_revision="master"


python -m funasr.bin.export \

 examples/industrial_data_pretraining/paraformer/finetune.sh

@@ -10,7 +10,7 @@

## option 1, download model automatically
model_name_or_model_dir="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model_revision="v2.0.4"
model_revision="master"

## option 2, download model by git
#local_path_root=${workspace}/modelscope_models

 examples/industrial_data_pretraining/paraformer/infer.sh

@@ -9,7 +9,7 @@
output_dir="./outputs/debug"

model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model_revision="v2.0.4"
model_revision="master"

device="cuda:0" # "cuda:0" for gpu0, "cuda:1" for gpu1, "cpu"


 examples/industrial_data_pretraining/paraformer_streaming/demo.py

@@ -10,7 +10,7 @@
chunk_size = [0, 10, 5] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attention
model = AutoModel(model="iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online", model_revision="v2.0.4")
model = AutoModel(model="iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online", model_revision="master")

wav_file = os.path.join(model.model_path, "example/asr_example.wav")
res = model.generate(input=wav_file,

 examples/industrial_data_pretraining/paraformer_streaming/demo.sh

@@ -1,6 +1,6 @@

model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online"
model_revision="v2.0.4"
model_revision="master"

python funasr/bin/inference.py \
+model=${model} \

 examples/industrial_data_pretraining/paraformer_streaming/export.py

@@ -10,7 +10,7 @@
from funasr import AutoModel

model = AutoModel(model="iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online",
                  model_revision="v2.0.4")
                  model_revision="master")

res = model.export(type="onnx", quantize=False)
print(res)

 examples/industrial_data_pretraining/paraformer_streaming/export.sh

@@ -6,7 +6,7 @@


model="iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online"
model_revision="v2.0.4"
model_revision="master"


python -m funasr.bin.export \

 examples/industrial_data_pretraining/paraformer_streaming/finetune.sh

@@ -10,7 +10,7 @@

## option 1, download model automatically
model_name_or_model_dir="iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online"
model_revision="v2.0.4"
model_revision="master"

## option 2, download model by git
#local_path_root=${workspace}/modelscope_models

 examples/industrial_data_pretraining/scama/demo.py

@@ -9,7 +9,7 @@
encoder_chunk_look_back = 0 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 0 #number of encoder chunks to lookback for decoder cross-attention

model = AutoModel(model="/Users/zhifu/Downloads/modelscope_models/speech_SCAMA_asr-zh-cn-16k-common-vocab8358-streaming", model_revision="v2.0.4")
model = AutoModel(model="/Users/zhifu/Downloads/modelscope_models/speech_SCAMA_asr-zh-cn-16k-common-vocab8358-streaming", model_revision="master")
cache = {}
res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav",
            chunk_size=chunk_size,

 examples/industrial_data_pretraining/scama/demo.sh

@@ -1,6 +1,6 @@

model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online"
model_revision="v2.0.4"
model_revision="master"

python funasr/bin/inference.py \
+model=${model} \

 examples/industrial_data_pretraining/seaco_paraformer/demo.py

@@ -6,11 +6,11 @@
from funasr import AutoModel

model = AutoModel(model="iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
                  model_revision="v2.0.4",
                  model_revision="master",
                  # vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
                  # vad_model_revision="v2.0.4",
                  # vad_model_revision="master",
                  # punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
                  # punc_model_revision="v2.0.4",
                  # punc_model_revision="master",
                  # spk_model="iic/speech_campplus_sv_zh-cn_16k-common",
                  # spk_model_revision="v2.0.2",
                  )

 examples/industrial_data_pretraining/seaco_paraformer/demo.sh

@@ -1,10 +1,10 @@

model="iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model_revision="v2.0.4"
model_revision="master"
vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch"
vad_model_revision="v2.0.4"
vad_model_revision="master"
punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
punc_model_revision="v2.0.4"
punc_model_revision="master"

python funasr/bin/inference.py \
+model=${model} \

 examples/industrial_data_pretraining/uniasr/demo.py

@@ -6,7 +6,7 @@
from funasr import AutoModel


model = AutoModel(model="iic/speech_UniASR-large_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline", model_revision="v2.0.4",)
model = AutoModel(model="iic/speech_UniASR-large_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline", model_revision="master",)


res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav")
@@ -16,7 +16,7 @@
''' can not use currently
from funasr import AutoFrontend

frontend = AutoFrontend(model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.4")
frontend = AutoFrontend(model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="master")

fbanks = frontend(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav", batch_size=2)


 examples/industrial_data_pretraining/uniasr/demo.sh

@@ -1,6 +1,6 @@

model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model_revision="v2.0.4"
model_revision="master"

python funasr/bin/inference.py \
+model=${model} \

 examples/industrial_data_pretraining/whisper/infer.sh

@@ -11,7 +11,7 @@
output_dir="./outputs/debug"

model="iic/speech_whisper-large_asr_multilingual"
model_revision="v2.0.4"
model_revision="master"

device="cuda:0" # "cuda:0" for gpu0, "cuda:1" for gpu1, "cpu"


 funasr/auto/auto_model.py

@@ -109,7 +109,7 @@
        if vad_model is not None:
            logging.info("Building VAD model.")
            vad_kwargs["model"] = vad_model
            vad_kwargs["model_revision"] = kwargs.get("vad_model_revision", None)
            vad_kwargs["model_revision"] = kwargs.get("vad_model_revision", "master")
            vad_kwargs["device"] = kwargs["device"]
            vad_model, vad_kwargs = self.build_model(**vad_kwargs)

@@ -119,7 +119,7 @@
        if punc_model is not None:
            logging.info("Building punc model.")
            punc_kwargs["model"] = punc_model
            punc_kwargs["model_revision"] = kwargs.get("punc_model_revision", None)
            punc_kwargs["model_revision"] = kwargs.get("punc_model_revision", "master")
            punc_kwargs["device"] = kwargs["device"]
            punc_model, punc_kwargs = self.build_model(**punc_kwargs)

@@ -129,7 +129,7 @@
        if spk_model is not None:
            logging.info("Building SPK model.")
            spk_kwargs["model"] = spk_model
            spk_kwargs["model_revision"] = kwargs.get("spk_model_revision", None)
            spk_kwargs["model_revision"] = kwargs.get("spk_model_revision", "master")
            spk_kwargs["device"] = kwargs["device"]
            spk_model, spk_kwargs = self.build_model(**spk_kwargs)
            self.cb_model = ClusterBackend().to(kwargs["device"])

 funasr/download/download_from_hub.py

@@ -29,7 +29,7 @@
    model_or_path = kwargs.get("model")
    if model_or_path in name_maps_ms:
        model_or_path = name_maps_ms[model_or_path]
    model_revision = kwargs.get("model_revision")
    model_revision = kwargs.get("model_revision", "master")
    if not os.path.exists(model_or_path) and "model_path" not in kwargs:
        try:
            model_or_path = get_or_download_model_dir(model_or_path, model_revision,

 funasr/models/llm_asr/model.py

@@ -73,7 +73,7 @@
        hub = audio_encoder_conf.get("hub", None)
        if hub == "ms":
            from funasr import AutoModel
            model = AutoModel(model=audio_encoder, model_revision="v2.0.4")
            model = AutoModel(model=audio_encoder, model_revision="master")
            # frontend = model.kwargs.get("frontend")
            audio_encoder_output_size = model.model.encoder_output_size


 funasr/models/llm_asr_nar/model.py

@@ -75,7 +75,7 @@
        if hub == "funasr":
            from funasr import AutoModel
            init_param_path = encoder_conf.get("init_param_path", "iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch")
            model = AutoModel(model=init_param_path, model_revision="v2.0.4")
            model = AutoModel(model=init_param_path, model_revision="master")
            # frontend = model.kwargs.get("frontend")
            model.model.decoder = None
            
@@ -406,7 +406,7 @@
            from funasr import AutoModel
            init_param_path = encoder_conf.get("init_param_path",
                                               "iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch")
            model = AutoModel(model=init_param_path, model_revision="v2.0.4")
            model = AutoModel(model=init_param_path, model_revision="master")
            # frontend = model.kwargs.get("frontend")
            model.model.decoder = None

			@@ -12,7 +12,7 @@
			"example_ko.mp3",
			]

			model = AutoModel(model="iic/speech_whisper-large_lid_multilingual_pytorch", model_revision="v2.0.4")
			model = AutoModel(model="iic/speech_whisper-large_lid_multilingual_pytorch", model_revision="master")
			for wav_id in multilingual_wavs:
			wav_file = f"{model.model_path}/examples/{wav_id}"
			res = model.generate(input=wav_file, data_type="sound", inference_clip_length=250)

			@@ -15,7 +15,7 @@

			inference_pipeline = pipeline(
			task=Tasks.auto_speech_recognition,
			model='iic/speech_whisper-large_lid_multilingual_pytorch', model_revision="v2.0.4")
			model='iic/speech_whisper-large_lid_multilingual_pytorch', model_revision="master")

			for wav in multilingual_wavs:
			rec_result = inference_pipeline(input=wav, inference_clip_length=250)

			@@ -6,11 +6,11 @@
			from funasr import AutoModel

			model = AutoModel(model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
			model_revision="v2.0.4",
			model_revision="master",
			vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
			vad_model_revision="v2.0.4",
			vad_model_revision="master",
			punc_model="iic/punc_ct-transformer_cn-en-common-vocab471067-large",
			punc_model_revision="v2.0.4",
			punc_model_revision="master",
			# spk_model="iic/speech_campplus_sv_zh-cn_16k-common",
			# spk_model_revision="v2.0.2",
			)

			@@ -1,11 +1,11 @@

			model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
			model_revision="v2.0.4"
			model_revision="master"
			vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch"
			vad_model_revision="v2.0.4"
			vad_model_revision="master"
			#punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
			punc_model="iic/punc_ct-transformer_cn-en-common-vocab471067-large"
			punc_model_revision="v2.0.4"
			punc_model_revision="master"
			spk_model="iic/speech_campplus_sv_zh-cn_16k-common"
			spk_model_revision="v2.0.2"

			@@ -8,7 +8,7 @@
			from funasr import AutoModel

			model = AutoModel(model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
			model_revision="v2.0.4", device="cpu")
			model_revision="master", device="cpu")

			res = model.export(type="onnx", quantize=False)
			print(res)

			@@ -6,7 +6,7 @@


			model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
			model_revision="v2.0.4"
			model_revision="master"

			python -m funasr.bin.export \
			++model=${model} \

			@@ -11,7 +11,7 @@

			## option 1, download model automatically
			model_name_or_model_dir="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
			model_revision="v2.0.4"
			model_revision="master"

			## option 2, download model by git
			#local_path_root=${workspace}/modelscope_models

			@@ -5,7 +5,7 @@

			from funasr import AutoModel

			model = AutoModel(model="iic/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch", model_revision="v2.0.4",
			model = AutoModel(model="iic/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch", model_revision="master",
			)

			res = model.generate(input="https://modelscope.oss-cn-beijing.aliyuncs.com/test/audios/asr_example.wav")

			@@ -1,6 +1,6 @@

			model="iic/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch"
			model_revision="v2.0.4"
			model_revision="master"

			python funasr/bin/inference.py \
			+model=${model} \

			@@ -1,6 +1,6 @@

			model="iic/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404"
			model_revision="v2.0.4"
			model_revision="master"

			python ../../../funasr/bin/inference.py \
			+model=${model} \

			@@ -5,7 +5,7 @@

			from funasr import AutoModel

			model = AutoModel(model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch", model_revision="v2.0.4")
			model = AutoModel(model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch", model_revision="master")

			res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_text/punc_example.txt")
			print(res)
			@@ -13,7 +13,7 @@

			from funasr import AutoModel

			model = AutoModel(model="iic/punc_ct-transformer_cn-en-common-vocab471067-large", model_revision="v2.0.4")
			model = AutoModel(model="iic/punc_ct-transformer_cn-en-common-vocab471067-large", model_revision="master")

			res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_text/punc_example.txt")
			print(res)

			@@ -1,9 +1,9 @@

			#model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
			#model_revision="v2.0.4"
			#model_revision="master"

			model="iic/punc_ct-transformer_cn-en-common-vocab471067-large"
			model_revision="v2.0.4"
			model_revision="master"

			python funasr/bin/inference.py \
			+model=${model} \

			@@ -6,7 +6,7 @@


			model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
			model_revision="v2.0.4"
			model_revision="master"

			python -m funasr.bin.export \
			++model=${model} \

			@@ -6,9 +6,9 @@
			from funasr import AutoModel

			# model="iic/emotion2vec_base"
			model = AutoModel(model="iic/emotion2vec_base_finetuned", model_revision="v2.0.4",
			model = AutoModel(model="iic/emotion2vec_base_finetuned", model_revision="master",
			# vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
			# vad_model_revision="v2.0.4",
			# vad_model_revision="master",
			# vad_kwargs={"max_single_segment_time": 2000},
			)

			@@ -6,7 +6,7 @@
			from funasr import AutoModel
			wav_file = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/vad_example.wav"

			model = AutoModel(model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch", model_revision="v2.0.4")
			model = AutoModel(model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch", model_revision="master")

			res = model.generate(input=wav_file)
			print(res)

			@@ -1,7 +1,7 @@


			model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch"
			model_revision="v2.0.4"
			model_revision="master"

			python funasr/bin/inference.py \
			+model=${model} \

			@@ -7,7 +7,7 @@


			model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch"
			model_revision="v2.0.4"
			model_revision="master"

			python -m funasr.bin.export \
			++model=${model} \

			@@ -5,7 +5,7 @@

			from funasr import AutoModel

			model = AutoModel(model="iic/speech_timestamp_prediction-v1-16k-offline", model_revision="v2.0.4")
			model = AutoModel(model="iic/speech_timestamp_prediction-v1-16k-offline", model_revision="master")

			res = model.generate(input=("https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav",
			"欢迎大家来到魔搭社区进行体验"),

			@@ -1,6 +1,6 @@

			model="iic/speech_timestamp_prediction-v1-16k-offline"
			model_revision="v2.0.4"
			model_revision="master"

			python funasr/bin/inference.py \
			+model=${model} \

			@@ -6,11 +6,11 @@
			from funasr import AutoModel

			model = AutoModel(model="iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
			model_revision="v2.0.4",
			model_revision="master",
			vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
			vad_model_revision="v2.0.4",
			vad_model_revision="master",
			punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
			punc_model_revision="v2.0.4",
			punc_model_revision="master",
			# spk_model="iic/speech_campplus_sv_zh-cn_16k-common",
			# spk_model_revision="v2.0.2"
			)

			@@ -1,10 +1,10 @@

			model="iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
			model_revision="v2.0.4"
			model_revision="master"
			vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch"
			vad_model_revision="v2.0.4"
			vad_model_revision="master"
			punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch"
			punc_model_revision="v2.0.4"
			punc_model_revision="master"
			spk_model="iic/speech_campplus_sv_zh-cn_16k-common"
			spk_model_revision="v2.0.2"

			@@ -6,12 +6,12 @@
			from funasr import AutoModel

			model = AutoModel(model="iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
			model_revision="v2.0.4",
			model_revision="master",
			vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
			vad_model_revision="v2.0.4",
			vad_model_revision="master",
			vad_kwargs={"max_single_segment_time": 60000},
			punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
			punc_model_revision="v2.0.4",
			punc_model_revision="master",
			# spk_model="iic/speech_campplus_sv_zh-cn_16k-common",
			# spk_model_revision="v2.0.2",
			)
			@@ -23,7 +23,7 @@
			''' can not use currently
			from funasr import AutoFrontend

			frontend = AutoFrontend(model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.4")
			frontend = AutoFrontend(model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="master")

			fbanks = frontend(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav", batch_size=2)

			@@ -10,7 +10,7 @@
			from funasr import AutoModel

			model = AutoModel(model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
			model_revision="v2.0.4")
			model_revision="master")

			res = model.export(type="onnx", quantize=False)
			print(res)

			@@ -9,7 +9,7 @@
			output_dir="./outputs/debug"

			model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
			model_revision="v2.0.4"
			model_revision="master"

			device="cuda:0" # "cuda:0" for gpu0, "cuda:1" for gpu1, "cpu"

			@@ -10,7 +10,7 @@
			chunk_size = [0, 10, 5] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
			encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
			decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attention
			model = AutoModel(model="iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online", model_revision="v2.0.4")
			model = AutoModel(model="iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online", model_revision="master")

			wav_file = os.path.join(model.model_path, "example/asr_example.wav")
			res = model.generate(input=wav_file,

			@@ -6,7 +6,7 @@


			model="iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online"
			model_revision="v2.0.4"
			model_revision="master"


			python -m funasr.bin.export \

			@@ -9,7 +9,7 @@
			encoder_chunk_look_back = 0 #number of chunks to lookback for encoder self-attention
			decoder_chunk_look_back = 0 #number of encoder chunks to lookback for decoder cross-attention

			model = AutoModel(model="/Users/zhifu/Downloads/modelscope_models/speech_SCAMA_asr-zh-cn-16k-common-vocab8358-streaming", model_revision="v2.0.4")
			model = AutoModel(model="/Users/zhifu/Downloads/modelscope_models/speech_SCAMA_asr-zh-cn-16k-common-vocab8358-streaming", model_revision="master")
			cache = {}
			res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav",
			chunk_size=chunk_size,

			@@ -6,7 +6,7 @@
			from funasr import AutoModel


			model = AutoModel(model="iic/speech_UniASR-large_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline", model_revision="v2.0.4",)
			model = AutoModel(model="iic/speech_UniASR-large_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline", model_revision="master",)


			res = model.generate(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav")
			@@ -16,7 +16,7 @@
			''' can not use currently
			from funasr import AutoFrontend

			frontend = AutoFrontend(model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.4")
			frontend = AutoFrontend(model="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="master")

			fbanks = frontend(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav", batch_size=2)

			@@ -11,7 +11,7 @@
			output_dir="./outputs/debug"

			model="iic/speech_whisper-large_asr_multilingual"
			model_revision="v2.0.4"
			model_revision="master"

			device="cuda:0" # "cuda:0" for gpu0, "cuda:1" for gpu1, "cpu"

			@@ -109,7 +109,7 @@
			if vad_model is not None:
			logging.info("Building VAD model.")
			vad_kwargs["model"] = vad_model
			vad_kwargs["model_revision"] = kwargs.get("vad_model_revision", None)
			vad_kwargs["model_revision"] = kwargs.get("vad_model_revision", "master")
			vad_kwargs["device"] = kwargs["device"]
			vad_model, vad_kwargs = self.build_model(**vad_kwargs)

			@@ -119,7 +119,7 @@
			if punc_model is not None:
			logging.info("Building punc model.")
			punc_kwargs["model"] = punc_model
			punc_kwargs["model_revision"] = kwargs.get("punc_model_revision", None)
			punc_kwargs["model_revision"] = kwargs.get("punc_model_revision", "master")
			punc_kwargs["device"] = kwargs["device"]
			punc_model, punc_kwargs = self.build_model(**punc_kwargs)

			@@ -129,7 +129,7 @@
			if spk_model is not None:
			logging.info("Building SPK model.")
			spk_kwargs["model"] = spk_model
			spk_kwargs["model_revision"] = kwargs.get("spk_model_revision", None)
			spk_kwargs["model_revision"] = kwargs.get("spk_model_revision", "master")
			spk_kwargs["device"] = kwargs["device"]
			spk_model, spk_kwargs = self.build_model(**spk_kwargs)
			self.cb_model = ClusterBackend().to(kwargs["device"])