python/FunASR-XL.git

			@@ -34,6 +34,6 @@
			rec_result = inference_pipeline(audio_in=speech[sample_offset: sample_offset + stride_size],
			param_dict=param_dict)
			if len(rec_result) != 0:
			final_result += " ".join(rec_result['text']) + " "
			final_result += rec_result['text'] + " "
			print(rec_result)
			print(final_result)

			@@ -34,6 +34,6 @@
			rec_result = inference_pipeline(audio_in=speech[sample_offset: sample_offset + stride_size],
			param_dict=param_dict)
			if len(rec_result) != 0:
			final_result += " ".join(rec_result['text']) + " "
			final_result += rec_result['text'] + " "
			print(rec_result)
			print(final_result.strip())

			@@ -553,12 +553,12 @@
			asr_result = speech2text(cache, raw_inputs[:, sample_offset: sample_offset + stride_size], input_lens)
			if len(asr_result) != 0:
			final_result += " ".join(asr_result) + " "
			item = {'key': "utt", 'value': [final_result.strip()]}
			item = {'key': "utt", 'value': final_result.strip()}
			else:
			input_lens = torch.tensor([raw_inputs.shape[1]])
			cache["encoder"]["is_final"] = is_final
			asr_result = speech2text(cache, raw_inputs, input_lens)
			item = {'key': "utt", 'value': asr_result}
			item = {'key': "utt", 'value': " ".join(asr_result)}

			asr_result_list.append(item)
			if is_final:

	egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online/infer.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/infer.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/bin/asr_inference_paraformer_streaming.py	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史