python/FunASR-XL.git

			@@ -2,28 +2,29 @@
			# @Author: SWHL
			# @Contact: liekkaskono@163.com
			import os.path
			import traceback
			from pathlib import Path
			from typing import List, Union, Tuple

			import copy
			import librosa
			import numpy as np

			from utils.utils import (CharTokenizer, Hypothesis, ONNXRuntimeError,
			OrtInferSession, TokenIDConverter, get_logger,
			read_yaml)
			from utils.postprocess_utils import sentence_postprocess
			from utils.frontend import WavFrontend
			from .utils.utils import (CharTokenizer, Hypothesis, ONNXRuntimeError,
			OrtInferSession, TokenIDConverter, get_logger,
			read_yaml)
			from .utils.postprocess_utils import sentence_postprocess
			from .utils.frontend import WavFrontend
			from funasr.utils.timestamp_tools import time_stamp_lfr6_pl

			logging = get_logger()


			class Paraformer():
			def __init__(self, model_dir: Union[str, Path]=None,
			def __init__(self, model_dir: Union[str, Path] = None,
			batch_size: int = 1,
			device_id: Union[str, int]="-1",
			device_id: Union[str, int] = "-1",
			):


			if not Path(model_dir).exists():
			raise FileNotFoundError(f'{model_dir} does not exist.')

			@@ -42,25 +43,34 @@
			self.batch_size = batch_size

			def __call__(self, wav_content: Union[str, np.ndarray, List[str]], **kwargs) -> List:
			waveform_list = self.load_data(wav_content, self.frontend.opts.samp_freq)
			waveform_list = self.load_data(wav_content, self.frontend.opts.frame_opts.samp_freq)
			waveform_nums = len(waveform_list)

			asr_res = []
			for beg_idx in range(0, waveform_nums, self.batch_size):
			res = {}
			end_idx = min(waveform_nums, beg_idx + self.batch_size)

			feats, feats_len = self.extract_feat(waveform_list[beg_idx:end_idx])

			try:
			am_scores, valid_token_lens = self.infer(feats, feats_len)
			outputs = self.infer(feats, feats_len)
			am_scores, valid_token_lens = outputs[0], outputs[1]
			if len(outputs) == 4:
			# for BiCifParaformer Inference
			us_alphas, us_cif_peak = outputs[2], outputs[3]
			else:
			us_alphas, us_cif_peak = None, None
			except ONNXRuntimeError:
			#logging.warning(traceback.format_exc())
			logging.warning("input wav is silence or noise")
			preds = ['']
			else:
			preds = self.decode(am_scores, valid_token_lens)

			asr_res.extend(preds)
			preds, raw_token = self.decode(am_scores, valid_token_lens)[0]
			res['preds'] = preds
			if us_cif_peak is not None:
			timestamp = time_stamp_lfr6_pl(us_alphas, us_cif_peak, copy.copy(raw_token), log=False)
			res['timestamp'] = timestamp
			asr_res.append(res)
			return asr_res

			def load_data(self,
			@@ -107,8 +117,8 @@

			def infer(self, feats: np.ndarray,
			feats_len: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:
			am_scores, token_nums = self.ort_infer([feats, feats_len])
			return am_scores, token_nums
			outputs = self.ort_infer([feats, feats_len])
			return outputs

			def decode(self, am_scores: np.ndarray, token_nums: int) -> List[str]:
			return [self.decode_one(am_score, token_num)
			@@ -135,10 +145,9 @@

			# Change integer-ids to tokens
			token = self.converter.ids2tokens(token_int)
			token = token[:valid_token_num-1]
			# token = token[:valid_token_num-1]
			texts = sentence_postprocess(token)
			text = texts[0]
			# text = self.tokenizer.tokens2text(token)
			return text

			return text, token