python/FunASR-XL.git

			@@ -31,7 +31,8 @@
			quantize: bool = False,
			intra_op_num_threads: int = 4,
			max_end_sil: int = None,
			cache_dir: str = None
			cache_dir: str = None,
			**kwargs
			):

			if not Path(model_dir).exists():
			@@ -62,9 +63,9 @@
			"\npip3 install -U funasr -i https://mirror.sjtu.edu.cn/pypi/web/simple"

			model = AutoModel(model=model_dir)
			model_dir = model.export(type="onnx", quantize=quantize)
			config_file = os.path.join(model_dir, 'vad.yaml')
			cmvn_file = os.path.join(model_dir, 'vad.mvn')
			model_dir = model.export(type="onnx", quantize=quantize, **kwargs)
			config_file = os.path.join(model_dir, 'config.yaml')
			cmvn_file = os.path.join(model_dir, 'am.mvn')
			config = read_yaml(config_file)

			self.frontend = WavFrontend(
			@@ -73,8 +74,8 @@
			)
			self.ort_infer = OrtInferSession(model_file, device_id, intra_op_num_threads=intra_op_num_threads)
			self.batch_size = batch_size
			self.vad_scorer = E2EVadModel(config["vad_post_conf"])
			self.max_end_sil = max_end_sil if max_end_sil is not None else config["vad_post_conf"]["max_end_silence_time"]
			self.vad_scorer = E2EVadModel(config["model_conf"])
			self.max_end_sil = max_end_sil if max_end_sil is not None else config["model_conf"]["max_end_silence_time"]
			self.encoder_conf = config["encoder_conf"]

			def prepare_cache(self, in_cache: list = []):
			@@ -196,7 +197,8 @@
			quantize: bool = False,
			intra_op_num_threads: int = 4,
			max_end_sil: int = None,
			cache_dir: str = None
			cache_dir: str = None,
			**kwargs
			):
			if not Path(model_dir).exists():
			try:
			@@ -226,10 +228,10 @@
			"\npip3 install -U funasr -i https://mirror.sjtu.edu.cn/pypi/web/simple"

			model = AutoModel(model=model_dir)
			model_dir = model.export(type="onnx", quantize=quantize)
			model_dir = model.export(type="onnx", quantize=quantize, **kwargs)

			config_file = os.path.join(model_dir, 'vad.yaml')
			cmvn_file = os.path.join(model_dir, 'vad.mvn')
			config_file = os.path.join(model_dir, 'config.yaml')
			cmvn_file = os.path.join(model_dir, 'am.mvn')
			config = read_yaml(config_file)

			self.frontend = WavFrontendOnline(
			@@ -238,8 +240,8 @@
			)
			self.ort_infer = OrtInferSession(model_file, device_id, intra_op_num_threads=intra_op_num_threads)
			self.batch_size = batch_size
			self.vad_scorer = E2EVadModel(config["vad_post_conf"])
			self.max_end_sil = max_end_sil if max_end_sil is not None else config["vad_post_conf"]["max_end_silence_time"]
			self.vad_scorer = E2EVadModel(config["model_conf"])
			self.max_end_sil = max_end_sil if max_end_sil is not None else config["model_conf"]["max_end_silence_time"]
			self.encoder_conf = config["encoder_conf"]

			def prepare_cache(self, in_cache: list = []):