python/FunASR-XL.git

			@@ -40,6 +40,7 @@
			from funasr.models.decoder.contextual_decoder import ContextualParaformerDecoder
			from funasr.models.e2e_asr import ESPnetASRModel
			from funasr.models.e2e_asr_paraformer import Paraformer, ParaformerBert, BiCifParaformer, ContextualParaformer
			from funasr.models.e2e_tp import TimestampPredictor
			from funasr.models.e2e_asr_mfcca import MFCCA
			from funasr.models.e2e_uni_asr import UniASR
			from funasr.models.encoder.abs_encoder import AbsEncoder
			@@ -124,6 +125,7 @@
			bicif_paraformer=BiCifParaformer,
			contextual_paraformer=ContextualParaformer,
			mfcca=MFCCA,
			timestamp_prediction=TimestampPredictor,
			),
			type_check=AbsESPnetModel,
			default="asr",
			@@ -1244,3 +1246,88 @@
			return model


			class ASRTaskAligner(ASRTaskParaformer):
			# If you need more than one optimizers, change this value
			num_optimizers: int = 1

			# Add variable objects configurations
			class_choices_list = [
			# --frontend and --frontend_conf
			frontend_choices,
			# --model and --model_conf
			model_choices,
			# --encoder and --encoder_conf
			encoder_choices,
			# --decoder and --decoder_conf
			decoder_choices,
			]

			# If you need to modify train() or eval() procedures, change Trainer class here
			trainer = Trainer

			@classmethod
			def build_model(cls, args: argparse.Namespace):
			assert check_argument_types()
			if isinstance(args.token_list, str):
			with open(args.token_list, encoding="utf-8") as f:
			token_list = [line.rstrip() for line in f]

			# Overwriting token_list to keep it as "portable".
			args.token_list = list(token_list)
			elif isinstance(args.token_list, (tuple, list)):
			token_list = list(args.token_list)
			else:
			raise RuntimeError("token_list must be str or list")

			# 1. frontend
			if args.input_size is None:
			# Extract features in the model
			frontend_class = frontend_choices.get_class(args.frontend)
			if args.frontend == 'wav_frontend':
			frontend = frontend_class(cmvn_file=args.cmvn_file, **args.frontend_conf)
			else:
			frontend = frontend_class(**args.frontend_conf)
			input_size = frontend.output_size()
			else:
			# Give features from data-loader
			args.frontend = None
			args.frontend_conf = {}
			frontend = None
			input_size = args.input_size

			# 2. Encoder
			encoder_class = encoder_choices.get_class(args.encoder)
			encoder = encoder_class(input_size=input_size, **args.encoder_conf)

			# 3. Predictor
			predictor_class = predictor_choices.get_class(args.predictor)
			predictor = predictor_class(**args.predictor_conf)

			# 10. Build model
			try:
			model_class = model_choices.get_class(args.model)
			except AttributeError:
			model_class = model_choices.get_class("asr")

			# 8. Build model
			model = model_class(
			frontend=frontend,
			encoder=encoder,
			predictor=predictor,
			token_list=token_list,
			**args.model_conf,
			)

			# 11. Initialize
			if args.init is not None:
			initialize(model, args.init)

			assert check_return_type(model)
			return model

			@classmethod
			def required_data_names(
			cls, train: bool = True, inference: bool = False
			) -> Tuple[str, ...]:
			retval = ("speech", "text")
			return retval