python/FunASR-XL.git

			@@ -9,15 +9,12 @@

			import numpy as np
			import torch
			from typeguard import check_argument_types
			from typeguard import check_return_type

			from funasr.datasets.collate_fn import CommonCollateFn
			from funasr.datasets.preprocessor import PuncTrainTokenizerCommonPreprocessor
			from funasr.punctuation.abs_model import AbsPunctuation
			from funasr.punctuation.espnet_model import ESPnetPunctuationModel
			from funasr.punctuation.target_delay_transformer import TargetDelayTransformer
			from funasr.punctuation.vad_realtime_transformer import VadRealtimeTransformer
			from funasr.train.abs_model import PunctuationModel
			from funasr.models.target_delay_transformer import TargetDelayTransformer
			from funasr.models.vad_realtime_transformer import VadRealtimeTransformer
			from funasr.tasks.abs_task import AbsTask
			from funasr.text.phoneme_tokenizer import g2p_choices
			from funasr.torch_utils.initialize import initialize
			@@ -31,7 +28,6 @@
			punc_choices = ClassChoices(
			"punctuation",
			classes=dict(target_delay=TargetDelayTransformer, vad_realtime=VadRealtimeTransformer),
			type_check=AbsPunctuation,
			default="target_delay",
			)

			@@ -49,7 +45,6 @@
			@classmethod
			def add_task_arguments(cls, parser: argparse.ArgumentParser):
			# NOTE(kamo): Use '_' instead of '-' to avoid confusion
			assert check_argument_types()
			group = parser.add_argument_group(description="Task related")

			# NOTE(kamo): add_arguments(..., required=True) can't be used
			@@ -79,7 +74,7 @@
			group.add_argument(
			"--model_conf",
			action=NestedDictAction,
			default=get_default_kwargs(ESPnetPunctuationModel),
			default=get_default_kwargs(PunctuationModel),
			help="The keyword arguments for model class.",
			)

			@@ -128,7 +123,6 @@
			# e.g. --encoder and --encoder_conf
			class_choices.add_arguments(group)

			assert check_return_type(parser)
			return parser

			@classmethod
			@@ -138,14 +132,12 @@
			[Collection[Tuple[str, Dict[str, np.ndarray]]]],
			Tuple[List[str], Dict[str, torch.Tensor]],
			]:
			assert check_argument_types()
			return CommonCollateFn(int_pad_value=0)

			@classmethod
			def build_preprocess_fn(
			cls, args: argparse.Namespace, train: bool
			) -> Optional[Callable[[str, Dict[str, np.array]], Dict[str, np.ndarray]]]:
			assert check_argument_types()
			token_types = [args.token_type, args.token_type]
			token_lists = [args.token_list, args.punc_list]
			bpemodels = [args.bpemodel, args.bpemodel]
			@@ -163,7 +155,6 @@
			)
			else:
			retval = None
			assert check_return_type(retval)
			return retval

			@classmethod
			@@ -183,8 +174,7 @@
			return retval

			@classmethod
			def build_model(cls, args: argparse.Namespace) -> ESPnetPunctuationModel:
			assert check_argument_types()
			def build_model(cls, args: argparse.Namespace) -> PunctuationModel:
			if isinstance(args.token_list, str):
			with open(args.token_list, encoding="utf-8") as f:
			token_list = [line.rstrip() for line in f]
			@@ -218,12 +208,11 @@
			# Assume the last-id is sos_and_eos
			if "punc_weight" in args.model_conf:
			args.model_conf.pop("punc_weight")
			model = ESPnetPunctuationModel(punc_model=punc, vocab_size=vocab_size, punc_weight=punc_weight_list, **args.model_conf)
			model = PunctuationModel(punc_model=punc, vocab_size=vocab_size, punc_weight=punc_weight_list, **args.model_conf)

			# FIXME(kamo): Should be done in model?
			# 3. Initialize
			if args.init is not None:
			initialize(model, args.init)

			assert check_return_type(model)
			return model