python/FunASR-XL.git

			@@ -12,12 +12,12 @@
			from funasr.models.specaug.abs_specaug import AbsSpecAug
			from funasr.models.decoder.rnnt_decoder import RNNTDecoder
			from funasr.models.decoder.abs_decoder import AbsDecoder as AbsAttDecoder
			from funasr.models.encoder.conformer_encoder import ConformerChunkEncoder as Encoder
			from funasr.models.encoder.abs_encoder import AbsEncoder
			from funasr.models.joint_net.joint_network import JointNetwork
			from funasr.modules.nets_utils import get_transducer_task_io
			from funasr.layers.abs_normalize import AbsNormalize
			from funasr.torch_utils.device_funcs import force_gatherable
			from funasr.train.abs_espnet_model import AbsESPnetModel
			from funasr.models.base_model import FunASRModel

			if V(torch.__version__) >= V("1.6.0"):
			from torch.cuda.amp import autocast
			@@ -28,7 +28,7 @@
			yield


			class TransducerModel(AbsESPnetModel):
			class TransducerModel(FunASRModel):
			"""ESPnet2ASRTransducerModel module definition.

			Args:
			@@ -62,7 +62,7 @@
			frontend: Optional[AbsFrontend],
			specaug: Optional[AbsSpecAug],
			normalize: Optional[AbsNormalize],
			encoder: Encoder,
			encoder: AbsEncoder,
			decoder: RNNTDecoder,
			joint_network: JointNetwork,
			att_decoder: Optional[AbsAttDecoder] = None,
			@@ -108,7 +108,7 @@
			self.use_auxiliary_lm_loss = auxiliary_lm_loss_weight > 0

			if self.use_auxiliary_ctc:
			self.ctc_lin = torch.nn.Linear(encoder.output_size, vocab_size)
			self.ctc_lin = torch.nn.Linear(encoder.output_size(), vocab_size)
			self.ctc_dropout_rate = auxiliary_ctc_dropout_rate

			if self.use_auxiliary_lm_loss:
			@@ -162,7 +162,9 @@

			# 1. Encoder
			encoder_out, encoder_out_lens = self.encode(speech, speech_lengths)

			if hasattr(self.encoder, 'overlap_chunk_cls') and self.encoder.overlap_chunk_cls is not None:
			encoder_out, encoder_out_lens = self.encoder.overlap_chunk_cls.remove_chunk(encoder_out, encoder_out_lens,
			chunk_outs=None)
			# 2. Transducer-related I/O preparation
			decoder_in, target, t_len, u_len = get_transducer_task_io(
			text,
			@@ -286,7 +288,7 @@
			feats, feats_lengths = self.normalize(feats, feats_lengths)

			# 4. Forward encoder
			encoder_out, encoder_out_lens = self.encoder(feats, feats_lengths)
			encoder_out, encoder_out_lens, _ = self.encoder(feats, feats_lengths)

			assert encoder_out.size(0) == speech.size(0), (
			encoder_out.size(),
			@@ -483,7 +485,7 @@

			return loss_lm

			class UnifiedTransducerModel(AbsESPnetModel):
			class UnifiedTransducerModel(FunASRModel):
			"""ESPnet2ASRTransducerModel module definition.
			Args:
			vocab_size: Size of complete vocabulary (w/ EOS and blank included).
			@@ -515,7 +517,7 @@
			frontend: Optional[AbsFrontend],
			specaug: Optional[AbsSpecAug],
			normalize: Optional[AbsNormalize],
			encoder: Encoder,
			encoder: AbsEncoder,
			decoder: RNNTDecoder,
			joint_network: JointNetwork,
			att_decoder: Optional[AbsAttDecoder] = None,
			@@ -577,7 +579,7 @@
			self.use_auxiliary_lm_loss = auxiliary_lm_loss_weight > 0

			if self.use_auxiliary_ctc:
			self.ctc_lin = torch.nn.Linear(encoder.output_size, vocab_size)
			self.ctc_lin = torch.nn.Linear(encoder.output_size(), vocab_size)
			self.ctc_dropout_rate = auxiliary_ctc_dropout_rate

			if self.use_auxiliary_att: