python/FunASR-XL.git

			@@ -6,8 +6,9 @@

			import torch
			from packaging.version import parse as V
			from typeguard import check_argument_types

			from funasr.losses.label_smoothing_loss import (
			LabelSmoothingLoss, # noqa: H301
			)
			from funasr.models.frontend.abs_frontend import AbsFrontend
			from funasr.models.specaug.abs_specaug import AbsSpecAug
			from funasr.models.decoder.rnnt_decoder import RNNTDecoder
			@@ -15,6 +16,8 @@
			from funasr.models.encoder.abs_encoder import AbsEncoder
			from funasr.models.joint_net.joint_network import JointNetwork
			from funasr.modules.nets_utils import get_transducer_task_io
			from funasr.modules.nets_utils import th_accuracy
			from funasr.modules.add_sos_eos import add_sos_eos
			from funasr.layers.abs_normalize import AbsNormalize
			from funasr.torch_utils.device_funcs import force_gatherable
			from funasr.models.base_model import FunASRModel
			@@ -81,8 +84,6 @@
			) -> None:
			"""Construct an ESPnetASRTransducerModel object."""
			super().__init__()

			assert check_argument_types()

			# The following labels ID are reserved: 0 (blank) and vocab_size - 1 (sos/eos)
			self.blank_id = 0
			@@ -352,11 +353,6 @@
			"""
			if self.criterion_transducer is None:
			try:
			# from warprnnt_pytorch import RNNTLoss
			# self.criterion_transducer = RNNTLoss(
			# reduction="mean",
			# fastemit_lambda=self.fastemit_lambda,
			# )
			from warp_rnnt import rnnt_loss as RNNTLoss
			self.criterion_transducer = RNNTLoss

			@@ -367,12 +363,6 @@
			)
			exit(1)

			# loss_transducer = self.criterion_transducer(
			# joint_out,
			# target,
			# t_len,
			# u_len,
			# )
			log_probs = torch.log_softmax(joint_out, dim=-1)

			loss_transducer = self.criterion_transducer(
			@@ -542,8 +532,6 @@
			"""Construct an ESPnetASRTransducerModel object."""
			super().__init__()

			assert check_argument_types()

			# The following labels ID are reserved: 0 (blank) and vocab_size - 1 (sos/eos)
			self.blank_id = 0

			@@ -638,7 +626,6 @@

			batch_size = speech.shape[0]
			text = text[:, : text_lengths.max()]
			#print(speech.shape)
			# 1. Encoder
			encoder_out, encoder_out_chunk, encoder_out_lens = self.encode(speech, speech_lengths)

			@@ -709,8 +696,8 @@
			loss_lm = self._calc_lm_loss(decoder_out, target)

			loss_trans = loss_trans_utt + loss_trans_chunk
			loss_ctc = loss_ctc + loss_ctc_chunk
			loss_ctc = loss_att + loss_att_chunk
			loss_ctc = loss_ctc + loss_ctc_chunk
			loss_att = loss_att + loss_att_chunk

			loss = (
			self.transducer_weight * loss_trans
			@@ -855,11 +842,6 @@
			"""
			if self.criterion_transducer is None:
			try:
			# from warprnnt_pytorch import RNNTLoss
			# self.criterion_transducer = RNNTLoss(
			# reduction="mean",
			# fastemit_lambda=self.fastemit_lambda,
			# )
			from warp_rnnt import rnnt_loss as RNNTLoss
			self.criterion_transducer = RNNTLoss

			@@ -870,12 +852,6 @@
			)
			exit(1)

			# loss_transducer = self.criterion_transducer(
			# joint_out,
			# target,
			# t_len,
			# u_len,
			# )
			log_probs = torch.log_softmax(joint_out, dim=-1)

			loss_transducer = self.criterion_transducer(