python/FunASR-XL.git

			@@ -104,7 +104,6 @@

			x = residual + self.dropout(self.src_attn(x, memory, memory_mask))


			return x, tgt_mask, memory, memory_mask, cache

			def forward_chunk(self, tgt, tgt_mask, memory, memory_mask=None, cache=None):
			@@ -152,7 +151,7 @@

			class FsmnDecoderSCAMAOpt(BaseTransformerDecoder):
			"""
			author: Speech Lab, Alibaba Group, China
			Author: Speech Lab of DAMO Academy, Alibaba Group
			SCAMA: Streaming chunk-aware multihead attention for online end-to-end speech recognition
			https://arxiv.org/abs/2006.01713

			@@ -400,7 +399,7 @@
			for i in range(self.att_layer_num):
			decoder = self.decoders[i]
			c = cache[i]
			x, tgt_mask, memory, memory_mask, c_ret = decoder(
			x, tgt_mask, memory, memory_mask, c_ret = decoder.forward_chunk(
			x, tgt_mask, memory, memory_mask, cache=c
			)
			new_cache.append(c_ret)
			@@ -410,13 +409,13 @@
			j = i + self.att_layer_num
			decoder = self.decoders2[i]
			c = cache[j]
			x, tgt_mask, memory, memory_mask, c_ret = decoder(
			x, tgt_mask, memory, memory_mask, c_ret = decoder.forward_chunk(
			x, tgt_mask, memory, memory_mask, cache=c
			)
			new_cache.append(c_ret)

			for decoder in self.decoders3:
			x, tgt_mask, memory, memory_mask, _ = decoder(
			x, tgt_mask, memory, memory_mask, _ = decoder.forward_chunk(
			x, tgt_mask, memory, None, cache=None
			)

			@@ -813,7 +812,7 @@

			class ParaformerSANMDecoder(BaseTransformerDecoder):
			"""
			author: Speech Lab, Alibaba Group, China
			Author: Speech Lab of DAMO Academy, Alibaba Group
			Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition
			https://arxiv.org/abs/2006.01713
			"""
			@@ -936,6 +935,7 @@
			hlens: torch.Tensor,
			ys_in_pad: torch.Tensor,
			ys_in_lens: torch.Tensor,
			chunk_mask: torch.Tensor = None,
			) -> Tuple[torch.Tensor, torch.Tensor]:
			"""Forward decoder.

			@@ -956,9 +956,13 @@
			"""
			tgt = ys_in_pad
			tgt_mask = myutils.sequence_mask(ys_in_lens, device=tgt.device)[:, :, None]


			memory = hs_pad
			memory_mask = myutils.sequence_mask(hlens, device=memory.device)[:, None, :]
			if chunk_mask is not None:
			memory_mask = memory_mask * chunk_mask
			if tgt_mask.size(1) != memory_mask.size(1):
			memory_mask = torch.cat((memory_mask, memory_mask[:, -2:-1, :]), dim=1)

			x = tgt
			x, tgt_mask, memory, memory_mask, _ = self.decoders(
			@@ -1077,7 +1081,7 @@
			for i in range(self.att_layer_num):
			decoder = self.decoders[i]
			c = cache[i]
			x, tgt_mask, memory, memory_mask, c_ret = decoder(
			x, tgt_mask, memory, memory_mask, c_ret = decoder.forward_chunk(
			x, tgt_mask, memory, None, cache=c
			)
			new_cache.append(c_ret)
			@@ -1087,14 +1091,14 @@
			j = i + self.att_layer_num
			decoder = self.decoders2[i]
			c = cache[j]
			x, tgt_mask, memory, memory_mask, c_ret = decoder(
			x, tgt_mask, memory, memory_mask, c_ret = decoder.forward_chunk(
			x, tgt_mask, memory, None, cache=c
			)
			new_cache.append(c_ret)

			for decoder in self.decoders3:

			x, tgt_mask, memory, memory_mask, _ = decoder(
			x, tgt_mask, memory, memory_mask, _ = decoder.forward_chunk(
			x, tgt_mask, memory, None, cache=None
			)