python/FunASR-XL.git

			@@ -28,6 +28,7 @@

			from funasr.register import tables


			class DecoderLayer(nn.Module):
			"""Single decoder layer module.

			@@ -115,9 +116,7 @@
			tgt_q_mask = tgt_mask[:, -1:, :]

			if self.concat_after:
			tgt_concat = torch.cat(
			(tgt_q, self.self_attn(tgt_q, tgt, tgt, tgt_q_mask)), dim=-1
			)
			tgt_concat = torch.cat((tgt_q, self.self_attn(tgt_q, tgt, tgt, tgt_q_mask)), dim=-1)
			x = residual + self.concat_linear1(tgt_concat)
			else:
			x = residual + self.dropout(self.self_attn(tgt_q, tgt, tgt, tgt_q_mask))
			@@ -128,9 +127,7 @@
			if self.normalize_before:
			x = self.norm2(x)
			if self.concat_after:
			x_concat = torch.cat(
			(x, self.src_attn(x, memory, memory, memory_mask)), dim=-1
			)
			x_concat = torch.cat((x, self.src_attn(x, memory, memory, memory_mask)), dim=-1)
			x = residual + self.concat_linear2(x_concat)
			else:
			x = residual + self.dropout(self.src_attn(x, memory, memory, memory_mask))
			@@ -275,20 +272,14 @@
			tgt_mask = tgt_mask & m

			memory = hs_pad
			memory_mask = (~make_pad_mask(hlens, maxlen=memory.size(1)))[:, None, :].to(
			memory.device
			)
			memory_mask = (~make_pad_mask(hlens, maxlen=memory.size(1)))[:, None, :].to(memory.device)
			# Padding for Longformer
			if memory_mask.shape[-1] != memory.shape[1]:
			padlen = memory.shape[1] - memory_mask.shape[-1]
			memory_mask = torch.nn.functional.pad(
			memory_mask, (0, padlen), "constant", False
			)
			memory_mask = torch.nn.functional.pad(memory_mask, (0, padlen), "constant", False)

			x = self.embed(tgt)
			x, tgt_mask, memory, memory_mask = self.decoders(
			x, tgt_mask, memory, memory_mask
			)
			x, tgt_mask, memory, memory_mask = self.decoders(x, tgt_mask, memory, memory_mask)
			if self.normalize_before:
			x = self.after_norm(x)
			if self.output_layer is not None:
			@@ -322,9 +313,7 @@
			cache = [None] * len(self.decoders)
			new_cache = []
			for c, decoder in zip(cache, self.decoders):
			x, tgt_mask, memory, memory_mask = decoder(
			x, tgt_mask, memory, None, cache=c
			)
			x, tgt_mask, memory, memory_mask = decoder(x, tgt_mask, memory, None, cache=c)
			new_cache.append(x)

			if self.normalize_before:
			@@ -339,9 +328,7 @@
			def score(self, ys, state, x):
			"""Score."""
			ys_mask = subsequent_mask(len(ys), device=x.device).unsqueeze(0)
			logp, state = self.forward_one_step(
			ys.unsqueeze(0), ys_mask, x.unsqueeze(0), cache=state
			)
			logp, state = self.forward_one_step(ys.unsqueeze(0), ys_mask, x.unsqueeze(0), cache=state)
			return logp.squeeze(0), state

			def batch_score(
			@@ -369,8 +356,7 @@
			else:
			# transpose state of [batch, layer] into [layer, batch]
			batch_state = [
			torch.stack([states[b][i] for b in range(n_batch)])
			for i in range(n_layers)
			torch.stack([states[b][i] for b in range(n_batch)]) for i in range(n_layers)
			]

			# batch decoding
			@@ -380,6 +366,7 @@
			# transpose state of [layer, batch] into [batch, layer]
			state_list = [[states[i][b] for i in range(n_layers)] for b in range(n_batch)]
			return logp, state_list


			@tables.register("decoder_classes", "TransformerDecoder")
			class TransformerDecoder(BaseTransformerDecoder):
			@@ -416,12 +403,8 @@
			num_blocks,
			lambda lnum: DecoderLayer(
			attention_dim,
			MultiHeadedAttention(
			attention_heads, attention_dim, self_attention_dropout_rate
			),
			MultiHeadedAttention(
			attention_heads, attention_dim, src_attention_dropout_rate
			),
			MultiHeadedAttention(attention_heads, attention_dim, self_attention_dropout_rate),
			MultiHeadedAttention(attention_heads, attention_dim, src_attention_dropout_rate),
			PositionwiseFeedForward(attention_dim, linear_units, dropout_rate),
			dropout_rate,
			normalize_before,
			@@ -481,15 +464,14 @@
			use_kernel_mask=True,
			use_bias=conv_usebias,
			),
			MultiHeadedAttention(
			attention_heads, attention_dim, src_attention_dropout_rate
			),
			MultiHeadedAttention(attention_heads, attention_dim, src_attention_dropout_rate),
			PositionwiseFeedForward(attention_dim, linear_units, dropout_rate),
			dropout_rate,
			normalize_before,
			concat_after,
			),
			)


			@tables.register("decoder_classes", "LightweightConvolution2DTransformerDecoder")
			class LightweightConvolution2DTransformerDecoder(BaseTransformerDecoder):
			@@ -542,9 +524,7 @@
			use_kernel_mask=True,
			use_bias=conv_usebias,
			),
			MultiHeadedAttention(
			attention_heads, attention_dim, src_attention_dropout_rate
			),
			MultiHeadedAttention(attention_heads, attention_dim, src_attention_dropout_rate),
			PositionwiseFeedForward(attention_dim, linear_units, dropout_rate),
			dropout_rate,
			normalize_before,
			@@ -604,15 +584,14 @@
			use_kernel_mask=True,
			use_bias=conv_usebias,
			),
			MultiHeadedAttention(
			attention_heads, attention_dim, src_attention_dropout_rate
			),
			MultiHeadedAttention(attention_heads, attention_dim, src_attention_dropout_rate),
			PositionwiseFeedForward(attention_dim, linear_units, dropout_rate),
			dropout_rate,
			normalize_before,
			concat_after,
			),
			)


			@tables.register("decoder_classes", "DynamicConvolution2DTransformerDecoder")
			class DynamicConvolution2DTransformerDecoder(BaseTransformerDecoder):
			@@ -665,9 +644,7 @@
			use_kernel_mask=True,
			use_bias=conv_usebias,
			),
			MultiHeadedAttention(
			attention_heads, attention_dim, src_attention_dropout_rate
			),
			MultiHeadedAttention(attention_heads, attention_dim, src_attention_dropout_rate),
			PositionwiseFeedForward(attention_dim, linear_units, dropout_rate),
			dropout_rate,
			normalize_before,