python/FunASR-XL.git

			@@ -17,6 +17,7 @@
			from funasr.models.transformer.utils.nets_utils import make_pad_mask
			import funasr.models.lora.layers as lora


			class MultiHeadedAttention(nn.Module):
			"""Multi-Head Attention layer.

			@@ -81,9 +82,7 @@
			n_batch = value.size(0)
			if mask is not None:
			mask = mask.unsqueeze(1).eq(0) # (batch, 1, *, time2)
			min_value = float(
			numpy.finfo(torch.tensor(0, dtype=scores.dtype).numpy().dtype).min
			)
			min_value = float(numpy.finfo(torch.tensor(0, dtype=scores.dtype).numpy().dtype).min)
			scores = scores.masked_fill(mask, min_value)
			self.attn = torch.softmax(scores, dim=-1).masked_fill(
			mask, 0.0
			@@ -190,9 +189,7 @@
			matrix_bd = torch.matmul(q_with_bias_v, p.transpose(-2, -1))
			matrix_bd = self.rel_shift(matrix_bd)

			scores = (matrix_ac + matrix_bd) / math.sqrt(
			self.d_k
			) # (batch, head, time1, time2)
			scores = (matrix_ac + matrix_bd) / math.sqrt(self.d_k) # (batch, head, time1, time2)

			return self.forward_attention(v, scores, mask)

			@@ -306,9 +303,7 @@
			matrix_bd = torch.matmul(q_with_bias_v, p.transpose(-2, -1))
			matrix_bd = self.rel_shift(matrix_bd)

			scores = (matrix_ac + matrix_bd) / math.sqrt(
			self.d_k
			) # (batch, head, time1, time2)
			scores = (matrix_ac + matrix_bd) / math.sqrt(self.d_k) # (batch, head, time1, time2)

			return self.forward_attention(v, scores, mask)

			@@ -405,9 +400,7 @@
			matrix_bd = torch.matmul(q_with_bias_v, p.transpose(-2, -1))
			matrix_bd = self.rel_shift(matrix_bd)

			scores = (matrix_ac + matrix_bd) / math.sqrt(
			self.d_k
			) # (batch, head, time1, time2)
			scores = (matrix_ac + matrix_bd) / math.sqrt(self.d_k) # (batch, head, time1, time2)

			return self.forward_attention(v, scores, mask)

			@@ -552,21 +545,9 @@
			"""
			n_batch = query.size(0)

			q = (
			self.linear_q(query)
			.view(n_batch, -1, self.num_heads, self.d_k)
			.transpose(1, 2)
			)
			k = (
			self.linear_k(key)
			.view(n_batch, -1, self.num_heads, self.d_k)
			.transpose(1, 2)
			)
			v = (
			self.linear_v(value)
			.view(n_batch, -1, self.num_heads, self.d_k)
			.transpose(1, 2)
			)
			q = self.linear_q(query).view(n_batch, -1, self.num_heads, self.d_k).transpose(1, 2)
			k = self.linear_k(key).view(n_batch, -1, self.num_heads, self.d_k).transpose(1, 2)
			v = self.linear_v(value).view(n_batch, -1, self.num_heads, self.d_k).transpose(1, 2)

			return q, k, v

			@@ -597,9 +578,7 @@
			attn_output = torch.matmul(attn_output, value)

			attn_output = self.linear_out(
			attn_output.transpose(1, 2)
			.contiguous()
			.view(batch_size, -1, self.num_heads * self.d_k)
			attn_output.transpose(1, 2).contiguous().view(batch_size, -1, self.num_heads * self.d_k)
			)

			return attn_output
			@@ -629,4 +608,3 @@
			q, k, v = self.forward_qkv(query, key, value)
			scores = self.compute_att_score(q, k, pos_enc, left_context=left_context)
			return self.forward_attention(v, scores, mask, chunk_mask=chunk_mask)