python/FunASR-XL.git

			@@ -87,7 +87,9 @@
			x = self.norm1(x)

			if self.concat_after:
			x_concat = torch.cat((x, self.self_attn(x, mask, mask_att_chunk_encoder=mask_att_chunk_encoder)), dim=-1)
			x_concat = torch.cat(
			(x, self.self_attn(x, mask, mask_att_chunk_encoder=mask_att_chunk_encoder)), dim=-1
			)
			if self.in_size == self.size:
			x = residual + stoch_layer_coeff * self.concat_linear(x_concat)
			else:
			@@ -207,32 +209,36 @@

			self.encoders = repeat(
			num_blocks,
			lambda lnum: EncoderLayer(
			output_size,
			output_size,
			MultiHeadSelfAttention(
			attention_heads,
			lambda lnum: (
			EncoderLayer(
			output_size,
			output_size,
			attention_dropout_rate,
			),
			positionwise_layer(*positionwise_layer_args),
			dropout_rate,
			normalize_before,
			concat_after,
			) if lnum > 0 else EncoderLayer(
			input_size,
			output_size,
			MultiHeadSelfAttention(
			attention_heads,
			input_size if input_layer == "pe" or input_layer == "null" else output_size,
			MultiHeadSelfAttention(
			attention_heads,
			output_size,
			output_size,
			attention_dropout_rate,
			),
			positionwise_layer(*positionwise_layer_args),
			dropout_rate,
			normalize_before,
			concat_after,
			)
			if lnum > 0
			else EncoderLayer(
			input_size,
			output_size,
			attention_dropout_rate,
			),
			positionwise_layer(*positionwise_layer_args),
			dropout_rate,
			normalize_before,
			concat_after,
			MultiHeadSelfAttention(
			attention_heads,
			input_size if input_layer == "pe" or input_layer == "null" else output_size,
			output_size,
			attention_dropout_rate,
			),
			positionwise_layer(*positionwise_layer_args),
			dropout_rate,
			normalize_before,
			concat_after,
			)
			),
			)
			if self.normalize_before:
			@@ -270,7 +276,7 @@
			position embedded tensor and mask
			"""
			masks = (~make_pad_mask(ilens)[:, None, :]).to(xs_pad.device)
			xs_pad = xs_pad * self.output_size()**0.5
			xs_pad = xs_pad * self.output_size() ** 0.5
			if self.embed is None:
			xs_pad = xs_pad
			elif (
			@@ -325,154 +331,3 @@
			if len(intermediate_outs) > 0:
			return (xs_pad, intermediate_outs), olens, None
			return xs_pad, olens, None

			def gen_tf2torch_map_dict(self):
			tensor_name_prefix_torch = self.tf2torch_tensor_name_prefix_torch
			tensor_name_prefix_tf = self.tf2torch_tensor_name_prefix_tf
			map_dict_local = {
			# cicd
			# torch: conv1d.weight in "out_channel in_channel kernel_size"
			# tf : conv1d.weight in "kernel_size in_channel out_channel"
			# torch: linear.weight in "out_channel in_channel"
			# tf : dense.weight in "in_channel out_channel"
			"{}.encoders.layeridx.norm1.weight".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/multi_head/LayerNorm/gamma".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (256,),(256,)
			"{}.encoders.layeridx.norm1.bias".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/multi_head/LayerNorm/beta".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (256,),(256,)
			"{}.encoders.layeridx.self_attn.linear_q_k_v.weight".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/multi_head/conv1d/kernel".format(tensor_name_prefix_tf),
			"squeeze": 0,
			"transpose": (1, 0),
			}, # (768,256),(1,256,768)
			"{}.encoders.layeridx.self_attn.linear_q_k_v.bias".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/multi_head/conv1d/bias".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (768,),(768,)
			"{}.encoders.layeridx.self_attn.linear_out.weight".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/multi_head/conv1d_1/kernel".format(tensor_name_prefix_tf),
			"squeeze": 0,
			"transpose": (1, 0),
			}, # (256,256),(1,256,256)
			"{}.encoders.layeridx.self_attn.linear_out.bias".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/multi_head/conv1d_1/bias".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (256,),(256,)
			# ffn
			"{}.encoders.layeridx.norm2.weight".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/ffn/LayerNorm/gamma".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (256,),(256,)
			"{}.encoders.layeridx.norm2.bias".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/ffn/LayerNorm/beta".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (256,),(256,)
			"{}.encoders.layeridx.feed_forward.w_1.weight".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/ffn/conv1d/kernel".format(tensor_name_prefix_tf),
			"squeeze": 0,
			"transpose": (1, 0),
			}, # (1024,256),(1,256,1024)
			"{}.encoders.layeridx.feed_forward.w_1.bias".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/ffn/conv1d/bias".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (1024,),(1024,)
			"{}.encoders.layeridx.feed_forward.w_2.weight".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/ffn/conv1d_1/kernel".format(tensor_name_prefix_tf),
			"squeeze": 0,
			"transpose": (1, 0),
			}, # (256,1024),(1,1024,256)
			"{}.encoders.layeridx.feed_forward.w_2.bias".format(tensor_name_prefix_torch):
			{"name": "{}/layer_layeridx/ffn/conv1d_1/bias".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (256,),(256,)
			# out norm
			"{}.after_norm.weight".format(tensor_name_prefix_torch):
			{"name": "{}/LayerNorm/gamma".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (256,),(256,)
			"{}.after_norm.bias".format(tensor_name_prefix_torch):
			{"name": "{}/LayerNorm/beta".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (256,),(256,)
			}
			if self.out_units is not None:
			map_dict_local.update({
			"{}.output_linear.weight".format(tensor_name_prefix_torch):
			{"name": "{}/conv1d/kernel".format(tensor_name_prefix_tf),
			"squeeze": 0,
			"transpose": (1, 0),
			},
			"{}.output_linear.bias".format(tensor_name_prefix_torch):
			{"name": "{}/conv1d/bias".format(tensor_name_prefix_tf),
			"squeeze": None,
			"transpose": None,
			}, # (256,),(256,)
			})

			return map_dict_local

			def convert_tf2torch(self,
			var_dict_tf,
			var_dict_torch,
			):

			map_dict = self.gen_tf2torch_map_dict()

			var_dict_torch_update = dict()
			for name in sorted(var_dict_torch.keys(), reverse=False):
			if name.startswith(self.tf2torch_tensor_name_prefix_torch):
			# process special (first and last) layers
			if name in map_dict:
			name_tf = map_dict[name]["name"]
			data_tf = var_dict_tf[name_tf]
			data_tf = torch.from_numpy(data_tf).type(torch.float32).to("cpu")
			if map_dict[name]["squeeze"] is not None:
			data_tf = np.squeeze(data_tf, axis=map_dict[name]["squeeze"])
			if map_dict[name]["transpose"] is not None:
			data_tf = np.transpose(data_tf, map_dict[name]["transpose"])
			assert var_dict_torch[name].size() == data_tf.size(), \
			"{}, {}, {} != {}".format(name, name_tf,
			var_dict_torch[name].size(), data_tf.size())
			var_dict_torch_update[name] = data_tf
			logging.info("torch tensor: {}, {}, loading from tf tensor: {}, {}".format(
			name, data_tf.size(), name_tf, var_dict_tf[name_tf].shape
			))
			# process general layers
			else:
			# self.tf2torch_tensor_name_prefix_torch may include ".", solve this case
			names = name.replace(self.tf2torch_tensor_name_prefix_torch, "todo").split('.')
			layeridx = int(names[2])
			name_q = name.replace(".{}.".format(layeridx), ".layeridx.")
			if name_q in map_dict.keys():
			name_v = map_dict[name_q]["name"]
			name_tf = name_v.replace("layeridx", "{}".format(layeridx))
			data_tf = var_dict_tf[name_tf]
			if map_dict[name_q]["squeeze"] is not None:
			data_tf = np.squeeze(data_tf, axis=map_dict[name_q]["squeeze"])
			if map_dict[name_q]["transpose"] is not None:
			data_tf = np.transpose(data_tf, map_dict[name_q]["transpose"])
			data_tf = torch.from_numpy(data_tf).type(torch.float32).to("cpu")
			assert var_dict_torch[name].size() == data_tf.size(), \
			"{}, {}, {} != {}".format(name, name_tf,
			var_dict_torch[name].size(), data_tf.size())
			var_dict_torch_update[name] = data_tf
			logging.info("torch tensor: {}, {}, loading from tf tensor: {}, {}".format(
			name, data_tf.size(), name_tf, var_dict_tf[name_tf].shape
			))
			else:
			logging.warning("{} is missed from tf checkpoint".format(name))

			return var_dict_torch_update