python/FunASR-XL.git

			@@ -422,7 +422,7 @@
			layer_id = int(name[beg + 1 : end - 1])
			if layer_id < freeze_layer_num:
			param.requires_grad = False
			elif not name.startswith("audio_encoder.ln_post"):
			elif "ln_post." not in name:
			param.requires_grad = False
			else:
			param.requires_grad = False
			@@ -496,11 +496,14 @@

			batch_size, frames, _ = speech.shape

			# audio encoder
			encoder_out, encoder_out_lens = self.audio_encoder(speech.permute(0, 2, 1), speech_lengths)
			with torch.cuda.amp.autocast(enabled=False):
			# audio encoder
			encoder_out, encoder_out_lens = self.audio_encoder(
			speech.permute(0, 2, 1), speech_lengths
			)

			# audio_adaptor
			encoder_out, encoder_out_lens = self.audio_adaptor(encoder_out, encoder_out_lens)
			# audio_adaptor
			encoder_out, encoder_out_lens = self.audio_adaptor(encoder_out, encoder_out_lens)

			input_ids[input_ids < 0] = 0
			inputs_embeds = self.llm.model.get_input_embeddings()(input_ids)