python/FunASR-XL.git

FUNASR训练

parent: 9e13f028 | 补丁 | 提交 | show whitespace

游雁

2024-06-11 f57b3788f2c91e52a48629423c7bc0539e44f793

fixbug

2个文件已修改

	funasr/auto/auto_model.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/llm_asr/model.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史

 funasr/auto/auto_model.py

@@ -212,7 +212,6 @@
        deep_update(model_conf, kwargs.get("model_conf", {}))
        deep_update(model_conf, kwargs)
        model = model_class(**model_conf, vocab_size=vocab_size)
        model.to(device)

        # init_param
        init_param = kwargs.get("init_param", None)
@@ -235,6 +234,7 @@
            model.to(torch.float16)
        elif kwargs.get("bf16", False):
            model.to(torch.bfloat16)
        model.to(device)
        return model, kwargs

    def __call__(self, *args, **cfg):

 funasr/models/llm_asr/model.py

@@ -687,10 +687,8 @@
        # fp16
        if kwargs.get("fp16", False):
            speech = speech.to(torch.float16)
            encoder_out_lens = encoder_out_lens.to(torch.float16)
        elif kwargs.get("bf16", False):
            speech = speech.to(torch.bfloat16)
            encoder_out_lens = encoder_out_lens.to(torch.bfloat16)
        encoder_out, encoder_out_lens = self.audio_encoder(speech.permute(0, 2, 1), speech_lengths)

        # audio_adaptor

			@@ -212,7 +212,6 @@
			deep_update(model_conf, kwargs.get("model_conf", {}))
			deep_update(model_conf, kwargs)
			model = model_class(**model_conf, vocab_size=vocab_size)
			model.to(device)

			# init_param
			init_param = kwargs.get("init_param", None)
			@@ -235,6 +234,7 @@
			model.to(torch.float16)
			elif kwargs.get("bf16", False):
			model.to(torch.bfloat16)
			model.to(device)
			return model, kwargs

			def __call__(self, args, *cfg):

			@@ -687,10 +687,8 @@
			# fp16
			if kwargs.get("fp16", False):
			speech = speech.to(torch.float16)
			encoder_out_lens = encoder_out_lens.to(torch.float16)
			elif kwargs.get("bf16", False):
			speech = speech.to(torch.bfloat16)
			encoder_out_lens = encoder_out_lens.to(torch.bfloat16)
			encoder_out, encoder_out_lens = self.audio_encoder(speech.permute(0, 2, 1), speech_lengths)

			# audio_adaptor