python/FunASR-XL.git

			@@ -9,6 +9,7 @@
			import time
			import copy
			import os
			import re
			import codecs
			import tempfile
			import requests
			@@ -304,6 +305,7 @@
			nbest: int = 1,
			frontend_conf: dict = None,
			hotword_list_or_file: str = None,
			decoding_ind: int = 0,
			**kwargs,
			):
			assert check_argument_types()
			@@ -414,6 +416,7 @@
			self.nbest = nbest
			self.frontend = frontend
			self.encoder_downsampling_factor = 1
			self.decoding_ind = decoding_ind
			if asr_train_args.encoder == "data2vec_encoder" or asr_train_args.encoder_conf["input_layer"] == "conv2d":
			self.encoder_downsampling_factor = 4

			@@ -451,7 +454,7 @@
			batch = to_device(batch, device=self.device)

			# b. Forward Encoder
			enc, enc_len = self.asr_model.encode(**batch)
			enc, enc_len = self.asr_model.encode(**batch, ind=self.decoding_ind)
			if isinstance(enc, tuple):
			enc = enc[0]
			# assert len(enc) == 1, len(enc)
			@@ -488,15 +491,20 @@

			nbest_hyps = nbest_hyps[: self.nbest]
			else:
			yseq = am_scores.argmax(dim=-1)
			score = am_scores.max(dim=-1)[0]
			score = torch.sum(score, dim=-1)
			# pad with mask tokens to ensure compatibility with sos/eos tokens
			yseq = torch.tensor(
			[self.asr_model.sos] + yseq.tolist() + [self.asr_model.eos], device=yseq.device
			)
			if pre_token_length[i] == 0:
			yseq = torch.tensor(
			[self.asr_model.sos] + [self.asr_model.eos], device=yseq.device
			)
			score = torch.tensor(0.0, device=yseq.device)
			else:
			yseq = am_scores.argmax(dim=-1)
			score = am_scores.max(dim=-1)[0]
			score = torch.sum(score, dim=-1)
			# pad with mask tokens to ensure compatibility with sos/eos tokens
			yseq = torch.tensor(
			[self.asr_model.sos] + yseq.tolist() + [self.asr_model.eos], device=yseq.device
			)
			nbest_hyps = [Hypothesis(yseq=yseq, score=score)]

			for hyp in nbest_hyps:
			assert isinstance(hyp, (Hypothesis)), type(hyp)

			@@ -823,9 +831,16 @@

			# Change integer-ids to tokens
			token = self.converter.ids2tokens(token_int)
			token = " ".join(token)

			results.append(token)
			postprocessed_result = ""
			for item in token:
			if item.endswith('@@'):
			postprocessed_result += item[:-2]
			elif re.match('^[a-zA-Z]+$', item):
			postprocessed_result += item + " "
			else:
			postprocessed_result += item

			results.append(postprocessed_result)

			# assert check_return_type(results)
			return results
			@@ -1497,8 +1512,13 @@
			if isinstance(speech, np.ndarray):
			speech = torch.tensor(speech)

			feats = speech.unsqueeze(0).to(getattr(torch, self.dtype))
			feats_lengths = feats.new_full([1], dtype=torch.long, fill_value=feats.size(1))
			if self.frontend is not None:
			speech = torch.unsqueeze(speech, axis=0)
			speech_lengths = speech.new_full([1], dtype=torch.long, fill_value=speech.size(1))
			feats, feats_lengths = self.frontend(speech, speech_lengths)
			else:
			feats = speech.unsqueeze(0).to(getattr(torch, self.dtype))
			feats_lengths = feats.new_full([1], dtype=torch.long, fill_value=feats.size(1))

			if self.asr_model.normalize is not None:
			feats, feats_lengths = self.asr_model.normalize(feats, feats_lengths)
			@@ -1523,14 +1543,19 @@

			if isinstance(speech, np.ndarray):
			speech = torch.tensor(speech)

			feats = speech.unsqueeze(0).to(getattr(torch, self.dtype))
			feats_lengths = feats.new_full([1], dtype=torch.long, fill_value=feats.size(1))

			if self.frontend is not None:
			speech = torch.unsqueeze(speech, axis=0)
			speech_lengths = speech.new_full([1], dtype=torch.long, fill_value=speech.size(1))
			feats, feats_lengths = self.frontend(speech, speech_lengths)
			else:
			feats = speech.unsqueeze(0).to(getattr(torch, self.dtype))
			feats_lengths = feats.new_full([1], dtype=torch.long, fill_value=feats.size(1))

			feats = to_device(feats, device=self.device)
			feats_lengths = to_device(feats_lengths, device=self.device)

			enc_out, _ = self.asr_model.encoder(feats, feats_lengths)
			enc_out, _, _ = self.asr_model.encoder(feats, feats_lengths)

			nbest_hyps = self.beam_search(enc_out[0])