python/FunASR-XL.git

			@@ -54,14 +54,13 @@

			meta_data = {}
			# meta_data["batch_data_time"] = -1

			sp_prompt = "<\|startoftranscription\|><\|en\|><\|transcribe\|><\|en\|><\|notimestamps\|><\|wo_itn\|>"
			query = f"<audio>{data_in[0]}</audio>{sp_prompt}"
			prompt = kwargs.get("prompt", "<\|startoftranscription\|><\|en\|><\|transcribe\|><\|en\|><\|notimestamps\|><\|wo_itn\|>")
			query = f"<audio>{data_in[0]}</audio>{prompt}"
			audio_info = self.tokenizer.process_audio(query)
			inputs = self.tokenizer(query, return_tensors='pt', audio_info=audio_info)
			inputs = inputs.to(self.model.device)
			pred = self.model.generate(**inputs, audio_info=audio_info)
			response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False, audio_info=audio_info)
			response = self.tokenizer.decode(pred.cpu()[0], skip_special_tokens=False, audio_info=audio_info)

			results = []
			result_i = {"key": key[0], "text": response}