python/FunASR-XL.git

			@@ -3,11 +3,13 @@
			import time
			import websockets, ssl
			import asyncio

			# import threading
			import argparse
			import json
			import traceback
			from multiprocessing import Process

			# from funasr.fileio.datadir_writer import DatadirWriter

			import logging
			@@ -15,72 +17,34 @@
			logging.basicConfig(level=logging.ERROR)

			parser = argparse.ArgumentParser()
			parser.add_argument("--host",
			type=str,
			default="localhost",
			required=False,
			help="host ip, localhost, 0.0.0.0")
			parser.add_argument("--port",
			type=int,
			default=10095,
			required=False,
			help="grpc server port")
			parser.add_argument("--chunk_size",
			type=str,
			default="5, 10, 5",
			help="chunk")
			parser.add_argument("--encoder_chunk_look_back",
			type=int,
			default=4,
			help="chunk")
			parser.add_argument("--decoder_chunk_look_back",
			type=int,
			default=0,
			help="chunk")
			parser.add_argument("--chunk_interval",
			type=int,
			default=10,
			help="chunk")
			parser.add_argument("--hotword",
			parser.add_argument(
			"--host", type=str, default="localhost", required=False, help="host ip, localhost, 0.0.0.0"
			)
			parser.add_argument("--port", type=int, default=10095, required=False, help="grpc server port")
			parser.add_argument("--chunk_size", type=str, default="5, 10, 5", help="chunk")
			parser.add_argument("--encoder_chunk_look_back", type=int, default=4, help="chunk")
			parser.add_argument("--decoder_chunk_look_back", type=int, default=0, help="chunk")
			parser.add_argument("--chunk_interval", type=int, default=10, help="chunk")
			parser.add_argument(
			"--hotword",
			type=str,
			default="",
			help="hotword file path, one hotword perline (e.g.:阿里巴巴 20)")
			parser.add_argument("--audio_in",
			type=str,
			default=None,
			help="audio_in")
			parser.add_argument("--audio_fs",
			type=int,
			default=16000,
			help="audio_fs")
			parser.add_argument("--send_without_sleep",
			help="hotword file path, one hotword perline (e.g.:阿里巴巴 20)",
			)
			parser.add_argument("--audio_in", type=str, default=None, help="audio_in")
			parser.add_argument("--audio_fs", type=int, default=16000, help="audio_fs")
			parser.add_argument(
			"--send_without_sleep",
			action="store_true",
			default=True,
			help="if audio_in is set, send_without_sleep")
			parser.add_argument("--thread_num",
			type=int,
			default=1,
			help="thread_num")
			parser.add_argument("--words_max_print",
			type=int,
			default=10000,
			help="chunk")
			parser.add_argument("--output_dir",
			type=str,
			default=None,
			help="output_dir")
			parser.add_argument("--ssl",
			type=int,
			default=1,
			help="1 for ssl connect, 0 for no ssl")
			parser.add_argument("--use_itn",
			type=int,
			default=1,
			help="1 for using itn, 0 for not itn")
			parser.add_argument("--mode",
			type=str,
			default="2pass",
			help="offline, online, 2pass")
			help="if audio_in is set, send_without_sleep",
			)
			parser.add_argument("--thread_num", type=int, default=1, help="thread_num")
			parser.add_argument("--words_max_print", type=int, default=10000, help="chunk")
			parser.add_argument("--output_dir", type=str, default=None, help="output_dir")
			parser.add_argument("--ssl", type=int, default=1, help="1 for ssl connect, 0 for no ssl")
			parser.add_argument("--use_itn", type=int, default=1, help="1 for using itn, 0 for not itn")
			parser.add_argument("--mode", type=str, default="2pass", help="offline, online, 2pass")

			args = parser.parse_args()
			args.chunk_size = [int(x) for x in args.chunk_size.split(",")]
			@@ -102,6 +66,7 @@
			async def record_microphone():
			is_finished = False
			import pyaudio

			# print("2")
			global voices
			FORMAT = pyaudio.paInt16
			@@ -112,11 +77,9 @@

			p = pyaudio.PyAudio()

			stream = p.open(format=FORMAT,
			channels=CHANNELS,
			rate=RATE,
			input=True,
			frames_per_buffer=CHUNK)
			stream = p.open(
			format=FORMAT, channels=CHANNELS, rate=RATE, input=True, frames_per_buffer=CHUNK
			)
			# hotwords
			fst_dict = {}
			hotword_msg = ""
			@@ -141,7 +104,9 @@
			if args.use_itn == 0:
			use_itn=False

			message = json.dumps({"mode": args.mode,
			message = json.dumps(
			{
			"mode": args.mode,
			"chunk_size": args.chunk_size,
			"chunk_interval": args.chunk_interval,
			"encoder_chunk_look_back": args.encoder_chunk_look_back,
			@@ -150,7 +115,8 @@
			"is_speaking": True,
			"hotwords": hotword_msg,
			"itn": use_itn,
			})
			}
			)
			#voices.put(message)
			await websocket.send(message)
			while True:
			@@ -159,6 +125,7 @@
			#voices.put(message)
			await websocket.send(message)
			await asyncio.sleep(0.005)


			async def record_from_scp(chunk_begin, chunk_size):
			global voices
			@@ -210,6 +177,7 @@
			audio_bytes = f.read()
			elif wav_path.endswith(".wav"):
			import wave

			with wave.open(wav_path, "rb") as wav_file:
			params = wav_file.getparams()
			sample_rate = wav_file.getframerate()
			@@ -225,7 +193,9 @@
			# print(stride)

			# send first time
			message = json.dumps({"mode": args.mode,
			message = json.dumps(
			{
			"mode": args.mode,
			"chunk_size": args.chunk_size,
			"chunk_interval": args.chunk_interval,
			"encoder_chunk_look_back": args.encoder_chunk_look_back,
			@@ -235,7 +205,9 @@
			"wav_format": wav_format,
			"is_speaking": True,
			"hotwords": hotword_msg,
			"itn": use_itn})
			"itn": use_itn,
			}
			)

			#voices.put(message)
			await websocket.send(message)
			@@ -253,7 +225,11 @@
			#voices.put(message)
			await websocket.send(message)

			sleep_duration = 0.001 if args.mode == "offline" else 60 * args.chunk_size[1] / args.chunk_interval / 1000
			sleep_duration = (
			0.001
			if args.mode == "offline"
			else 60 * args.chunk_size[1] / args.chunk_interval / 1000
			)

			await asyncio.sleep(sleep_duration)

			@@ -269,14 +245,15 @@
			await websocket.close()



			async def message(id):
			global websocket,voices,offline_msg_done
			text_print = ""
			text_print_2pass_online = ""
			text_print_2pass_offline = ""
			if args.output_dir is not None:
			ibest_writer = open(os.path.join(args.output_dir, "text.{}".format(id)), "a", encoding="utf-8")
			ibest_writer = open(
			os.path.join(args.output_dir, "text.{}".format(id)), "a", encoding="utf-8"
			)
			else:
			ibest_writer = None
			try:
			@@ -298,12 +275,12 @@
			text_write_line = "{}\t{}\n".format(wav_name, text)
			ibest_writer.write(text_write_line)

			if 'mode' not in meg:
			if "mode" not in meg:
			continue
			if meg["mode"] == "online":
			text_print += "{}".format(text)
			text_print = text_print[-args.words_max_print:]
			os.system('clear')
			os.system("clear")
			print("\rpid" + str(id) + ": " + text_print)
			elif meg["mode"] == "offline":
			if timestamp !="":
			@@ -324,7 +301,7 @@
			text_print = text_print_2pass_offline + "{}".format(text)
			text_print_2pass_offline += "{}".format(text)
			text_print = text_print[-args.words_max_print:]
			os.system('clear')
			os.system("clear")
			print("\rpid" + str(id) + ": " + text_print)
			# offline_msg_done=True

			@@ -332,8 +309,6 @@
			print("Exception:", e)
			#traceback.print_exc()
			#await websocket.close()




			async def ws_client(id, chunk_begin, chunk_size):
			@@ -354,7 +329,9 @@
			uri = "ws://{}:{}".format(args.host, args.port)
			ssl_context = None
			print("connect to", uri)
			async with websockets.connect(uri, subprotocols=["binary"], ping_interval=None, ssl=ssl_context) as websocket:
			async with websockets.connect(
			uri, subprotocols=["binary"], ping_interval=None, ssl=ssl_context
			) as websocket:
			if args.audio_in is not None:
			task = asyncio.create_task(record_from_scp(i, 1))
			else:
			@@ -368,13 +345,14 @@
			asyncio.get_event_loop().run_until_complete(ws_client(id, chunk_begin, chunk_size))
			asyncio.get_event_loop().run_forever()

			if __name__ == '__main__':

			if __name__ == "__main__":
			# for microphone
			if args.audio_in is None:
			p = Process(target=one_thread, args=(0, 0, 0))
			p.start()
			p.join()
			print('end')
			print("end")
			else:
			# calculate the number of wavs for each preocess
			if args.audio_in.endswith(".scp"):
			@@ -387,7 +365,6 @@
			wav_name = wav_splits[0] if len(wav_splits) > 1 else "demo"
			wav_path = wav_splits[1] if len(wav_splits) > 1 else wav_splits[0]
			audio_type = os.path.splitext(wav_path)[-1].lower()


			total_len = len(wavs)
			if total_len >= args.thread_num:
			@@ -413,4 +390,4 @@
			for i in process_list:
			p.join()

			print('end')
			print("end")