python/FunASR-XL.git

			@@ -6,7 +6,7 @@


			def isChinese(ch: str):
			if '\u4e00' <= ch <= '\u9fff' or '\u0030' <= ch <= '\u0039':
			if '\u4e00' <= ch <= '\u9fff' or '\u0030' <= ch <= '\u0039' or ch == '@':
			return True
			return False

			@@ -17,6 +17,8 @@
			cur = i.replace(' ', '')
			cur = cur.replace('</s>', '')
			cur = cur.replace('<s>', '')
			cur = cur.replace('<unk>', '')
			cur = cur.replace('<OOV>', '')
			word_lists.append(cur)

			if len(word_lists) == 0:
			@@ -34,6 +36,8 @@
			cur = i.replace(' ', '')
			cur = cur.replace('</s>', '')
			cur = cur.replace('<s>', '')
			cur = cur.replace('<unk>', '')
			cur = cur.replace('<OOV>', '')
			word_lists.append(cur)

			if len(word_lists) == 0:
			@@ -144,7 +148,7 @@
			else:
			word = i.decode('utf-8')

			if word in ['<s>', '</s>', '<unk>']:
			if word in ['<s>', '</s>', '<unk>', '<OOV>']:
			continue
			else:
			middle_lists.append(word)