From 14a3da36432a89be094757677e6e7dc093fdf359 Mon Sep 17 00:00:00 2001
From: Chong Zhang <iriszhangchong@gmail.com>
Date: 星期五, 05 五月 2023 13:01:25 +0800
Subject: [PATCH] Update postprocess_utils.py

---
 funasr/utils/postprocess_utils.py |   31 +++++++++++++++++++++++++++++++
 1 files changed, 31 insertions(+), 0 deletions(-)

diff --git a/funasr/utils/postprocess_utils.py b/funasr/utils/postprocess_utils.py
index b607e1d..e3d8d6b 100644
--- a/funasr/utils/postprocess_utils.py
+++ b/funasr/utils/postprocess_utils.py
@@ -51,6 +51,26 @@
 
     return True
 
+def isMy(word: Union[List[Any], str]):
+    my_char = ['醼呩��', '醼�醼��', '醼栣�坚�呩��', '醼�', '醼贬��', '醼涐�勧�横��', 'w', '醼曖���', '醼曖�愥��', '醼溼��', '醼呩���', '醼樶��醼�', '醼�醼�', '醼��', '醼忈��', '醼栣�贬���', '醼♂�愥�结�勧�横��', 'r', '醽�', '醼愥���', '醼曖�坚�斸��', '醼��', 'h', '醼栣��', '醼�醼贯��', '醼欋��', '醼♂�戓��', '醼嗎��', '醼曖�贬��', '醼愥��', '醽�', '醼欋�横��', '醼�', '醼戓���', '醼呩��', '醼戓��羔�炨�娽��', '醼♂�佱�坚��', '醼呩��', '醼愥���丰�炨�娽��', '醼♂��', '醼涐�册��', '醼�', '醼�', 'o', '醼�愥��', '醼溼��', '醼曖�勧��', '醼斸���勧�横�勧��', '醼曖��愥�氠��', '醼�醼��', '醼♂�栣�结�册��', '醼♂�佱�坚���', '醼氠�丰��', '醼曖���', '醼娽�横��', '醼氠��', '醼嗎��夺��', '醽�', '醼�醼坚�贬��勧�横��', '醼愥�曖��', '醼♂�斸��', '醼�', '醽�', '醼���', '醼佱�会��曖��', '醼斸��', '醼�', '醼�', '醼溼�结��', '醼♂��', '醽�', '醼�', '醼斸���勧��', '醼愥�娽��', '醼愥��', '醼♂�佱�会��斸��', '醼曖��', '醼濁�勧��', '醼掅��', '醼炨��', 'l', '醼�', '醼册��', '醼♂��', '醼曖��', '醼呩��愥��', '醼�醼坚�炨�娽��', '醼�', 's', 't', '醼炨��', '醼溼��', '醼���醼�', '醼欋�会��羔�炨�娽��', '醼勧��', '醼��', '醼戓��', '醼溼��', '醼濁�斸��', '醼�', '醼佱�册��', '醼呩�结��', '醼�', '醼斸�踞�勧�丰��', '醽�', '醼♂�呩����', '醼涐��', '醽�', '醼愥�氠��', '醽庒�勧�横��', '醽�', '醼曖�娽��', '醼�醼坚���', '醼炨���丰�欋�熱��愥��', '醽�', '醼��', '醼欋��', 'f', '醼佱��', '醼��', 'c', '醼�曖��', 'l', '醼♂��', '醼斸�贬���醼�', '醼炨�贬��', '醼�斸�横��', '醼�', '醼�醼�', '醼�', '醼屷��', 'p', '醼曖�贬���', 'h', '醼曖�勧��', '醼�', '醼掅��', '醼�', '醼溼��醼贯��', 'r', '醼曖��', '醼掅��', '醼欋��', '醼涐��', '醼溼�会��', '醼溼�贬��', '醼涐�贬��傖��', '醼贬���', '醼溼�娽��', '醼栣�结�册��', '醼欋��', '醼炨��', '醼戓��愥��', '醼涐��', '醼♂���', '醼�', '醼�', '醼��', '醼�醼会�贬���', '醼♂��', 'g', '醼斸��', '醼涐��', '醼涐��', 'v', '醼炨�贬��', '醼溼��', '醼愥��', '醼��', 'j', '醼�醼�', '醼涐�结��', '醼欋�会��醼横�斸��', '醼�', 'q', '醼曖��', '醼�', '醼�', '醼�', '醼♂�佱��', 'd', '醼�', '醼溼��', '醼炨�娽��', '醼欋�坚�斸�横�欋��', '醼氠��', '醼�', '醼�', '醼�', '醼册��', '醼曖��', '醼�', '醼欋��', '醼曖�坚���', '醼�醼��', '醼溼�娽�横��', '醼�', '醼欋��', '醼斸�结�贬��', '醼�', '醼♂�炨��夺�羔�曖�坚��', '醼贬��', '醼佱��', '醼欋��', '醼溼��', '醼斸�丰��', '醼�', '醼娽��', '醼�醼斸��', '醼�', '醼�', '醼贬��', '醼溼��', '醼愥��', '醼欋�坚����', '醼�愥��', '醼�', '醼♂�涐�贬��', '醼�曖��', 'p', '醼�', '醼勧��', '醼炨�结���', '醼愥���勧�横��', '醽�', '醼�', '醼呩��', '醼栣�坚�愥��', '醼栣��', 'k', '醼炨��', '醼愥�呩��', '醼�', '醼呩��醼�', '醼�醼坚���', '醼曖�坚�娽�横�斸�氠��', '醼濁��', '醼樶�搬��', '醼�', '醼勧��', '醼愥�贬���', '醼�醼�', '醼�醼�', '醼�', 'i', '醼♂��', 'o', '醼�', 'b', '醼勧�横��', '醼掅��', '醼娽��', 'w', '醼勧��', '醼�', '醼欋�踞�愥��', '醼�', '醼佱�坚���', '醼�醼坚�贬��勧�丰��', '醼斸��', '醼欋�踞��', 'f', '醼曖��', '醼�醼会�结�斸�横��曖��', '醽佱亐', '醼佱�贬��', '醼氠��', '醽�', '醼�', '醼♂��', '醼斸���勧��', '醼炨��醼�', '醼曖�贬��', 'a', '醼�醼会�结�斸��', 'd', '醼戓��', 't', 'n', '醼�', '醼♂�涐��', '醼佱��', '醼�', '醼��勧��', '醼娽�丰��', '醼�欋��', '醼炨�娽��', '醼愥�结��', '醼♂�佱��', '醼�醼��', '醼�', '醼炨��夺��', '醼�', '醼炨�搬�欋�会���', '醼���醼�', '醼♂�欋�会����', '醽�', '醼呩���', '醼�', '醼愥�册��', '醼欋�会���', 's', '醼�', '醼�', '醼♂�撫��', '醼斸���勧�横�炨�娽��', '醼�', '醼�', '醼�', '醼呩�娽�横��', '醽�', '醼斸��', '醼�', '醼佱��', '醼斸�娽�横��', '醼♂��醼�', '醼斸��', '醼愥��', '醼�', '醼曖�坚�贬��', '醼欋�踞�愥��', '醼贬��勧�横��', '醼斸�横��', '醼涐�贬��', '醼嗎���', '醼搬��', '醼涐�贬���醼�', '醼戓����', '醼娽��', '醼曖�坚�斸��', '醼掅��', '醼呩�呩��', '醼熱��', '醼�', '醼曖�坚�勧��', '醼嗎���勧�横�涐��', 'z', '醼佱��斸�踞�呩��', '醼斸�册��', '醼�', '醼呩��', '醼贬��', 'c', '醼溼��曖��', '醼欋�会����', '醼�醼�', '醼樶��', '醼欋�会���', '醼�愥��', '醼呩���', '醼愥���', '醼氠���', '醼愥��', 'q', 'k', '醼�', '醼勧�横��', '醼呩��', '醼♂��羔�溼��夺��', '醼♂��', '醼�', '醼♂��', '醼佱�会��醼�', '醼嗎��醼�', '醼娽�横��', '醼���', '醼溼��曖��', '醼曖�结��', '醼�醼�', '醼呩�曖��', '醼♂��', '醼曖���勧�横��', 'm', '醼栣����', '醼�', '醼�', '醼愥�勧��', '醼曖��', '醼曖�坚�勧��', '醼�', '醼斸�氠��', 'm', '醼��', '醼♂�斸��', '醼♂�愥�结��醼�', '醼勧�丰��', '醼涐�踞��', '醼佱��', '醽�', 'v', '醼欋��', '醼�醼�', '醼溼�贬��', '醼愥����醼�', '醼�', '醼炨��', '醼��勧��', '醽�', 'j', '醼�醼坚���', '醼�醼贬��勧�横��', '醼︶��', '醼愥�呩�横�佱��', '醼戓��愥��', '醼�醼�', 'u', '醼欋�娽��', '醼涐��', '醼欋�勧�横��', '醼�', '醼呩��', '醼嗎���勧��', '醼嗎��醼�', '醼愥�结�勧��', '醼欋�坚���丰�斸�氠��', '醼呩��', '醼�', '醼愥�呩�横�︶��', '醼溼��醼�', '醼�愥��', '醼炨�搬�愥����', '醼�', '醼炨��', '醼�', '醼欋��', '醼氠��', '醼�', '醼�', '醼欋��', '醼涐�贬���', '醼炨��', '醼濁�勧��', '醼♂��', '醼涐��醼�', '醼欋�会��醼�', '醼戓���', '醽�', '醼愥��', '醼愥����', '醼�', '醼斸�贬��', '醼涐�勧��', '鈥�', '醼戓���', '醼�', '醼曖���', '醼欋��', '醼炨���', '醼嗎�贬��勧��', '醼欋�踞��', '醼�', '醼�', '醼♂���', '醼�', '醼贬���醼�', '醼炨��', '醼�', '醼�', '醼�', '醼♂�愥��', 'e', '醼�', '醼嗎���', '醼�', '醼炨�娽�丰��', '醼�', '醼栣�坚�呩��', '醼愥�涐���', '醼涐��', '醼涐�曖��', '醼曖��', '醼�醼搬��', '醼�醼欋��', '醼炨���', '醼�醼�', '醼欋�会����', '醼佱�册��', '醼贬��勧��', '醼�', '醼���', '醼佱��', '醼♂�呩���羔��', '醼炨��', '醼曖�坚��', '醼�醼会��', '醼♂��', '醼���', '醼曖�坚���', '醼溼��夺��', '醼溼���', 'z', '醼贬���醼�', '醼�', '醼愥�欋�横��', '醼愥��', '醼�醼会�结�斸�横��曖�横�愥����', '醼斸�踞�呩��', '醼�斸��', '醼佱��', '醼�醼�', '醼メ��', '醼♂�炨��夺��', '醼愥�贬���', '醼搬��', '醼樶��', '醼曖��', '醼�曖��', '醼��', '醼�', '醼斸��', '醼贯��', '醼�', '醼溼����', '醼贬��', '醼斸��', 'e', '醼贬��', '醼呩���', 'y', '醼曖�坚���', '醼曖����', '醼♂��', '醼♂�栣�坚�呩��', 'g', '醼撫��', '醼曖��', '醼愥�呩��', '醼欋��', '醼栣�结�册��', '醽�', '醼佱�坚�勧�横��', '醼�夺��', '醼嗎�勧��', '醼结�斸��', '醼♂��', '醼愥�贬���', '醼欋���', '醼�', '醼呩��', '醼�', '醼♂�欋��', '醼愥�勧��', '醼♂��醼�', '醼�', '醼�', '醼♂��曖��', 'y', 'u', '醼掅��', '醼涐�贬��', '醼曖���', '醼溼����', 'a', '醼�', '醼�', '醼�', 'x', '醼溼���', '醼丰��', '醼曖�坚�娽��', '醼氠��', '醼�', '醼嗎�贬��', '醼佱��', '醼欋��', '醼樶��', '醼�夺��', '醼贬���', '醼溼����醼�', '醼斸��', '醼欋��', '醼斸���勧�横��', '醼夺��', '醼欋�踞��', '醼斸�娽�横��', '醼涐�斸��', '醼溼��醼贯�佱�忈��', '醼�', '醼勧�丰��', '醼曖�娽��', '醼曖��', '醼♂��羔�栣�坚�勧�丰��', '醼斸�踞�呩��', '醼嗎�结�贬��', '醼栣�坚�呩�横�炨�娽��', '醼�', '醼�', '醼斸�呩��', '醼�醼会�勧��', '醼�', '醼♂�欋�会���', '醼�', '醼欋�横��', '醼斸�丰��', '醼�醼�', '醼炨����', 'b', '醽�', '醼佱��', '醼曖���', '醼愥�贬��', '醼♂��', '醼栣�坚�勧�丰��', '醼�', '醼炨�结���', '醼♂�佱��', '醼�', '醼勧�横��', '醼�', '醼�', 'i', '醼�', '醽�', '醼�醼坚�贬��', '醼涐��', '醼炨��', '醼愥�结�贬��', '醽�', '醼戓��', '醼�醼�', '醼♂��', '醼�醼�', '醼涐��', '醼�', '醼贬��', '醼�', '醼斸�横��', '醼�', '醼�', '醼�', '醼嗎��', '醼♂�贬��勧��', '醼欋�坚����', '醼呩��愥��', '醼�', '醼曖�坚�勧�横�嗎�勧��', '醼�', '醼欋�熱��愥��', '醼曖�坚��', '醼�醼��氠��', '醼涐�踞��', '醼�', '醼嗎�贬��勧��', '醼嗎�结�贬�羔�斸�结�贬��', '醼勧��', 'n', '醼愥��', '醼��勧�横��', '醼呩��', '醼溼��', '醼�', '醼熱��', '醼娽�丰��', '醼炨����', '醼�', '醾�', '醼���', '醼�', '醼涐��', '醼欋�氠��', '醼佱�册�丰�炨�娽��', '醼��', '醼贬��勧�横��', '醼贬��勧��', '醼︶��', '醼戓��', '醼愥����', '醼�欋�丰��', 'x', '醼斸���勧�横�勧��', '醽�', '醼♂�曖��', '醼�', '醼戓��', '醼涐�贬��', '醼呩�呩��', '醼�', '醼欋�踞��', '醼涐�踞�勧��', '醼�', '醼涐�踞��炨�娽��', '醼曖�贬��', '醼傖��', '醼♂�呩���', '醼欋�坚�斸��', '醼�', '醼炨��', '醼斸��', '醼曖��', '醼�', '醼炨�勧��', '醼丰��']
+
+    word_lists = []
+    for i in word:
+        cur = i.replace(' ', '')
+        cur = cur.replace('</s>', '')
+        cur = cur.replace('<s>', '')
+        word_lists.append(cur)
+
+    if len(word_lists) == 0:
+        return False
+
+    for ch in word_lists:
+        if ch.isalpha() is False and ch in my_char:
+            return True
+        elif ch.isalpha() is True and isChinese(ch) is True:
+            return False
+
+    return True
 
 # def abbr_dispose(words: List[Any]) -> List[Any]:
 def abbr_dispose(words: List[Any], time_stamp: List[List] = None) -> List[Any]:
@@ -224,6 +244,17 @@
                     end = time_stamp[i][1] 
                     ts_lists.append([begin, end])
                     begin = end
+             elif isMy(ch):
+                word_item += ch
+                word_lists.append(word_item)
+                word_lists.append(' ')
+                word_item = ''
+                alpha_blank = True
+                if time_stamp is not None:
+                    ts_flag = True
+                    end = time_stamp[i][1] 
+                    ts_lists.append([begin, end])
+                    begin = end
             else:
                 word_lists.append(ch)
 

--
Gitblit v1.9.1