仁迷
2023-03-01 e9ea65679a7d6023c7d24defc9517888efe14833
fix text postprocess bug
1个文件已修改
8 ■■■■ 已修改文件
funasr/utils/postprocess_utils.py 8 ●●●● 补丁 | 查看 | 原始文档 | blame | 历史
funasr/utils/postprocess_utils.py
@@ -6,7 +6,7 @@
def isChinese(ch: str):
    if '\u4e00' <= ch <= '\u9fff' or '\u0030' <= ch <= '\u0039':
    if '\u4e00' <= ch <= '\u9fff' or '\u0030' <= ch <= '\u0039' or ch == '@':
        return True
    return False
@@ -17,6 +17,8 @@
        cur = i.replace(' ', '')
        cur = cur.replace('</s>', '')
        cur = cur.replace('<s>', '')
        cur = cur.replace('<unk>', '')
        cur = cur.replace('<OOV>', '')
        word_lists.append(cur)
    if len(word_lists) == 0:
@@ -34,6 +36,8 @@
        cur = i.replace(' ', '')
        cur = cur.replace('</s>', '')
        cur = cur.replace('<s>', '')
        cur = cur.replace('<unk>', '')
        cur = cur.replace('<OOV>', '')
        word_lists.append(cur)
    if len(word_lists) == 0:
@@ -144,7 +148,7 @@
        else:
            word = i.decode('utf-8')
        if word in ['<s>', '</s>', '<unk>']:
        if word in ['<s>', '</s>', '<unk>', '<OOV>']:
            continue
        else:
            middle_lists.append(word)