VirtuosoQ
2024-04-26 e9d2cfc3a134b00f4e98271fbee3838d1ccecbcc
funasr/tokenizer/char_tokenizer.py
@@ -93,7 +93,8 @@
   return seg_dict
def seg_tokenize(txt, seg_dict):
   pattern = re.compile(r'^[\u4E00-\u9FA50-9]+$')
   # pattern = re.compile(r'^[\u4E00-\u9FA50-9]+$')
   pattern = re.compile(r"([\u4E00-\u9FA5A-Za-z0-9])")
   out_txt = ""
   for word in txt:
      word = word.lower()