zhifu gao
2024-04-24 861147c7308b91068ffa02724fdf74ee623a909e
funasr/tokenizer/char_tokenizer.py
@@ -8,6 +8,7 @@
from funasr.tokenizer.abs_tokenizer import BaseTokenizer
from funasr.register import tables
@tables.register("tokenizer_classes", "CharTokenizer")
class CharTokenizer(BaseTokenizer):
   def __init__(
@@ -39,7 +40,6 @@
      seg_dict = seg_dict if seg_dict is not None else kwargs.get("seg_dict_file", None)
      if seg_dict is not None:
         self.seg_dict = load_seg_dict(seg_dict)
   
   def __repr__(self):
      return (
@@ -92,6 +92,7 @@
         seg_dict[key] = " ".join(value)
   return seg_dict
def seg_tokenize(txt, seg_dict):
   # pattern = re.compile(r'^[\u4E00-\u9FA50-9]+$')
   pattern = re.compile(r"([\u4E00-\u9FA5A-Za-z0-9])")