python/FunASR-XL.git

			@@ -9,7 +9,6 @@
			import numpy as np
			import yaml

			from typeguard import check_argument_types

			import warnings

			@@ -21,11 +20,12 @@
			class TokenIDConverter():
			def __init__(self, token_list: Union[List, str],
			):
			check_argument_types()

			# self.token_list = self.load_token(token_path)
			self.token_list = token_list
			self.unk_symbol = token_list[-1]
			self.token2id = {v: i for i, v in enumerate(self.token_list)}
			self.unk_id = self.token2id[self.unk_symbol]


			def get_num_vocabulary_size(self) -> int:
			return len(self.token_list)
			@@ -38,13 +38,8 @@
			return [self.token_list[i] for i in integers]

			def tokens2ids(self, tokens: Iterable[str]) -> List[int]:
			token2id = {v: i for i, v in enumerate(self.token_list)}
			if self.unk_symbol not in token2id:
			raise TokenIDConverterError(
			f"Unknown symbol '{self.unk_symbol}' doesn't exist in the token_list"
			)
			unk_id = token2id[self.unk_symbol]
			return [token2id.get(i, unk_id) for i in tokens]

			return [self.token2id.get(i, self.unk_id) for i in tokens]


			class CharTokenizer():
			@@ -54,7 +49,6 @@
			space_symbol: str = "<space>",
			remove_non_linguistic_symbols: bool = False,
			):
			check_argument_types()

			self.space_symbol = space_symbol
			self.non_linguistic_symbols = self.load_symbols(symbol_value)