python/FunASR-XL.git

			@@ -1,3 +1,6 @@
			#!/usr/bin/env python3
			# -- encoding: utf-8 --

			import os
			import sys
			import torch
			@@ -76,9 +79,8 @@
			frontend = frontend_class(**kwargs["frontend_conf"])
			kwargs["frontend"] = frontend
			kwargs["input_size"] = frontend.output_size()

			# import pdb;
			# pdb.set_trace()


			# build model
			model_class = tables.model_classes.get(kwargs["model"])
			model = model_class(kwargs, kwargs["model_conf"], vocab_size=len(tokenizer.token_list))
			@@ -144,9 +146,8 @@

			# dataset
			dataset_class = tables.dataset_classes.get(kwargs.get("dataset", "AudioDataset"))
			dataset_tr = dataset_class(kwargs.get("train_data_set_list"), frontend=frontend, tokenizer=tokenizer, **kwargs.get("dataset_conf"))
			dataset_val = dataset_class(kwargs.get("valid_data_set_list"), frontend=frontend, tokenizer=tokenizer,
			**kwargs.get("dataset_conf"))
			dataset_tr = dataset_class(kwargs.get("train_data_set_list"), frontend=frontend, tokenizer=tokenizer, is_training=True, **kwargs.get("dataset_conf"))
			dataset_val = dataset_class(kwargs.get("valid_data_set_list"), frontend=frontend, tokenizer=tokenizer, is_training=False, **kwargs.get("dataset_conf"))

			# dataloader
			batch_sampler = kwargs["dataset_conf"].get("batch_sampler", "DynamicBatchLocalShuffleSampler")