python/FunASR-XL.git

parent: 84465d6b | 补丁 | 提交 | show whitespace

Merge pull request #1247 from alibaba-damo-academy/funasr1.0

Shi Xian

2024-01-15 ddbc8b5eded1fff6084001d160d46b532020ecb7

Merge pull request #1247 from alibaba-damo-academy/funasr1.0

Funasr1.0

29个文件已修改

	README.md	21 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/paraformer/demo.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	examples/industrial_data_pretraining/seaco_paraformer/demo.py	6 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/bin/inference.py	10 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/bin/train.py	28 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/datasets/audio_datasets/datasets.py	13 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/datasets/audio_datasets/index_ds.py	6 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/datasets/audio_datasets/samplers.py	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/download/download_from_hub.py	5 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/download/name_maps_from_hub.py	7 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/download/runtime_sdk_download_tool.py	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/branchformer/model.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/conformer/model.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/ct_transformer/model.py	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/e_branchformer/model.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/sanm/model.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/scama/chunk_utilis.py	8 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/scama/utils.py	5 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/seaco_paraformer/model.py	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/uniasr/e2e_uni_asr.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/optimizers/__init__.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/schedulers/__init__.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/tokenizer/abs_tokenizer.py	14 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/train_utils/trainer.py	10 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/utils/load_utils.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/utils/vad_utils.py	2 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	runtime/python/utils/test_cer.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	runtime/python/utils/test_rtf.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	runtime/python/utils/test_rtf_gpu.py	补丁 \| 查看 \| 原始文档 \| blame \| 历史

 README.md

@@ -90,12 +90,15 @@
### Speech Recognition (Non-streaming)
```python
from funasr import AutoModel

model = AutoModel(model="paraformer-zh")
# for the long duration wav, you could add vad model
# model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc")

res = model(input="asr_example_zh.wav", batch_size=64)
# paraformer-zh is a multi-functional asr model
# use vad, punc, spk or not as you need
model = AutoModel(model="paraformer-zh", model_revision="v2.0.2", \
                  vad_model="fsmn-vad", vad_model_revision="v2.0.2", \
                  punc_model="ct-punc-c", punc_model_revision="v2.0.2", \
                  spk_model="cam++", spk_model_revision="v2.0.2")
res = model(input=f"{model.model_path}/example/asr_example.wav", 
            batch_size=16, 
            hotword='魔搭')
print(res)
```
Note: `model_hub`: represents the model repository, `ms` stands for selecting ModelScope download, `hf` stands for selecting Huggingface download.
@@ -108,7 +111,7 @@
encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attention

model = AutoModel(model="paraformer-zh-streaming", model_revision="v2.0.0")
model = AutoModel(model="paraformer-zh-streaming", model_revision="v2.0.2")

import soundfile
import os
@@ -163,7 +166,7 @@
```python
from funasr import AutoModel

model = AutoModel(model="ct-punc", model_revision="v2.0.1")
model = AutoModel(model="ct-punc", model_revision="v2.0.2")

res = model(input="那今天的会就到这里吧 happy new year 明年见")
print(res)
@@ -172,7 +175,7 @@
```python
from funasr import AutoModel

model = AutoModel(model="fa-zh", model_revision="v2.0.0")
model = AutoModel(model="fa-zh", model_revision="v2.0.2")

wav_file = f"{model.model_path}/example/asr_example.wav"
text_file = f"{model.model_path}/example/asr_example.wav"

 examples/industrial_data_pretraining/paraformer/demo.py


 examples/industrial_data_pretraining/seaco_paraformer/demo.py

@@ -11,8 +11,10 @@
                  vad_model_revision="v2.0.2",
                  punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
                  punc_model_revision="v2.0.2",
                  spk_model="damo/speech_campplus_sv_zh-cn_16k-common",
                  spk_model_revision="v2.0.2",
                  )

res = model(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav",
            hotword='达摩院 磨搭')
res = model(input=f"{model.model_path}/example/asr_example.wav",
            hotword='达摩院 魔搭')
print(res)

 funasr/bin/inference.py

@@ -274,12 +274,9 @@
    def generate_with_vad(self, input, input_len=None, **cfg):
        
        # step.1: compute the vad model
        model = self.vad_model
        kwargs = self.vad_kwargs
        kwargs.update(cfg)
        self.vad_kwargs.update(cfg)
        beg_vad = time.time()
        res = self.generate(input, input_len=input_len, model=model, kwargs=kwargs, **cfg)
        vad_res = res
        res = self.generate(input, input_len=input_len, model=self.vad_model, kwargs=self.vad_kwargs, **cfg)
        end_vad = time.time()
        print(f"time cost vad: {end_vad - beg_vad:0.3f}")

@@ -313,9 +310,6 @@
                logging.info("decoding, utt: {}, empty speech".format(key))
                continue
            

            # if kwargs["device"] == "cpu":
            #     batch_size = 0
            if len(sorted_data) > 0 and len(sorted_data[0]) > 0:
                batch_size = max(batch_size, sorted_data[0][0][1] - sorted_data[0][0][0])
            

 funasr/bin/train.py

@@ -1,27 +1,29 @@
import argparse
import logging
import os
import sys
from io import BytesIO
from collections.abc import Sequence
import torch
import hydra
import logging
import argparse
from io import BytesIO
import torch.distributed as dist
from collections.abc import Sequence
from omegaconf import DictConfig, OmegaConf
from funasr.train_utils.set_all_random_seed import set_all_random_seed
from funasr.models.lora.utils import mark_only_lora_as_trainable
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.distributed.fsdp import FullyShardedDataParallel as FSDP

from funasr.register import tables
from funasr.optimizers import optim_classes
from funasr.train_utils.trainer import Trainer
from funasr.schedulers import scheduler_classes
from funasr.train_utils.load_pretrained_model import load_pretrained_model
from funasr.train_utils.initialize import initialize
from funasr.download.download_from_hub import download_model
from funasr.models.lora.utils import mark_only_lora_as_trainable
from funasr.train_utils.set_all_random_seed import set_all_random_seed
from funasr.train_utils.load_pretrained_model import load_pretrained_model
# from funasr.tokenizer.build_tokenizer import build_tokenizer
# from funasr.tokenizer.token_id_converter import TokenIDConverter
# from funasr.tokenizer.funtoken import build_tokenizer
from funasr.train_utils.trainer import Trainer
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
from funasr.download.download_from_hub import download_model
from funasr.register import tables


@hydra.main(config_name=None, version_base=None)
def main_hydra(kwargs: DictConfig):

 funasr/datasets/audio_datasets/datasets.py

@@ -1,15 +1,8 @@
import torch
import json
import torch.distributed as dist
import numpy as np
import kaldiio
import librosa
import torchaudio
import time
import logging

from funasr.utils.load_utils import load_audio_text_image_video, extract_fbank
from funasr.register import tables
from funasr.utils.load_utils import extract_fbank


@tables.register("dataset_classes", "AudioDataset")
class AudioDataset(torch.utils.data.Dataset):
@@ -82,8 +75,6 @@
    
    
    def collator(self, samples: list=None):


        outputs = {}
        for sample in samples:
            for key in sample.keys():

 funasr/datasets/audio_datasets/index_ds.py

@@ -1,11 +1,11 @@
import torch
import json
import torch.distributed as dist
import time
import torch
import logging
import torch.distributed as dist

from funasr.register import tables


@tables.register("index_ds_classes", "IndexDSJsonl")
class IndexDSJsonl(torch.utils.data.Dataset):
    

 funasr/datasets/audio_datasets/samplers.py

@@ -1,5 +1,4 @@
import torch

import numpy as np

from funasr.register import tables

 funasr/download/download_from_hub.py

@@ -1,9 +1,10 @@
import json
import os
import json
from omegaconf import OmegaConf
import torch

from funasr.download.name_maps_from_hub import name_maps_ms, name_maps_hf


def download_model(**kwargs):
    model_hub = kwargs.get("model_hub", "ms")
    if model_hub == "ms":

 funasr/download/name_maps_from_hub.py

@@ -1,14 +1,13 @@


name_maps_ms = {
    "paraformer-zh": "damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
    "paraformer-zh-spk": "damo/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn",
    "paraformer-zh": "damo/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
    "paraformer-en": "damo/speech_paraformer-large-vad-punc_asr_nat-en-16k-common-vocab10020",
    "paraformer-en-spk": "damo/speech_paraformer-large-vad-punc_asr_nat-en-16k-common-vocab10020",
    "paraformer-zh-streaming": "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online",
    "fsmn-vad": "damo/speech_fsmn_vad_zh-cn-16k-common-pytorch",
    "ct-punc": "damo/punc_ct-transformer_cn-en-common-vocab471067-large",
    "ct-punc-c": "damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
    "fa-zh": "damo/speech_timestamp_prediction-v1-16k-offline",
    "cam++": "damo/speech_campplus_sv_zh-cn_16k-common",
}

name_maps_hf = {

 funasr/download/runtime_sdk_download_tool.py

@@ -1,8 +1,10 @@
from pathlib import Path
import os
import argparse
from pathlib import Path

from funasr.utils.types import str2bool


def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('--model-name', type=str, required=True)

 funasr/models/branchformer/model.py


 funasr/models/conformer/model.py


 funasr/models/ct_transformer/model.py

@@ -344,7 +344,6 @@
                punc_array = punctuations
            else:
                punc_array = torch.cat([punc_array, punctuations], dim=0)
        
        result_i = {"key": key[0], "text": new_mini_sentence_out, "punc_array": punc_array}
        results.append(result_i)
    

 funasr/models/e_branchformer/model.py


 funasr/models/sanm/model.py


 funasr/models/scama/chunk_utilis.py

@@ -1,12 +1,10 @@

import math
import torch
import numpy as np
import math
from funasr.models.transformer.utils.nets_utils import make_pad_mask
import logging
import torch.nn.functional as F
from funasr.models.scama.utils import sequence_mask

from funasr.models.scama.utils import sequence_mask
from funasr.models.transformer.utils.nets_utils import make_pad_mask


class overlap_chunk():

 funasr/models/scama/utils.py

@@ -1,8 +1,9 @@
import os
import torch
from torch.nn import functional as F
import yaml
import torch
import numpy as np
from torch.nn import functional as F


def sequence_mask(lengths, maxlen=None, dtype=torch.float32, device=None):
    if maxlen is None:

 funasr/models/seaco_paraformer/model.py

@@ -254,10 +254,9 @@
            
            dha_output = self.hotword_output_layer(merged)  # remove the last token in loss calculation
            dha_pred = torch.log_softmax(dha_output, dim=-1)
            # import pdb; pdb.set_trace()
            def _merge_res(dec_output, dha_output):
                lmbd = torch.Tensor([seaco_weight] * dha_output.shape[0])
                dha_ids = dha_output.max(-1)[-1][0]
                dha_ids = dha_output.max(-1)[-1]# [0]
                dha_mask = (dha_ids == 8377).int().unsqueeze(-1)
                a = (1 - lmbd) / lmbd
                b = 1 / lmbd
@@ -267,6 +266,7 @@
                logits = dec_output * dha_mask + dha_output[:,:,:] * (1-dha_mask)
                return logits
            merged_pred = _merge_res(decoder_pred, dha_pred)
            # import pdb; pdb.set_trace()
            return merged_pred
        else:
            return decoder_pred

 funasr/models/uniasr/e2e_uni_asr.py


 funasr/optimizers/__init__.py


 funasr/schedulers/__init__.py


 funasr/tokenizer/abs_tokenizer.py

@@ -1,15 +1,9 @@
from abc import ABC
from abc import abstractmethod
from typing import Iterable
from typing import List
from pathlib import Path
from typing import Dict
from typing import Iterable
from typing import List
from typing import Union
import json

import numpy as np
from abc import ABC
from pathlib import Path
from abc import abstractmethod
from typing import Union, Iterable, List, Dict


class AbsTokenizer(ABC):

 funasr/train_utils/trainer.py

@@ -1,13 +1,15 @@
import torch
import os
from funasr.train_utils.device_funcs import to_device
import logging
import time
import torch
import logging
from tqdm import tqdm
from contextlib import nullcontext
import torch.distributed as dist
from contextlib import nullcontext

from funasr.train_utils.device_funcs import to_device
from funasr.train_utils.recursive_op import recursive_average


class Trainer:
    """
    A simple trainer class for training a PyTorch model, saving checkpoints at the end of each epoch,

 funasr/utils/load_utils.py


 funasr/utils/vad_utils.py

@@ -1,6 +1,7 @@
import torch
from torch.nn.utils.rnn import pad_sequence


def slice_padding_fbank(speech, speech_lengths, vad_segments):
    speech_list = []
    speech_lengths_list = []
@@ -15,7 +16,6 @@
    feats_pad = pad_sequence(speech_list, batch_first=True, padding_value=0.0)
    speech_lengths_pad = torch.Tensor(speech_lengths_list).int()
    return feats_pad, speech_lengths_pad


def slice_padding_audio_samples(speech, speech_lengths, vad_segments):
    speech_list = []

 runtime/python/utils/test_cer.py


 runtime/python/utils/test_rtf.py


 runtime/python/utils/test_rtf_gpu.py

			@@ -90,12 +90,15 @@
			### Speech Recognition (Non-streaming)
			```python
			from funasr import AutoModel

			model = AutoModel(model="paraformer-zh")
			# for the long duration wav, you could add vad model
			# model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc")

			res = model(input="asr_example_zh.wav", batch_size=64)
			# paraformer-zh is a multi-functional asr model
			# use vad, punc, spk or not as you need
			model = AutoModel(model="paraformer-zh", model_revision="v2.0.2", \
			vad_model="fsmn-vad", vad_model_revision="v2.0.2", \
			punc_model="ct-punc-c", punc_model_revision="v2.0.2", \
			spk_model="cam++", spk_model_revision="v2.0.2")
			res = model(input=f"{model.model_path}/example/asr_example.wav",
			batch_size=16,
			hotword='魔搭')
			print(res)
			```
			Note: `model_hub`: represents the model repository, `ms` stands for selecting ModelScope download, `hf` stands for selecting Huggingface download.
			@@ -108,7 +111,7 @@
			encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
			decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attention

			model = AutoModel(model="paraformer-zh-streaming", model_revision="v2.0.0")
			model = AutoModel(model="paraformer-zh-streaming", model_revision="v2.0.2")

			import soundfile
			import os
			@@ -163,7 +166,7 @@
			```python
			from funasr import AutoModel

			model = AutoModel(model="ct-punc", model_revision="v2.0.1")
			model = AutoModel(model="ct-punc", model_revision="v2.0.2")

			res = model(input="那今天的会就到这里吧 happy new year 明年见")
			print(res)
			@@ -172,7 +175,7 @@
			```python
			from funasr import AutoModel

			model = AutoModel(model="fa-zh", model_revision="v2.0.0")
			model = AutoModel(model="fa-zh", model_revision="v2.0.2")

			wav_file = f"{model.model_path}/example/asr_example.wav"
			text_file = f"{model.model_path}/example/asr_example.wav"

			@@ -11,8 +11,10 @@
			vad_model_revision="v2.0.2",
			punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
			punc_model_revision="v2.0.2",
			spk_model="damo/speech_campplus_sv_zh-cn_16k-common",
			spk_model_revision="v2.0.2",
			)

			res = model(input="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav",
			hotword='达摩院磨搭')
			res = model(input=f"{model.model_path}/example/asr_example.wav",
			hotword='达摩院魔搭')
			print(res)

			@@ -274,12 +274,9 @@
			def generate_with_vad(self, input, input_len=None, **cfg):

			# step.1: compute the vad model
			model = self.vad_model
			kwargs = self.vad_kwargs
			kwargs.update(cfg)
			self.vad_kwargs.update(cfg)
			beg_vad = time.time()
			res = self.generate(input, input_len=input_len, model=model, kwargs=kwargs, **cfg)
			vad_res = res
			res = self.generate(input, input_len=input_len, model=self.vad_model, kwargs=self.vad_kwargs, **cfg)
			end_vad = time.time()
			print(f"time cost vad: {end_vad - beg_vad:0.3f}")

			@@ -313,9 +310,6 @@
			logging.info("decoding, utt: {}, empty speech".format(key))
			continue


			# if kwargs["device"] == "cpu":
			# batch_size = 0
			if len(sorted_data) > 0 and len(sorted_data[0]) > 0:
			batch_size = max(batch_size, sorted_data[0][0][1] - sorted_data[0][0][0])

			@@ -1,27 +1,29 @@
			import argparse
			import logging
			import os
			import sys
			from io import BytesIO
			from collections.abc import Sequence
			import torch
			import hydra
			import logging
			import argparse
			from io import BytesIO
			import torch.distributed as dist
			from collections.abc import Sequence
			from omegaconf import DictConfig, OmegaConf
			from funasr.train_utils.set_all_random_seed import set_all_random_seed
			from funasr.models.lora.utils import mark_only_lora_as_trainable
			from torch.nn.parallel import DistributedDataParallel as DDP
			from torch.distributed.fsdp import FullyShardedDataParallel as FSDP

			from funasr.register import tables
			from funasr.optimizers import optim_classes
			from funasr.train_utils.trainer import Trainer
			from funasr.schedulers import scheduler_classes
			from funasr.train_utils.load_pretrained_model import load_pretrained_model
			from funasr.train_utils.initialize import initialize
			from funasr.download.download_from_hub import download_model
			from funasr.models.lora.utils import mark_only_lora_as_trainable
			from funasr.train_utils.set_all_random_seed import set_all_random_seed
			from funasr.train_utils.load_pretrained_model import load_pretrained_model
			# from funasr.tokenizer.build_tokenizer import build_tokenizer
			# from funasr.tokenizer.token_id_converter import TokenIDConverter
			# from funasr.tokenizer.funtoken import build_tokenizer
			from funasr.train_utils.trainer import Trainer
			import torch.distributed as dist
			from torch.nn.parallel import DistributedDataParallel as DDP
			from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
			from funasr.download.download_from_hub import download_model
			from funasr.register import tables


			@hydra.main(config_name=None, version_base=None)
			def main_hydra(kwargs: DictConfig):

			@@ -1,15 +1,8 @@
			import torch
			import json
			import torch.distributed as dist
			import numpy as np
			import kaldiio
			import librosa
			import torchaudio
			import time
			import logging

			from funasr.utils.load_utils import load_audio_text_image_video, extract_fbank
			from funasr.register import tables
			from funasr.utils.load_utils import extract_fbank


			@tables.register("dataset_classes", "AudioDataset")
			class AudioDataset(torch.utils.data.Dataset):
			@@ -82,8 +75,6 @@


			def collator(self, samples: list=None):


			outputs = {}
			for sample in samples:
			for key in sample.keys():

			@@ -1,11 +1,11 @@
			import torch
			import json
			import torch.distributed as dist
			import time
			import torch
			import logging
			import torch.distributed as dist

			from funasr.register import tables


			@tables.register("index_ds_classes", "IndexDSJsonl")
			class IndexDSJsonl(torch.utils.data.Dataset):

			@@ -1,5 +1,4 @@
			import torch

			import numpy as np

			from funasr.register import tables

			@@ -1,9 +1,10 @@
			import json
			import os
			import json
			from omegaconf import OmegaConf
			import torch

			from funasr.download.name_maps_from_hub import name_maps_ms, name_maps_hf


			def download_model(**kwargs):
			model_hub = kwargs.get("model_hub", "ms")
			if model_hub == "ms":

			@@ -1,14 +1,13 @@


			name_maps_ms = {
			"paraformer-zh": "damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
			"paraformer-zh-spk": "damo/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn",
			"paraformer-zh": "damo/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
			"paraformer-en": "damo/speech_paraformer-large-vad-punc_asr_nat-en-16k-common-vocab10020",
			"paraformer-en-spk": "damo/speech_paraformer-large-vad-punc_asr_nat-en-16k-common-vocab10020",
			"paraformer-zh-streaming": "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online",
			"fsmn-vad": "damo/speech_fsmn_vad_zh-cn-16k-common-pytorch",
			"ct-punc": "damo/punc_ct-transformer_cn-en-common-vocab471067-large",
			"ct-punc-c": "damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
			"fa-zh": "damo/speech_timestamp_prediction-v1-16k-offline",
			"cam++": "damo/speech_campplus_sv_zh-cn_16k-common",
			}

			name_maps_hf = {

			@@ -1,8 +1,10 @@
			from pathlib import Path
			import os
			import argparse
			from pathlib import Path

			from funasr.utils.types import str2bool


			def main():
			parser = argparse.ArgumentParser()
			parser.add_argument('--model-name', type=str, required=True)

			@@ -344,7 +344,6 @@
			punc_array = punctuations
			else:
			punc_array = torch.cat([punc_array, punctuations], dim=0)

			result_i = {"key": key[0], "text": new_mini_sentence_out, "punc_array": punc_array}
			results.append(result_i)

			@@ -1,12 +1,10 @@

			import math
			import torch
			import numpy as np
			import math
			from funasr.models.transformer.utils.nets_utils import make_pad_mask
			import logging
			import torch.nn.functional as F
			from funasr.models.scama.utils import sequence_mask

			from funasr.models.scama.utils import sequence_mask
			from funasr.models.transformer.utils.nets_utils import make_pad_mask


			class overlap_chunk():

			@@ -1,8 +1,9 @@
			import os
			import torch
			from torch.nn import functional as F
			import yaml
			import torch
			import numpy as np
			from torch.nn import functional as F


			def sequence_mask(lengths, maxlen=None, dtype=torch.float32, device=None):
			if maxlen is None:

			@@ -254,10 +254,9 @@

			dha_output = self.hotword_output_layer(merged) # remove the last token in loss calculation
			dha_pred = torch.log_softmax(dha_output, dim=-1)
			# import pdb; pdb.set_trace()
			def _merge_res(dec_output, dha_output):
			lmbd = torch.Tensor([seaco_weight] * dha_output.shape[0])
			dha_ids = dha_output.max(-1)[-1][0]
			dha_ids = dha_output.max(-1)[-1]# [0]
			dha_mask = (dha_ids == 8377).int().unsqueeze(-1)
			a = (1 - lmbd) / lmbd
			b = 1 / lmbd
			@@ -267,6 +266,7 @@
			logits = dec_output * dha_mask + dha_output[:,:,:] * (1-dha_mask)
			return logits
			merged_pred = _merge_res(decoder_pred, dha_pred)
			# import pdb; pdb.set_trace()
			return merged_pred
			else:
			return decoder_pred

			@@ -1,15 +1,9 @@
			from abc import ABC
			from abc import abstractmethod
			from typing import Iterable
			from typing import List
			from pathlib import Path
			from typing import Dict
			from typing import Iterable
			from typing import List
			from typing import Union
			import json

			import numpy as np
			from abc import ABC
			from pathlib import Path
			from abc import abstractmethod
			from typing import Union, Iterable, List, Dict


			class AbsTokenizer(ABC):

			@@ -1,13 +1,15 @@
			import torch
			import os
			from funasr.train_utils.device_funcs import to_device
			import logging
			import time
			import torch
			import logging
			from tqdm import tqdm
			from contextlib import nullcontext
			import torch.distributed as dist
			from contextlib import nullcontext

			from funasr.train_utils.device_funcs import to_device
			from funasr.train_utils.recursive_op import recursive_average


			class Trainer:
			"""
			A simple trainer class for training a PyTorch model, saving checkpoints at the end of each epoch,

			@@ -1,6 +1,7 @@
			import torch
			from torch.nn.utils.rnn import pad_sequence


			def slice_padding_fbank(speech, speech_lengths, vad_segments):
			speech_list = []
			speech_lengths_list = []
			@@ -15,7 +16,6 @@
			feats_pad = pad_sequence(speech_list, batch_first=True, padding_value=0.0)
			speech_lengths_pad = torch.Tensor(speech_lengths_list).int()
			return feats_pad, speech_lengths_pad


			def slice_padding_audio_samples(speech, speech_lengths, vad_segments):
			speech_list = []