speech_asr
2023-04-11 df662541a887feafd1c17eda790be67c8711a20f
update
6个文件已修改
1个文件已删除
39 ■■■■ 已修改文件
funasr/models/frontend/abs_frontend.py 17 ●●●●● 补丁 | 查看 | 原始文档 | blame | 历史
funasr/models/frontend/default.py 5 ●●●●● 补丁 | 查看 | 原始文档 | blame | 历史
funasr/models/frontend/fused.py 3 ●●●● 补丁 | 查看 | 原始文档 | blame | 历史
funasr/models/frontend/s3prl.py 3 ●●●● 补丁 | 查看 | 原始文档 | blame | 历史
funasr/models/frontend/wav_frontend.py 7 ●●●●● 补丁 | 查看 | 原始文档 | blame | 历史
funasr/models/frontend/wav_frontend_kaldifeat.py 1 ●●●● 补丁 | 查看 | 原始文档 | blame | 历史
funasr/models/frontend/windowing.py 3 ●●●● 补丁 | 查看 | 原始文档 | blame | 历史
funasr/models/frontend/abs_frontend.py
File was deleted
funasr/models/frontend/default.py
@@ -11,12 +11,11 @@
from funasr.layers.log_mel import LogMel
from funasr.layers.stft import Stft
from funasr.models.frontend.abs_frontend import AbsFrontend
from funasr.modules.frontends.frontend import Frontend
from funasr.utils.get_default_kwargs import get_default_kwargs
class DefaultFrontend(AbsFrontend):
class DefaultFrontend(torch.nn.Module):
    """Conventional frontend structure for ASR.
    Stft -> WPE -> MVDR-Beamformer -> Power-spec -> Mel-Fbank -> CMVN
@@ -135,7 +134,7 @@
class MultiChannelFrontend(AbsFrontend):
class MultiChannelFrontend(torch.nn.Module):
    """Conventional frontend structure for ASR.
    Stft -> WPE -> MVDR-Beamformer -> Power-spec -> Mel-Fbank -> CMVN
funasr/models/frontend/fused.py
@@ -1,4 +1,3 @@
from funasr.models.frontend.abs_frontend import AbsFrontend
from funasr.models.frontend.default import DefaultFrontend
from funasr.models.frontend.s3prl import S3prlFrontend
import numpy as np
@@ -7,7 +6,7 @@
from typing import Tuple
class FusedFrontends(AbsFrontend):
class FusedFrontends(torch.nn.Module):
    def __init__(
        self, frontends=None, align_method="linear_projection", proj_dim=100, fs=16000
    ):
funasr/models/frontend/s3prl.py
@@ -10,7 +10,6 @@
import torch
from typeguard import check_argument_types
from funasr.models.frontend.abs_frontend import AbsFrontend
from funasr.modules.frontends.frontend import Frontend
from funasr.modules.nets_utils import pad_list
from funasr.utils.get_default_kwargs import get_default_kwargs
@@ -27,7 +26,7 @@
    return args
class S3prlFrontend(AbsFrontend):
class S3prlFrontend(torch.nn.Module):
    """Speech Pretrained Representation frontend structure for ASR."""
    def __init__(
funasr/models/frontend/wav_frontend.py
@@ -9,7 +9,6 @@
from typeguard import check_argument_types
import funasr.models.frontend.eend_ola_feature as eend_ola_feature
from funasr.models.frontend.abs_frontend import AbsFrontend
def load_cmvn(cmvn_file):
@@ -76,7 +75,7 @@
    return LFR_outputs.type(torch.float32)
class WavFrontend(AbsFrontend):
class WavFrontend(torch.nn.Module):
    """Conventional frontend structure for ASR.
    """
@@ -207,7 +206,7 @@
        return feats_pad, feats_lens
class WavFrontendOnline(AbsFrontend):
class WavFrontendOnline(torch.nn.Module):
    """Conventional frontend structure for streaming ASR/VAD.
    """
@@ -452,7 +451,7 @@
        self.lfr_splice_cache = []
class WavFrontendMel23(AbsFrontend):
class WavFrontendMel23(torch.nn.Module):
    """Conventional frontend structure for ASR.
    """
funasr/models/frontend/wav_frontend_kaldifeat.py
@@ -6,7 +6,6 @@
import numpy as np
import torch
import torchaudio.compliance.kaldi as kaldi
from funasr.models.frontend.abs_frontend import AbsFrontend
from typeguard import check_argument_types
from torch.nn.utils.rnn import pad_sequence
# import kaldifeat
funasr/models/frontend/windowing.py
@@ -4,13 +4,12 @@
"""Sliding Window for raw audio input data."""
from funasr.models.frontend.abs_frontend import AbsFrontend
import torch
from typeguard import check_argument_types
from typing import Tuple
class SlidingWindow(AbsFrontend):
class SlidingWindow(torch.nn.Module):
    """Sliding Window.
    Provides a sliding window over a batched continuous raw audio tensor.