python/FunASR-XL.git

parent: d5a80d64 | 补丁 | 提交 | ignore whitespace

speech_asr

2023-04-11 df662541a887feafd1c17eda790be67c8711a20f

update

1个文件已删除

6个文件已修改

	funasr/models/frontend/abs_frontend.py	17 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/frontend/default.py	5 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/frontend/fused.py	3 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/frontend/s3prl.py	3 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/frontend/wav_frontend.py	7 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/frontend/wav_frontend_kaldifeat.py	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/frontend/windowing.py	3 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史

 funasr/models/frontend/abs_frontend.py

File was deleted

 funasr/models/frontend/default.py

@@ -11,12 +11,11 @@

from funasr.layers.log_mel import LogMel
from funasr.layers.stft import Stft
from funasr.models.frontend.abs_frontend import AbsFrontend
from funasr.modules.frontends.frontend import Frontend
from funasr.utils.get_default_kwargs import get_default_kwargs


class DefaultFrontend(AbsFrontend):
class DefaultFrontend(torch.nn.Module):
    """Conventional frontend structure for ASR.

    Stft -> WPE -> MVDR-Beamformer -> Power-spec -> Mel-Fbank -> CMVN
@@ -135,7 +134,7 @@



class MultiChannelFrontend(AbsFrontend):
class MultiChannelFrontend(torch.nn.Module):
    """Conventional frontend structure for ASR.

    Stft -> WPE -> MVDR-Beamformer -> Power-spec -> Mel-Fbank -> CMVN

 funasr/models/frontend/fused.py

@@ -1,4 +1,3 @@
from funasr.models.frontend.abs_frontend import AbsFrontend
from funasr.models.frontend.default import DefaultFrontend
from funasr.models.frontend.s3prl import S3prlFrontend
import numpy as np
@@ -7,7 +6,7 @@
from typing import Tuple


class FusedFrontends(AbsFrontend):
class FusedFrontends(torch.nn.Module):
    def __init__(
        self, frontends=None, align_method="linear_projection", proj_dim=100, fs=16000
    ):

 funasr/models/frontend/s3prl.py

@@ -10,7 +10,6 @@
import torch
from typeguard import check_argument_types

from funasr.models.frontend.abs_frontend import AbsFrontend
from funasr.modules.frontends.frontend import Frontend
from funasr.modules.nets_utils import pad_list
from funasr.utils.get_default_kwargs import get_default_kwargs
@@ -27,7 +26,7 @@
    return args


class S3prlFrontend(AbsFrontend):
class S3prlFrontend(torch.nn.Module):
    """Speech Pretrained Representation frontend structure for ASR."""

    def __init__(

 funasr/models/frontend/wav_frontend.py

@@ -9,7 +9,6 @@
from typeguard import check_argument_types

import funasr.models.frontend.eend_ola_feature as eend_ola_feature
from funasr.models.frontend.abs_frontend import AbsFrontend


def load_cmvn(cmvn_file):
@@ -76,7 +75,7 @@
    return LFR_outputs.type(torch.float32)


class WavFrontend(AbsFrontend):
class WavFrontend(torch.nn.Module):
    """Conventional frontend structure for ASR.
    """

@@ -207,7 +206,7 @@
        return feats_pad, feats_lens


class WavFrontendOnline(AbsFrontend):
class WavFrontendOnline(torch.nn.Module):
    """Conventional frontend structure for streaming ASR/VAD.
    """

@@ -452,7 +451,7 @@
        self.lfr_splice_cache = []


class WavFrontendMel23(AbsFrontend):
class WavFrontendMel23(torch.nn.Module):
    """Conventional frontend structure for ASR.
    """


 funasr/models/frontend/wav_frontend_kaldifeat.py

@@ -6,7 +6,6 @@
import numpy as np
import torch
import torchaudio.compliance.kaldi as kaldi
from funasr.models.frontend.abs_frontend import AbsFrontend
from typeguard import check_argument_types
from torch.nn.utils.rnn import pad_sequence
# import kaldifeat

 funasr/models/frontend/windowing.py

@@ -4,13 +4,12 @@

"""Sliding Window for raw audio input data."""

from funasr.models.frontend.abs_frontend import AbsFrontend
import torch
from typeguard import check_argument_types
from typing import Tuple


class SlidingWindow(AbsFrontend):
class SlidingWindow(torch.nn.Module):
    """Sliding Window.

    Provides a sliding window over a batched continuous raw audio tensor.

			@@ -11,12 +11,11 @@

			from funasr.layers.log_mel import LogMel
			from funasr.layers.stft import Stft
			from funasr.models.frontend.abs_frontend import AbsFrontend
			from funasr.modules.frontends.frontend import Frontend
			from funasr.utils.get_default_kwargs import get_default_kwargs


			class DefaultFrontend(AbsFrontend):
			class DefaultFrontend(torch.nn.Module):
			"""Conventional frontend structure for ASR.

			Stft -> WPE -> MVDR-Beamformer -> Power-spec -> Mel-Fbank -> CMVN
			@@ -135,7 +134,7 @@



			class MultiChannelFrontend(AbsFrontend):
			class MultiChannelFrontend(torch.nn.Module):
			"""Conventional frontend structure for ASR.

			Stft -> WPE -> MVDR-Beamformer -> Power-spec -> Mel-Fbank -> CMVN

			@@ -1,4 +1,3 @@
			from funasr.models.frontend.abs_frontend import AbsFrontend
			from funasr.models.frontend.default import DefaultFrontend
			from funasr.models.frontend.s3prl import S3prlFrontend
			import numpy as np
			@@ -7,7 +6,7 @@
			from typing import Tuple


			class FusedFrontends(AbsFrontend):
			class FusedFrontends(torch.nn.Module):
			def __init__(
			self, frontends=None, align_method="linear_projection", proj_dim=100, fs=16000
			):

			@@ -10,7 +10,6 @@
			import torch
			from typeguard import check_argument_types

			from funasr.models.frontend.abs_frontend import AbsFrontend
			from funasr.modules.frontends.frontend import Frontend
			from funasr.modules.nets_utils import pad_list
			from funasr.utils.get_default_kwargs import get_default_kwargs
			@@ -27,7 +26,7 @@
			return args


			class S3prlFrontend(AbsFrontend):
			class S3prlFrontend(torch.nn.Module):
			"""Speech Pretrained Representation frontend structure for ASR."""

			def __init__(

			@@ -9,7 +9,6 @@
			from typeguard import check_argument_types

			import funasr.models.frontend.eend_ola_feature as eend_ola_feature
			from funasr.models.frontend.abs_frontend import AbsFrontend


			def load_cmvn(cmvn_file):
			@@ -76,7 +75,7 @@
			return LFR_outputs.type(torch.float32)


			class WavFrontend(AbsFrontend):
			class WavFrontend(torch.nn.Module):
			"""Conventional frontend structure for ASR.
			"""

			@@ -207,7 +206,7 @@
			return feats_pad, feats_lens


			class WavFrontendOnline(AbsFrontend):
			class WavFrontendOnline(torch.nn.Module):
			"""Conventional frontend structure for streaming ASR/VAD.
			"""

			@@ -452,7 +451,7 @@
			self.lfr_splice_cache = []


			class WavFrontendMel23(AbsFrontend):
			class WavFrontendMel23(torch.nn.Module):
			"""Conventional frontend structure for ASR.
			"""

			@@ -6,7 +6,6 @@
			import numpy as np
			import torch
			import torchaudio.compliance.kaldi as kaldi
			from funasr.models.frontend.abs_frontend import AbsFrontend
			from typeguard import check_argument_types
			from torch.nn.utils.rnn import pad_sequence
			# import kaldifeat

			@@ -4,13 +4,12 @@

			"""Sliding Window for raw audio input data."""

			from funasr.models.frontend.abs_frontend import AbsFrontend
			import torch
			from typeguard import check_argument_types
			from typing import Tuple


			class SlidingWindow(AbsFrontend):
			class SlidingWindow(torch.nn.Module):
			"""Sliding Window.

			Provides a sliding window over a batched continuous raw audio tensor.