python/FunASR-XL.git

			@@ -9,11 +9,9 @@
			### Speech Recognition Models
			#### Paraformer Models

			[//]: # (\| Model Name \| Language \| Training Data \| Vocab Size \| Parameter \| Offline/Online \| Notes \|)

			[//]: # (\|:--------------------------------------------------------------------------------------------------------------------------------------------------:\|:--------:\|:--------------------------------:\|:----------:\|:---------:\|:--------------:\|:--------------------------------------------------------------------------------------------------------------------------------\|)

			[//]: # (\| [Paraformer-large](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Offline \| Duration of input wav <= 20s \|)
			\| Model Name \| Language \| Training Data \| Vocab Size \| Parameter \| Offline/Online \| Notes \|
			\|:-----------------------------------------------------------------------:\|:--------:\|:----------------------------------:\|:----------:\|:---------:\|:--------------:\|:--------------------------------------------------------------------------------------------------------------------------------\|
			\| [Paraformer-large](https://huggingface.co/funasr/paraformer-large) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Offline \| Duration of input wav <= 20s \|

			[//]: # (\| [Paraformer-large-long](https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Offline \| Which ould deal with arbitrary length input wav \|)

			@@ -77,21 +75,17 @@

			### Voice Activity Detection Models

			[//]: # (\| Model Name \| Training Data \| Parameters \| Sampling Rate \| Notes \|)

			[//]: # (\|:----------------------------------------------------------------------------------------------:\|:----------------------------:\|:----------:\|:-------------:\|:------\|)

			[//]: # (\| [FSMN-VAD](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/summary) \| Alibaba Speech Data (5000hours) \| 0.4M \| 16000 \| \|)
			\| Model Name \| Training Data \| Parameters \| Sampling Rate \| Notes \|
			\|:----------------------------------------------------:\|:----------------------------:\|:----------:\|:-------------:\|:------\|
			\| [FSMN-VAD](https://huggingface.co/funasr/FSMN-VAD) \| Alibaba Speech Data (5000hours) \| 0.4M \| 16000 \| \|

			[//]: # (\| [FSMN-VAD](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-8k-common/summary) \| Alibaba Speech Data (5000hours) \| 0.4M \| 8000 \| \|)

			### Punctuation Restoration Models

			[//]: # (\| Model Name \| Training Data \| Parameters \| Vocab Size\| Offline/Online \| Notes \|)

			[//]: # (\|:--------------------------------------------------------------------------------------------------------------------------:\|:----------------------------:\|:----------:\|:----------:\|:--------------:\|:------\|)

			[//]: # (\| [CT-Transformer](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/summary) \| Alibaba Text Data \| 70M \| 272727 \| Offline \| offline punctuation model \|)
			\| Model Name \| Training Data \| Parameters \| Vocab Size\| Offline/Online \| Notes \|
			\|:--------------------------------------------------------------------:\|:----------------------------:\|:----------:\|:----------:\|:--------------:\|:------\|
			\| [CT-Transformer](https://huggingface.co/funasr/CT-Transformer-punc) \| Alibaba Text Data \| 70M \| 272727 \| Offline \| offline punctuation model \|

			[//]: # (\| [CT-Transformer](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727/summary) \| Alibaba Text Data \| 70M \| 272727 \| Online \| online punctuation model \|)

			@@ -9,11 +9,9 @@
			### Speech Recognition Models
			#### Paraformer Models

			[//]: # (\| Model Name \| Language \| Training Data \| Vocab Size \| Parameter \| Offline/Online \| Notes \|)

			[//]: # (\|:--------------------------------------------------------------------------------------------------------------------------------------------------:\|:--------:\|:--------------------------------:\|:----------:\|:---------:\|:--------------:\|:--------------------------------------------------------------------------------------------------------------------------------\|)

			[//]: # (\| [Paraformer-large](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Offline \| Duration of input wav <= 20s \|)
			\| Model Name \| Language \| Training Data \| Vocab Size \| Parameter \| Offline/Online \| Notes \|
			\|:-----------------------------------------------------------------------:\|:--------:\|:----------------------------------:\|:----------:\|:---------:\|:--------------:\|:--------------------------------------------------------------------------------------------------------------------------------\|
			\| [Paraformer-large](https://huggingface.co/funasr/paraformer-large) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Offline \| Duration of input wav <= 20s \|

			[//]: # (\| [Paraformer-large-long](https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Offline \| Which ould deal with arbitrary length input wav \|)

			@@ -77,21 +75,17 @@

			### Voice Activity Detection Models

			[//]: # (\| Model Name \| Training Data \| Parameters \| Sampling Rate \| Notes \|)

			[//]: # (\|:----------------------------------------------------------------------------------------------:\|:----------------------------:\|:----------:\|:-------------:\|:------\|)

			[//]: # (\| [FSMN-VAD](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/summary) \| Alibaba Speech Data (5000hours) \| 0.4M \| 16000 \| \|)
			\| Model Name \| Training Data \| Parameters \| Sampling Rate \| Notes \|
			\|:----------------------------------------------------:\|:----------------------------:\|:----------:\|:-------------:\|:------\|
			\| [FSMN-VAD](https://huggingface.co/funasr/FSMN-VAD) \| Alibaba Speech Data (5000hours) \| 0.4M \| 16000 \| \|

			[//]: # (\| [FSMN-VAD](https://modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-8k-common/summary) \| Alibaba Speech Data (5000hours) \| 0.4M \| 8000 \| \|)

			### Punctuation Restoration Models

			[//]: # (\| Model Name \| Training Data \| Parameters \| Vocab Size\| Offline/Online \| Notes \|)

			[//]: # (\|:--------------------------------------------------------------------------------------------------------------------------:\|:----------------------------:\|:----------:\|:----------:\|:--------------:\|:------\|)

			[//]: # (\| [CT-Transformer](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/summary) \| Alibaba Text Data \| 70M \| 272727 \| Offline \| offline punctuation model \|)
			\| Model Name \| Training Data \| Parameters \| Vocab Size\| Offline/Online \| Notes \|
			\|:--------------------------------------------------------------------:\|:----------------------------:\|:----------:\|:----------:\|:--------------:\|:------\|
			\| [CT-Transformer](https://huggingface.co/funasr/CT-Transformer-punc) \| Alibaba Text Data \| 70M \| 272727 \| Offline \| offline punctuation model \|

			[//]: # (\| [CT-Transformer](https://modelscope.cn/models/damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727/summary) \| Alibaba Text Data \| 70M \| 272727 \| Online \| online punctuation model \|)