python/FunASR-XL.git

			@@ -40,13 +40,18 @@
			\| [Conformer](https://modelscope.cn/models/damo/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/summary) \| CN \| AISHELL (178hours) \| 4234 \| 44M \| Offline \| Duration of input wav <= 20s \|
			\| [Conformer](https://www.modelscope.cn/models/damo/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/summary) \| CN \| AISHELL-2 (1000hours) \| 5212 \| 44M \| Offline \| Duration of input wav <= 20s \|


			#### RNN-T Models

			### Multi-talker Speech Recognition Models

			#### MFCCA Models

			\| Model Name \| Language \| Training Data \| Vocab Size \| Parameter \| Offline/Online \| Notes \|
			\|:----------------------------------------------------------------------------------------------------------------------:\|:--------:\|:---------------------:\|:----------:\|:---------:\|:--------------:\|:--------------------------------------------------------------------------------------------------------------------------------\|
			\| [MFCCA](https://www.modelscope.cn/models/NPU-ASLP/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/summary) \| CN \| AliMeeting、AISHELL-4、Simudata (917hours) \| 4950 \| 45M \| Offline \| Duration of input wav <= 20s, channel of input wav <= 8 channel

			#### RNN-T Models


			### Voice Activity Detection Models

			@@ -70,14 +75,20 @@

			### Speaker Verification Models

			\| Model Name \| Training Data \| Parameters \| Vocab Size \| Notes \|
			\| Model Name \| Training Data \| Parameters \| Number Speaker \| Notes \|
			\|:-------------------------------------------------------------------------------------------------------------:\|:-----------------:\|:----------:\|:----------:\|:------\|
			\| [Xvector](https://www.modelscope.cn/models/damo/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch/summary) \| CNCeleb (?hours) \| 17.5M \| 3465 \| \|
			\| [Xvector](https://www.modelscope.cn/models/damo/speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch/summary) \| CallHome (?hours) \| 61M \| 6135 \| \|
			\| [Xvector](https://www.modelscope.cn/models/damo/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch/summary) \| CNCeleb (1,200 hours) \| 17.5M \| 3465 \| Xvector, speaker verification, Chinese \|
			\| [Xvector](https://www.modelscope.cn/models/damo/speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch/summary) \| CallHome (60 hours) \| 61M \| 6135 \| Xvector, speaker verification, English \|

			### Speaker diarization Models

			\| Model Name \| Training Data \| Parameters \| Notes \|
			\|:----------------------------------------------------------------------------------------------------------------:\|:-------------------:\|:----------:\|:------\|
			\| [SOND](https://www.modelscope.cn/models/damo/speech_diarization_sond-zh-cn-alimeeting-16k-n16k4-pytorch/summary) \| AliMeeting (?hours) \| 40.5M \| \|
			\| [SOND](https://www.modelscope.cn/models/damo/speech_diarization_sond-en-us-callhome-8k-n16k4-pytorch/summary) \| CallHome (?hours) \| 12M \| \|
			\| [SOND](https://www.modelscope.cn/models/damo/speech_diarization_sond-zh-cn-alimeeting-16k-n16k4-pytorch/summary) \| AliMeeting (120 hours) \| 40.5M \| Speaker diarization, profiles and records, Chinese \|
			\| [SOND](https://www.modelscope.cn/models/damo/speech_diarization_sond-en-us-callhome-8k-n16k4-pytorch/summary) \| CallHome (60 hours) \| 12M \| Speaker diarization, profiles and records, English \|

			### Timestamp Prediction Models

			\| Model Name \| Language \| Training Data \| Parameters \| Notes \|
			\|:--------------------------------------------------------------------------------------------------:\|:--------------:\|:-------------------:\|:----------:\|:------\|
			\| [TP-Aligner](https://modelscope.cn/models/damo/speech_timestamp_prediction-v1-16k-offline/summary) \| CN \| Alibaba Speech Data (50000hours) \| 37.8M \| Timestamp prediction, Mandarin, middle size \|

			@@ -40,13 +40,18 @@
			\| [Conformer](https://modelscope.cn/models/damo/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/summary) \| CN \| AISHELL (178hours) \| 4234 \| 44M \| Offline \| Duration of input wav <= 20s \|
			\| [Conformer](https://www.modelscope.cn/models/damo/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/summary) \| CN \| AISHELL-2 (1000hours) \| 5212 \| 44M \| Offline \| Duration of input wav <= 20s \|


			#### RNN-T Models

			### Multi-talker Speech Recognition Models

			#### MFCCA Models

			\| Model Name \| Language \| Training Data \| Vocab Size \| Parameter \| Offline/Online \| Notes \|
			\|:----------------------------------------------------------------------------------------------------------------------:\|:--------:\|:---------------------:\|:----------:\|:---------:\|:--------------:\|:--------------------------------------------------------------------------------------------------------------------------------\|
			\| [MFCCA](https://www.modelscope.cn/models/NPU-ASLP/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/summary) \| CN \| AliMeeting、AISHELL-4、Simudata (917hours) \| 4950 \| 45M \| Offline \| Duration of input wav <= 20s, channel of input wav <= 8 channel

			#### RNN-T Models


			### Voice Activity Detection Models

			@@ -70,14 +75,20 @@

			### Speaker Verification Models

			\| Model Name \| Training Data \| Parameters \| Vocab Size \| Notes \|
			\| Model Name \| Training Data \| Parameters \| Number Speaker \| Notes \|
			\|:-------------------------------------------------------------------------------------------------------------:\|:-----------------:\|:----------:\|:----------:\|:------\|
			\| [Xvector](https://www.modelscope.cn/models/damo/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch/summary) \| CNCeleb (?hours) \| 17.5M \| 3465 \| \|
			\| [Xvector](https://www.modelscope.cn/models/damo/speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch/summary) \| CallHome (?hours) \| 61M \| 6135 \| \|
			\| [Xvector](https://www.modelscope.cn/models/damo/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch/summary) \| CNCeleb (1,200 hours) \| 17.5M \| 3465 \| Xvector, speaker verification, Chinese \|
			\| [Xvector](https://www.modelscope.cn/models/damo/speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch/summary) \| CallHome (60 hours) \| 61M \| 6135 \| Xvector, speaker verification, English \|

			### Speaker diarization Models

			\| Model Name \| Training Data \| Parameters \| Notes \|
			\|:----------------------------------------------------------------------------------------------------------------:\|:-------------------:\|:----------:\|:------\|
			\| [SOND](https://www.modelscope.cn/models/damo/speech_diarization_sond-zh-cn-alimeeting-16k-n16k4-pytorch/summary) \| AliMeeting (?hours) \| 40.5M \| \|
			\| [SOND](https://www.modelscope.cn/models/damo/speech_diarization_sond-en-us-callhome-8k-n16k4-pytorch/summary) \| CallHome (?hours) \| 12M \| \|
			\| [SOND](https://www.modelscope.cn/models/damo/speech_diarization_sond-zh-cn-alimeeting-16k-n16k4-pytorch/summary) \| AliMeeting (120 hours) \| 40.5M \| Speaker diarization, profiles and records, Chinese \|
			\| [SOND](https://www.modelscope.cn/models/damo/speech_diarization_sond-en-us-callhome-8k-n16k4-pytorch/summary) \| CallHome (60 hours) \| 12M \| Speaker diarization, profiles and records, English \|

			### Timestamp Prediction Models

			\| Model Name \| Language \| Training Data \| Parameters \| Notes \|
			\|:--------------------------------------------------------------------------------------------------:\|:--------------:\|:-------------------:\|:----------:\|:------\|
			\| [TP-Aligner](https://modelscope.cn/models/damo/speech_timestamp_prediction-v1-16k-offline/summary) \| CN \| Alibaba Speech Data (50000hours) \| 37.8M \| Timestamp prediction, Mandarin, middle size \|