python/FunASR-XL.git

			@@ -1,7 +1,8 @@
			# Pretrained Models on ModelScope

			## Model License
			- Apache License 2.0
			You are free to use, copy, modify, and share FunASR under the conditions of this agreement. To upload FunASR to any third-party platform for download and use, you need to obtain an additional license, which can be applied for free through official email (funasr@list.alibaba-inc.com). You must also indicate the code and model source and author information when using, copying, modifying and sharing FunASR. Full license could see [license](https://github.com/alibaba-damo-academy/FunASR/blob/main/LICENSE)


			## Model Zoo
			Here we provided several pretrained models on different datasets. The details of models and datasets can be found on [ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition).
			@@ -15,7 +16,8 @@
			\| [Paraformer-large-long](https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Offline \| Which ould deal with arbitrary length input wav \|
			\| [Paraformer-large-contextual](https://www.modelscope.cn/models/damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/summary) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Offline \| Which supports the hotword customization based on the incentive enhancement, and improves the recall and precision of hotwords. \|
			\| [Paraformer](https://modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8358-tensorflow1/summary) \| CN & EN \| Alibaba Speech Data (50000hours) \| 8358 \| 68M \| Offline \| Duration of input wav <= 20s \|
			\| [Paraformer-online](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/summary) \| CN & EN \| Alibaba Speech Data (50000hours) \| 8404 \| 68M \| Online \| Which could deal with streaming input \|
			\| [Paraformer-online](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/summary) \| CN & EN \| Alibaba Speech Data (50000hours) \| 8404 \| 68M \| Online \| Which could deal with streaming input \|
			\| [Paraformer-large-online](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online/summary) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Online \| Which could deal with streaming input \|
			\| [Paraformer-tiny](https://www.modelscope.cn/models/damo/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch/summary) \| CN \| Alibaba Speech Data (200hours) \| 544 \| 5.2M \| Offline \| Lightweight Paraformer model which supports Mandarin command words recognition \|
			\| [Paraformer-aishell](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-aishell1-pytorch/summary) \| CN \| AISHELL (178hours) \| 4234 \| 43M \| Offline \| \|
			\| [ParaformerBert-aishell](https://modelscope.cn/models/damo/speech_paraformerbert_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/summary) \| CN \| AISHELL (178hours) \| 4234 \| 43M \| Offline \| \|
			@@ -38,13 +40,13 @@
			\| [UniASR Vietnamese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-online/summary) \| VI \| Alibaba Speech Data (1000 hours) \| 1001 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR Spanish](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-es-16k-common-vocab3445-tensorflow1-online/summary) \| ES \| Alibaba Speech Data (1000 hours) \| 3445 \| 95M \| Online \| UniASR streaming online unifying models \|
			\| [UniASR Portuguese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-pt-16k-common-vocab1617-tensorflow1-online/summary) \| PT \| Alibaba Speech Data (1000 hours) \| 1617 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR French](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online/summary) \| FR \| Alibaba Speech Data (1000 hours) \| 3472 \| 95M \| Online \| UniASR streaming online unifying models \|
			\| [UniASR German](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online/summary) \| GE \| Alibaba Speech Data (1000 hours) \| 3690 \| 95M \| Online \| UniASR streaming online unifying models \|
			\| [UniASR French](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online/summary) \| FR \| Alibaba Speech Data (1000 hours) \| 3472 \| 95M \| Online \| UniASR streaming online unifying models \|
			\| [UniASR German](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online/summary) \| GE \| Alibaba Speech Data (1000 hours) \| 3690 \| 95M \| Online \| UniASR streaming online unifying models \|
			\| [UniASR Persian](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-online/summary) \| FA \| Alibaba Speech Data (1000 hours) \| 1257 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR Burmese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-my-16k-common-vocab696-pytorch/summary) \| MY \| Alibaba Speech Data (1000 hours) \| 696 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR Hebrew](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-he-16k-common-vocab1085-pytorch/summary) \| HE \| Alibaba Speech Data (1000 hours) \| 1085 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR Urdu](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/summary) \| UR \| Alibaba Speech Data (1000 hours) \| 877 \| 95M \| Online \| UniASR streaming offline unifying models \|

			\| [UniASR Urdu](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/summary) \| UR \| Alibaba Speech Data (1000 hours) \| 877 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR Turkish](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-tr-16k-common-vocab1582-pytorch/summary) \| TR \| Alibaba Speech Data (1000 hours) \| 1582 \| 95M \| Online \| UniASR streaming offline unifying models \|


			#### Conformer Models

			@@ -1,7 +1,8 @@
			# Pretrained Models on ModelScope

			## Model License
			- Apache License 2.0
			You are free to use, copy, modify, and share FunASR under the conditions of this agreement. To upload FunASR to any third-party platform for download and use, you need to obtain an additional license, which can be applied for free through official email (funasr@list.alibaba-inc.com). You must also indicate the code and model source and author information when using, copying, modifying and sharing FunASR. Full license could see [license](https://github.com/alibaba-damo-academy/FunASR/blob/main/LICENSE)


			## Model Zoo
			Here we provided several pretrained models on different datasets. The details of models and datasets can be found on [ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition).
			@@ -15,7 +16,8 @@
			\| [Paraformer-large-long](https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Offline \| Which ould deal with arbitrary length input wav \|
			\| [Paraformer-large-contextual](https://www.modelscope.cn/models/damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/summary) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Offline \| Which supports the hotword customization based on the incentive enhancement, and improves the recall and precision of hotwords. \|
			\| [Paraformer](https://modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8358-tensorflow1/summary) \| CN & EN \| Alibaba Speech Data (50000hours) \| 8358 \| 68M \| Offline \| Duration of input wav <= 20s \|
			\| [Paraformer-online](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/summary) \| CN & EN \| Alibaba Speech Data (50000hours) \| 8404 \| 68M \| Online \| Which could deal with streaming input \|
			\| [Paraformer-online](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/summary) \| CN & EN \| Alibaba Speech Data (50000hours) \| 8404 \| 68M \| Online \| Which could deal with streaming input \|
			\| [Paraformer-large-online](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online/summary) \| CN & EN \| Alibaba Speech Data (60000hours) \| 8404 \| 220M \| Online \| Which could deal with streaming input \|
			\| [Paraformer-tiny](https://www.modelscope.cn/models/damo/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch/summary) \| CN \| Alibaba Speech Data (200hours) \| 544 \| 5.2M \| Offline \| Lightweight Paraformer model which supports Mandarin command words recognition \|
			\| [Paraformer-aishell](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-aishell1-pytorch/summary) \| CN \| AISHELL (178hours) \| 4234 \| 43M \| Offline \| \|
			\| [ParaformerBert-aishell](https://modelscope.cn/models/damo/speech_paraformerbert_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/summary) \| CN \| AISHELL (178hours) \| 4234 \| 43M \| Offline \| \|
			@@ -38,13 +40,13 @@
			\| [UniASR Vietnamese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-online/summary) \| VI \| Alibaba Speech Data (1000 hours) \| 1001 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR Spanish](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-es-16k-common-vocab3445-tensorflow1-online/summary) \| ES \| Alibaba Speech Data (1000 hours) \| 3445 \| 95M \| Online \| UniASR streaming online unifying models \|
			\| [UniASR Portuguese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-pt-16k-common-vocab1617-tensorflow1-online/summary) \| PT \| Alibaba Speech Data (1000 hours) \| 1617 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR French](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online/summary) \| FR \| Alibaba Speech Data (1000 hours) \| 3472 \| 95M \| Online \| UniASR streaming online unifying models \|
			\| [UniASR German](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online/summary) \| GE \| Alibaba Speech Data (1000 hours) \| 3690 \| 95M \| Online \| UniASR streaming online unifying models \|
			\| [UniASR French](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online/summary) \| FR \| Alibaba Speech Data (1000 hours) \| 3472 \| 95M \| Online \| UniASR streaming online unifying models \|
			\| [UniASR German](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online/summary) \| GE \| Alibaba Speech Data (1000 hours) \| 3690 \| 95M \| Online \| UniASR streaming online unifying models \|
			\| [UniASR Persian](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-online/summary) \| FA \| Alibaba Speech Data (1000 hours) \| 1257 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR Burmese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-my-16k-common-vocab696-pytorch/summary) \| MY \| Alibaba Speech Data (1000 hours) \| 696 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR Hebrew](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-he-16k-common-vocab1085-pytorch/summary) \| HE \| Alibaba Speech Data (1000 hours) \| 1085 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR Urdu](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/summary) \| UR \| Alibaba Speech Data (1000 hours) \| 877 \| 95M \| Online \| UniASR streaming offline unifying models \|

			\| [UniASR Urdu](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/summary) \| UR \| Alibaba Speech Data (1000 hours) \| 877 \| 95M \| Online \| UniASR streaming offline unifying models \|
			\| [UniASR Turkish](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-tr-16k-common-vocab1582-pytorch/summary) \| TR \| Alibaba Speech Data (1000 hours) \| 1582 \| 95M \| Online \| UniASR streaming offline unifying models \|


			#### Conformer Models