python/FunASR-XL.git

			@@ -11,15 +11,20 @@

			FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过支持在[ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition)上发布的工业级语音识别模型的训练和微调，研究人员和开发人员可以更方便地进行语音识别模型的研究和生产，并推动语音识别生态的发展。让语音识别更有趣！

			[最新动态](#最新动态)
			\| [核心功能](#核心功能)
			\| [安装教程](#安装教程)
			\| [如何使用](#如何使用)
			\| [服务部署](./funasr/runtime/readme_cn.md)
			\| [模型仓库](./docs/model_zoo/modelscope_models.md)
			\| [联系我们](#contact)
			\| [M2MET2.0比赛](https://github.com/alibaba-damo-academy/FunASR#multi-channel-multi-party-meeting-transcription-20-m2met20-challenge)
			<div align="center">
			<h4>
			<a href="#最新动态"> 最新动态 </a>
			｜<a href="#安装教程"> 安装 </a>
			｜<a href="#快速开始"> 快速开始 </a>
			｜<a href="https://alibaba-damo-academy.github.io/FunASR/en/index.html"> 教程文档 </a>
			｜<a href="#核心功能"> 核心功能 </a>
			｜<a href="./docs/model_zoo/modelscope_models.md"> 模型仓库 </a>
			｜<a href="./funasr/runtime/readme_cn.md"> 服务部署 </a>
			｜<a href="#联系我们"> 联系我们 </a>
			</h4>
			</div>

			<a name="最新动态"></a>
			## 最新动态

			### 服务部署SDK
			@@ -32,17 +37,41 @@
			详情请参考文档（[点击此处](https://alibaba-damo-academy.github.io/FunASR/m2met2_cn/index.html)）


			### 学术模型更新
			### 语音识别

			### 工业模型更新
			- 学术模型：
			- Encoder-Decoder模型：[Transformer](egs/aishell/transformer)，[Conformer](egs/aishell/conformer)，[Branchformer](egs/aishell/branchformer)
			- Transducer模型：[RNNT（流式）](egs/aishell/rnnt)，[BAT](egs/aishell/bat)
			- 非自回归模型：[Paraformer](egs/aishell/paraformer)
			- 多说话人识别模型：[MFCCA](egs_modelscope/asr/mfcca)

			- 工业模型：
			- 中文通用模型：[Paraformer-large](egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch)，[Paraformer-large长音频版本](egs_modelscope/asr_vad_punc/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch)，[Paraformer-large流式版本](egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online)
			- 中文通用热词模型：[Paraformer-large-contextual](egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404)，
			- 英文通用模型：[Conformer]()
			- 流式离线一体化模型： [16k UniASR闽南语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-minnan-16k-common-vocab3825/summary)、 [16k UniASR法语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online/summary)、 [16k UniASR德语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online/summary)、 [16k UniASR越南语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-online/summary)、 [16k UniASR波斯语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-online/summary),
			[16k UniASR缅甸语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-my-16k-common-vocab696-pytorch/summary)、 [16k UniASR希伯来语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-he-16k-common-vocab1085-pytorch/summary)、 [16k UniASR乌尔都语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/summary)、 [8k UniASR中文金融领域](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-8k-finance-vocab3445-online/summary)、[16k UniASR中文音视频领域](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-16k-audio_and_video-vocab3445-online/summary)

			### 说话人识别
			- 说话人确认模型：[xvector](egs_modelscope/speaker_verification)
			- 说话人日志模型：[SOND](egs/callhome/diarization/sond)

			- 2023/07/06
			### 标点恢复
			- 中文标点模型：[CT-Transformer](egs_modelscope/punctuation/punc_ct-transformer_zh-cn-common-vocab272727-pytorch)，[CT-Transformer流式](egs_modelscope/punctuation/punc_ct-transformer_zh-cn-common-vadrealtime-vocab272727)

			### 端点检测
			- [FSMN-VAD](egs_modelscope/vad/speech_fsmn_vad_zh-cn-16k-common)

			### 时间戳预测
			- 字级别模型：[TP-Aligner](egs_modelscope/tp/speech_timestamp_prediction-v1-16k-offline)

			<a name="核心功能"></a>
			## 核心功能
			- FunASR是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音活动检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。
			- 我们在[ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition)上发布了大量的学术和工业预训练模型，可以通过我们的[模型仓库](https://github.com/alibaba-damo-academy/FunASR/blob/main/docs/model_zoo/modelscope_models.md)访问。代表性的[Paraformer-large](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary)模型在许多语音识别任务中实现了SOTA性能。
			- FunASR提供了一个易于使用的接口，可以直接基于ModelScope中托管模型进行推理与微调。此外，FunASR中的优化数据加载器可以加速大规模数据集的训练速度。

			<a name="安装教程"></a>
			## 安装教程

			直接安装发布软件包
			@@ -72,7 +101,8 @@

			更详细安装过程介绍（[点击此处](https://alibaba-damo-academy.github.io/FunASR/en/installation/installation.html)）

			## 如何使用
			<a name="快速开始"></a>
			## 快速开始

			您可以通过如下几种方式使用FunASR功能:

			@@ -84,7 +114,7 @@

			#### python版本示例

			支持实时流式语音识别，并且会用非流式模型进行纠错，输出文本带有标点。目前只支持单个client，如需多并发请参考c++版本服务部署SDK（[点击此处]()）
			支持实时流式语音识别，并且会用非流式模型进行纠错，输出文本带有标点。目前只支持单个client，如需多并发请参考下方c++版本服务部署SDK

			##### 服务端部署
			```shell
			@@ -99,6 +129,7 @@
			```
			更多例子可以参考（[点击此处](https://alibaba-damo-academy.github.io/FunASR/en/runtime/websocket_python.html#id2)）

			<a name="cpp版本示例"></a>
			#### c++版本示例

			目前已支持离线文件转写服务（CPU），支持上百路并发请求
			@@ -151,12 +182,12 @@

			更多例子可以参考（[点击此处](https://alibaba-damo-academy.github.io/FunASR/en/academic_recipe/asr_recipe.html)）


			<a name="联系我们"></a>
			## 联系我们

			如果您在使用中遇到困难，可以通过一下方式联系我们
			如果您在使用中遇到困难，可以通过以下方式联系我们

			- email: [funasr@list.alibaba-inc.com](funasr@list.alibaba-inc.com)
			- 邮件: [funasr@list.alibaba-inc.com](funasr@list.alibaba-inc.com)

			\| 钉钉群 \| 微信 \|
			\|:---------------------------------------------------------------------:\|:-----------------------------------------------------:\|
			@@ -171,7 +202,7 @@


			## 许可协议
			项目遵循[The MIT License](https://opensource.org/licenses/MIT)开源协议. 工业模型许可协议请参考（[点击此处](./MODEL_LICENSE)）
			项目遵循[The MIT License](https://opensource.org/licenses/MIT)开源协议。工业模型许可协议请参考（[点击此处](./MODEL_LICENSE)）


			## Stargazers over time