游雁
2023-07-21 c542eacb0aadcbc49c63db40429fca4e08f807a4
README_zh.md
@@ -11,15 +11,20 @@
FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过支持在[ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition)上发布的工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并推动语音识别生态的发展。让语音识别更有趣!
[**最新动态**](#最新动态)
| [**核心功能**](#核心功能)
| [**安装教程**](#安装教程)
| [**如何使用**](#如何使用)
| [**服务部署**](./funasr/runtime/readme_cn.md)
| [**模型仓库**](./docs/model_zoo/modelscope_models.md)
| [**联系我们**](#contact)
| [**M2MET2.0比赛**](https://github.com/alibaba-damo-academy/FunASR#multi-channel-multi-party-meeting-transcription-20-m2met20-challenge)
<div align="center">
<h4>
<a href="#最新动态"> 最新动态 </a>
|<a href="#安装教程"> 安装 </a>
|<a href="#快速开始"> 快速开始 </a>
|<a href="https://alibaba-damo-academy.github.io/FunASR/en/index.html"> 教程文档 </a>
|<a href="#核心功能"> 核心功能 </a>
|<a href="./docs/model_zoo/modelscope_models.md"> 模型仓库 </a>
|<a href="./funasr/runtime/readme_cn.md"> 服务部署 </a>
|<a href="#联系我们"> 联系我们 </a>
</h4>
</div>
<a name="最新动态"></a>
## 最新动态
### 服务部署SDK
@@ -32,17 +37,41 @@
详情请参考文档([点击此处](https://alibaba-damo-academy.github.io/FunASR/m2met2_cn/index.html))
### 学术模型更新
### 语音识别
### 工业模型更新
- 学术模型:
  - Encoder-Decoder模型:[Transformer](egs/aishell/transformer),[Conformer](egs/aishell/conformer),[Branchformer](egs/aishell/branchformer)
  - Transducer模型:[RNNT(流式)](egs/aishell/rnnt),[BAT](egs/aishell/bat)
  - 非自回归模型:[Paraformer](egs/aishell/paraformer)
  - 多说话人识别模型:[MFCCA](egs_modelscope/asr/mfcca)
- 工业模型:
  - 中文通用模型:[Paraformer-large](egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch),[Paraformer-large长音频版本](egs_modelscope/asr_vad_punc/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch),[Paraformer-large流式版本](egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online)
  - 中文通用热词模型:[Paraformer-large-contextual](egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404),
  - 英文通用模型:[Conformer]()
  - 流式离线一体化模型: [16k UniASR闽南语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-minnan-16k-common-vocab3825/summary)、 [16k UniASR法语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online/summary)、 [16k UniASR德语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online/summary)、 [16k UniASR越南语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-online/summary)、 [16k UniASR波斯语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-online/summary),
  [16k UniASR缅甸语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-my-16k-common-vocab696-pytorch/summary)、      [16k UniASR希伯来语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-he-16k-common-vocab1085-pytorch/summary)、      [16k UniASR乌尔都语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/summary)、      [8k UniASR中文金融领域](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-8k-finance-vocab3445-online/summary)、[16k UniASR中文音视频领域](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-16k-audio_and_video-vocab3445-online/summary)
### 说话人识别
  - 说话人确认模型:[xvector](egs_modelscope/speaker_verification)
  - 说话人日志模型:[SOND](egs/callhome/diarization/sond)
- 2023/07/06
### 标点恢复
  - 中文标点模型:[CT-Transformer](egs_modelscope/punctuation/punc_ct-transformer_zh-cn-common-vocab272727-pytorch),[CT-Transformer流式](egs_modelscope/punctuation/punc_ct-transformer_zh-cn-common-vadrealtime-vocab272727)
### 端点检测
  - [FSMN-VAD](egs_modelscope/vad/speech_fsmn_vad_zh-cn-16k-common)
### 时间戳预测
  - 字级别模型:[TP-Aligner](egs_modelscope/tp/speech_timestamp_prediction-v1-16k-offline)
<a name="核心功能"></a>
## 核心功能
- FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。
- 我们在[ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition)上发布了大量的学术和工业预训练模型,可以通过我们的[模型仓库](https://github.com/alibaba-damo-academy/FunASR/blob/main/docs/model_zoo/modelscope_models.md)访问。代表性的[Paraformer-large](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary)模型在许多语音识别任务中实现了SOTA性能。
- FunASR提供了一个易于使用的接口,可以直接基于ModelScope中托管模型进行推理与微调。此外,FunASR中的优化数据加载器可以加速大规模数据集的训练速度。
<a name="安装教程"></a>
## 安装教程
直接安装发布软件包
@@ -72,7 +101,8 @@
更详细安装过程介绍([点击此处](https://alibaba-damo-academy.github.io/FunASR/en/installation/installation.html))
## 如何使用
<a name="快速开始"></a>
## 快速开始
您可以通过如下几种方式使用FunASR功能:
@@ -84,7 +114,7 @@
#### python版本示例
支持实时流式语音识别,并且会用非流式模型进行纠错,输出文本带有标点。目前只支持单个client,如需多并发请参考c++版本服务部署SDK([点击此处]())
支持实时流式语音识别,并且会用非流式模型进行纠错,输出文本带有标点。目前只支持单个client,如需多并发请参考下方c++版本服务部署SDK
##### 服务端部署
```shell
@@ -99,6 +129,7 @@
```
更多例子可以参考([点击此处](https://alibaba-damo-academy.github.io/FunASR/en/runtime/websocket_python.html#id2))
<a name="cpp版本示例"></a>
#### c++版本示例
目前已支持离线文件转写服务(CPU),支持上百路并发请求
@@ -151,12 +182,12 @@
更多例子可以参考([点击此处](https://alibaba-damo-academy.github.io/FunASR/en/academic_recipe/asr_recipe.html))
<a name="联系我们"></a>
## 联系我们
如果您在使用中遇到困难,可以通过一下方式联系我们
如果您在使用中遇到困难,可以通过以下方式联系我们
- email: [funasr@list.alibaba-inc.com](funasr@list.alibaba-inc.com)
- 邮件: [funasr@list.alibaba-inc.com](funasr@list.alibaba-inc.com)
|                                  钉钉群                                  |                          微信                           |
|:---------------------------------------------------------------------:|:-----------------------------------------------------:|
@@ -171,7 +202,7 @@
## 许可协议
项目遵循[The MIT License](https://opensource.org/licenses/MIT)开源协议. 工业模型许可协议请参考([点击此处](./MODEL_LICENSE))
项目遵循[The MIT License](https://opensource.org/licenses/MIT)开源协议。 工业模型许可协议请参考([点击此处](./MODEL_LICENSE))
## Stargazers over time