haoneng.lhn
2023-07-20 3e8159e5b0f6e7e96d4e6ca1f4b4d8ccb151ace5
README_zh.md
@@ -11,15 +11,20 @@
FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过支持在[ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition)上发布的工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并推动语音识别生态的发展。让语音识别更有趣!
[**最新动态**](#最新动态)
| [**核心功能**](#核心功能)
| [**安装教程**](#安装教程)
| [**如何使用**](#如何使用)
| [**服务部署**](./funasr/runtime/readme_cn.md)
| [**模型仓库**](./docs/model_zoo/modelscope_models.md)
| [**联系我们**](#contact)
| [**M2MET2.0比赛**](https://github.com/alibaba-damo-academy/FunASR#multi-channel-multi-party-meeting-transcription-20-m2met20-challenge)
<div align="center">
<h4>
<a href="#最新动态"> 最新动态 </a>
|<a href="#安装教程"> 安装 </a>
|<a href="#快速开始"> 快速开始 </a>
|<a href="https://alibaba-damo-academy.github.io/FunASR/en/index.html"> 教程文档 </a>
|<a href="#核心功能"> 核心功能 </a>
|<a href="./docs/model_zoo/modelscope_models.md"> 模型仓库 </a>
|<a href="./funasr/runtime/readme_cn.md"> 服务部署 </a>
|<a href="#联系我们"> 联系我们 </a>
</h4>
</div>
<a name="最新动态"></a>
## 最新动态
### 服务部署SDK
@@ -32,17 +37,40 @@
详情请参考文档([点击此处](https://alibaba-damo-academy.github.io/FunASR/m2met2_cn/index.html))
### 学术模型更新
### 语音识别
### 工业模型更新
- 学术模型:
  - Encoder-Decoder模型:[Transformer](egs/aishell/transformer),[Conformer](egs/aishell/conformer),[Branchformer](egs/aishell/branchformer)
  - Transducer模型:[RNNT(流式)](egs/aishell/rnnt),[BAT](egs/aishell/bat)
  - 非自回归模型:[Paraformer](egs/aishell/paraformer)
  - 多说话人识别模型:[MFCCA](egs_modelscope/asr/mfcca)
- 工业模型:
  - 中文通用模型:[Paraformer-large](egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch),[Paraformer-large长音频版本](egs_modelscope/asr_vad_punc/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch),[Paraformer-large流式版本](egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online)
  - 中文通用热词模型:[Paraformer-large-contextual](egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404),
  - 英文通用模型:[Conformer]()
  - 流式离线一体化模型:[UniASR]()
### 说话人识别
  - 说话人确认模型:[xvector](egs_modelscope/speaker_verification)
  - 说话人日志模型:[SOND](egs/callhome/diarization/sond)
- 2023/07/06
### 标点恢复
  - 中文标点模型:[CT-Transformer](egs_modelscope/punctuation/punc_ct-transformer_zh-cn-common-vocab272727-pytorch),[CT-Transformer流式](egs_modelscope/punctuation/punc_ct-transformer_zh-cn-common-vadrealtime-vocab272727)
### 端点检测
  - [FSMN-VAD](egs_modelscope/vad/speech_fsmn_vad_zh-cn-16k-common)
### 时间戳预测
  - 字级别模型:[TP-Aligner](egs_modelscope/tp/speech_timestamp_prediction-v1-16k-offline)
<a name="核心功能"></a>
## 核心功能
- FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。
- 我们在[ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition)上发布了大量的学术和工业预训练模型,可以通过我们的[模型仓库](https://github.com/alibaba-damo-academy/FunASR/blob/main/docs/model_zoo/modelscope_models.md)访问。代表性的[Paraformer-large](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary)模型在许多语音识别任务中实现了SOTA性能。
- FunASR提供了一个易于使用的接口,可以直接基于ModelScope中托管模型进行推理与微调。此外,FunASR中的优化数据加载器可以加速大规模数据集的训练速度。
<a name="安装教程"></a>
## 安装教程
直接安装发布软件包
@@ -72,7 +100,8 @@
更详细安装过程介绍([点击此处](https://alibaba-damo-academy.github.io/FunASR/en/installation/installation.html))
## 如何使用
<a name="快速开始"></a>
## 快速开始
您可以通过如下几种方式使用FunASR功能:
@@ -84,7 +113,7 @@
#### python版本示例
支持实时流式语音识别,并且会用非流式模型进行纠错,输出文本带有标点。目前只支持单个client,如需多并发请参考c++版本服务部署SDK([点击此处]())
支持实时流式语音识别,并且会用非流式模型进行纠错,输出文本带有标点。目前只支持单个client,如需多并发请参考下方c++版本服务部署SDK
##### 服务端部署
```shell
@@ -99,6 +128,7 @@
```
更多例子可以参考([点击此处](https://alibaba-damo-academy.github.io/FunASR/en/runtime/websocket_python.html#id2))
<a name="cpp版本示例"></a>
#### c++版本示例
目前已支持离线文件转写服务(CPU),支持上百路并发请求
@@ -151,12 +181,12 @@
更多例子可以参考([点击此处](https://alibaba-damo-academy.github.io/FunASR/en/academic_recipe/asr_recipe.html))
<a name="联系我们"></a>
## 联系我们
如果您在使用中遇到困难,可以通过一下方式联系我们
如果您在使用中遇到困难,可以通过以下方式联系我们
- email: [funasr@list.alibaba-inc.com](funasr@list.alibaba-inc.com)
- 邮件: [funasr@list.alibaba-inc.com](funasr@list.alibaba-inc.com)
|                                  钉钉群                                  |                          微信                           |
|:---------------------------------------------------------------------:|:-----------------------------------------------------:|
@@ -171,7 +201,7 @@
## 许可协议
项目遵循[The MIT License](https://opensource.org/licenses/MIT)开源协议. 工业模型许可协议请参考([点击此处](./MODEL_LICENSE))
项目遵循[The MIT License](https://opensource.org/licenses/MIT)开源协议。 工业模型许可协议请参考([点击此处](./MODEL_LICENSE))
## Stargazers over time