| | |
| | | |
| | | FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过支持在[ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition)上发布的工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并推动语音识别生态的发展。让语音识别更有趣! |
| | | |
| | | [**最新动态**](#最新动态) |
| | | | [**核心功能**](#核心功能) |
| | | | [**安装教程**](#安装教程) |
| | | | [**如何使用**](#如何使用) |
| | | | [**服务部署**](./funasr/runtime/readme_cn.md) |
| | | | [**模型仓库**](./docs/model_zoo/modelscope_models.md) |
| | | | [**联系我们**](#contact) |
| | | | [**M2MET2.0比赛**](https://github.com/alibaba-damo-academy/FunASR#multi-channel-multi-party-meeting-transcription-20-m2met20-challenge) |
| | | <div align="center"> |
| | | <h4> |
| | | <a href="#最新动态"> 最新动态 </a> |
| | | |<a href="#安装教程"> 安装 </a> |
| | | |<a href="#快速开始"> 快速开始 </a> |
| | | |<a href="https://alibaba-damo-academy.github.io/FunASR/en/index.html"> 教程文档 </a> |
| | | |<a href="#核心功能"> 核心功能 </a> |
| | | |<a href="./docs/model_zoo/modelscope_models.md"> 模型仓库 </a> |
| | | |<a href="./funasr/runtime/readme_cn.md"> 服务部署 </a> |
| | | |<a href="#联系我们"> 联系我们 </a> |
| | | </h4> |
| | | </div> |
| | | |
| | | <a name="最新动态"></a> |
| | | ## 最新动态 |
| | | |
| | | ### 服务部署SDK |
| | |
| | | 详情请参考文档([点击此处](https://alibaba-damo-academy.github.io/FunASR/m2met2_cn/index.html)) |
| | | |
| | | |
| | | ### 学术模型更新 |
| | | ### 语音识别 |
| | | |
| | | ### 工业模型更新 |
| | | - 学术模型: |
| | | - Encoder-Decoder模型:[Transformer](egs/aishell/transformer),[Conformer](egs/aishell/conformer),[Branchformer](egs/aishell/branchformer) |
| | | - Transducer模型:[RNNT(流式)](egs/aishell/rnnt),[BAT](egs/aishell/bat) |
| | | - 非自回归模型:[Paraformer](egs/aishell/paraformer) |
| | | - 多说话人识别模型:[MFCCA](egs_modelscope/asr/mfcca) |
| | | |
| | | - 工业模型: |
| | | - 中文通用模型:[Paraformer-large](egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch),[Paraformer-large长音频版本](egs_modelscope/asr_vad_punc/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch),[Paraformer-large流式版本](egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online) |
| | | - 中文通用热词模型:[Paraformer-large-contextual](egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404), |
| | | - 英文通用模型:[Conformer]() |
| | | - 流式离线一体化模型: [16k UniASR闽南语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-minnan-16k-common-vocab3825/summary)、 [16k UniASR法语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online/summary)、 [16k UniASR德语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online/summary)、 [16k UniASR越南语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-online/summary)、 [16k UniASR波斯语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-online/summary), |
| | | [16k UniASR缅甸语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-my-16k-common-vocab696-pytorch/summary)、 [16k UniASR希伯来语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-he-16k-common-vocab1085-pytorch/summary)、 [16k UniASR乌尔都语](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/summary)、 [8k UniASR中文金融领域](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-8k-finance-vocab3445-online/summary)、[16k UniASR中文音视频领域](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-16k-audio_and_video-vocab3445-online/summary) |
| | | |
| | | ### 说话人识别 |
| | | - 说话人确认模型:[xvector](egs_modelscope/speaker_verification) |
| | | - 说话人日志模型:[SOND](egs/callhome/diarization/sond) |
| | | |
| | | - 2023/07/06 |
| | | ### 标点恢复 |
| | | - 中文标点模型:[CT-Transformer](egs_modelscope/punctuation/punc_ct-transformer_zh-cn-common-vocab272727-pytorch),[CT-Transformer流式](egs_modelscope/punctuation/punc_ct-transformer_zh-cn-common-vadrealtime-vocab272727) |
| | | |
| | | ### 端点检测 |
| | | - [FSMN-VAD](egs_modelscope/vad/speech_fsmn_vad_zh-cn-16k-common) |
| | | |
| | | ### 时间戳预测 |
| | | - 字级别模型:[TP-Aligner](egs_modelscope/tp/speech_timestamp_prediction-v1-16k-offline) |
| | | |
| | | <a name="核心功能"></a> |
| | | ## 核心功能 |
| | | - FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。 |
| | | - 我们在[ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition)上发布了大量的学术和工业预训练模型,可以通过我们的[模型仓库](https://github.com/alibaba-damo-academy/FunASR/blob/main/docs/model_zoo/modelscope_models.md)访问。代表性的[Paraformer-large](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary)模型在许多语音识别任务中实现了SOTA性能。 |
| | | - FunASR提供了一个易于使用的接口,可以直接基于ModelScope中托管模型进行推理与微调。此外,FunASR中的优化数据加载器可以加速大规模数据集的训练速度。 |
| | | |
| | | <a name="安装教程"></a> |
| | | ## 安装教程 |
| | | |
| | | 直接安装发布软件包 |
| | |
| | | |
| | | 更详细安装过程介绍([点击此处](https://alibaba-damo-academy.github.io/FunASR/en/installation/installation.html)) |
| | | |
| | | ## 如何使用 |
| | | <a name="快速开始"></a> |
| | | ## 快速开始 |
| | | |
| | | 您可以通过如下几种方式使用FunASR功能: |
| | | |
| | |
| | | |
| | | #### python版本示例 |
| | | |
| | | 支持实时流式语音识别,并且会用非流式模型进行纠错,输出文本带有标点。目前只支持单个client,如需多并发请参考c++版本服务部署SDK([点击此处]()) |
| | | 支持实时流式语音识别,并且会用非流式模型进行纠错,输出文本带有标点。目前只支持单个client,如需多并发请参考下方c++版本服务部署SDK |
| | | |
| | | ##### 服务端部署 |
| | | ```shell |
| | |
| | | ``` |
| | | 更多例子可以参考([点击此处](https://alibaba-damo-academy.github.io/FunASR/en/runtime/websocket_python.html#id2)) |
| | | |
| | | <a name="cpp版本示例"></a> |
| | | #### c++版本示例 |
| | | |
| | | 目前已支持离线文件转写服务(CPU),支持上百路并发请求 |
| | |
| | | |
| | | 更多例子可以参考([点击此处](https://alibaba-damo-academy.github.io/FunASR/en/academic_recipe/asr_recipe.html)) |
| | | |
| | | |
| | | <a name="联系我们"></a> |
| | | ## 联系我们 |
| | | |
| | | 如果您在使用中遇到困难,可以通过一下方式联系我们 |
| | | 如果您在使用中遇到困难,可以通过以下方式联系我们 |
| | | |
| | | - email: [funasr@list.alibaba-inc.com](funasr@list.alibaba-inc.com) |
| | | - 邮件: [funasr@list.alibaba-inc.com](funasr@list.alibaba-inc.com) |
| | | |
| | | | 钉钉群 | 微信 | |
| | | |:---------------------------------------------------------------------:|:-----------------------------------------------------:| |
| | |
| | | |
| | | |
| | | ## 许可协议 |
| | | 项目遵循[The MIT License](https://opensource.org/licenses/MIT)开源协议. 工业模型许可协议请参考([点击此处](./MODEL_LICENSE)) |
| | | 项目遵循[The MIT License](https://opensource.org/licenses/MIT)开源协议。 工业模型许可协议请参考([点击此处](./MODEL_LICENSE)) |
| | | |
| | | |
| | | ## Stargazers over time |