python/FunASR-XL.git

parent: dac8636f | 补丁 | 提交 | show whitespace

游雁

2023-11-08 c857b7dd67b560b2725eebf1d0989164c6cac3f5

docs

4个文件已修改

11个文件已删除

2个文件已添加

	README_zh.md	10 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/index.rst	8 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/demo.gif	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/export.md	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/grpc_cpp.md	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/grpc_python.md	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/html5.md	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/img.png	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/libtorch_python.md	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/onnxruntime_cpp.md	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/onnxruntime_python.md	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/websocket_cpp.md	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	docs/runtime/websocket_python.md	1 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	egs_modelscope/asr/TEMPLATE/README_zh.md	4 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	runtime/docs/images/sdk_roadmap.jpg	补丁 \| 查看 \| 原始文档 \| blame \| 历史
	runtime/readme_cn.md	6 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史

 README_zh.md

@@ -19,7 +19,7 @@
｜<a href="#快速开始"> 快速开始 </a>
｜<a href="https://alibaba-damo-academy.github.io/FunASR/en/index.html"> 教程文档 </a>
｜<a href="./docs/model_zoo/modelscope_models.md"> 模型仓库 </a>
｜<a href="./runtime/readme_cn.md"> 服务部署 </a>
｜<a href="#服务部署"> 服务部署 </a>
｜<a href="#联系我们"> 联系我们 </a>
</h4>
</div>
@@ -31,12 +31,12 @@

<a name="最新动态"></a>
## 最新动态
- 20223/10/17: 英文离线文件转写服务一键部署的CPU版本发布，详细信息参阅([一键部署文档](funasr/runtime/docs/SDK_tutorial_en_zh.md))
- 20223/10/17: 英文离线文件转写服务一键部署的CPU版本发布，详细信息参阅([一键部署文档](runtime/readme_cn.html#cpu))
- 2023/10/13: [SlideSpeech](https://slidespeech.github.io/): 一个大规模的多模态音视频语料库，主要是在线会议或者在线课程场景，包含了大量与发言人讲话实时同步的幻灯片。
- 2023.10.10: [Paraformer-long-Spk](https://github.com/alibaba-damo-academy/FunASR/blob/main/egs_modelscope/asr_vad_spk/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn/demo.py)模型发布，支持在长语音识别的基础上获取每句话的说话人标签。
- 2023.10.07: [FunCodec](https://github.com/alibaba-damo-academy/FunCodec): FunCodec提供开源模型和训练工具，可以用于音频离散编码，以及基于离散编码的语音识别、语音合成等任务。
- 2023.09.01: 中文离线文件转写服务2.0 CPU版本发布，新增ffmpeg、时间戳与热词模型支持，详细信息参阅([一键部署文档](funasr/runtime/docs/SDK_tutorial_zh.md))
- 2023.08.07: 中文实时语音听写服务一键部署的CPU版本发布，详细信息参阅([一键部署文档](funasr/runtime/docs/SDK_tutorial_online_zh.md))
- 2023.09.01: 中文离线文件转写服务2.0 CPU版本发布，新增ffmpeg、时间戳与热词模型支持，详细信息参阅([一键部署文档](runtime/readme_cn.html#id6))
- 2023.08.07: 中文实时语音听写服务一键部署的CPU版本发布，详细信息参阅([一键部署文档](runtime/readme_cn.html#id3))
- 2023.07.17: BAT一种低延迟低内存消耗的RNN-T模型发布，详细信息参阅（[BAT](egs/aishell/bat)）
- 2023.06.26: ASRU2023 多通道多方会议转录挑战赛2.0完成竞赛结果公布，详细信息参阅（[M2MeT2.0](https://alibaba-damo-academy.github.io/FunASR/m2met2_cn/index.html)）

@@ -116,7 +116,7 @@
- 中文离线文件转写服务（GPU版本），进行中
- 更多支持中

详细信息可以参阅([服务部署文档](funasr/runtime/readme_cn.md))。
详细信息可以参阅([服务部署文档](runtime/readme_cn.md))。


<a name="社区交流"></a>

 docs/index.rst

@@ -71,10 +71,10 @@
   :maxdepth: 1
   :caption: Runtime and Service

   ./funasr/runtime/readme.md
   ./funasr/runtime/docs/SDK_tutorial_online.md
   ./funasr/runtime/docs/SDK_tutorial.md
   ./funasr/runtime/html5/readme.md
   ./runtime/readme.md
   ./runtime/docs/SDK_tutorial_online.md
   ./runtime/docs/SDK_tutorial.md
   ./runtime/html5/readme.md




 docs/runtime

New file
@@ -0,0 +1 @@
../runtime

 docs/runtime/demo.gif

Binary files differ

 docs/runtime/export.md

File was deleted

 docs/runtime/grpc_cpp.md

File was deleted

 docs/runtime/grpc_python.md

File was deleted

 docs/runtime/html5.md

File was deleted

 docs/runtime/img.png

Binary files differ

 docs/runtime/libtorch_python.md

File was deleted

 docs/runtime/onnxruntime_cpp.md

File was deleted

 docs/runtime/onnxruntime_python.md

File was deleted

 docs/runtime/websocket_cpp.md

File was deleted

 docs/runtime/websocket_python.md

File was deleted

 egs_modelscope/asr/TEMPLATE/README_zh.md

@@ -30,12 +30,10 @@
    task=Tasks.auto_speech_recognition,
    model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch',
    vad_model='damo/speech_fsmn_vad_zh-cn-16k-common-pytorch',
    #punc_model='damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch',
    punc_model='damo/punc_ct-transformer_cn-en-common-vocab471067-large',
)

rec_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/vad_example.wav', 
                                batch_size_token=5000, batch_size_token_threshold_s=40, max_single_segment_time=6000)
rec_result = inference_pipeline(audio_in='./vad_example.wav')
print(rec_result)
```
其中： 

 runtime/docs/images/sdk_roadmap.jpg


 runtime/readme_cn.md

@@ -2,8 +2,10 @@

English Version（[docs](./readme.md)）

FunASR是由达摩院语音实验室开源的一款语音识别基础框架，集成了语音端点检测、语音识别、标点断句等领域的工业级别模型，吸引了众多开发者参与体验和开发。为了解决工业落地的最后一公里，将模型集成到业务中去，我们开发了FunASR runtime-SDK。
SDK 支持以下几种服务部署：
FunASR是由阿里巴巴通义-语音实验室开源的一款语音识别基础框架，集成了语音端点检测、语音识别、标点断句等领域的工业级别模型，吸引了众多开发者参与体验和开发。为了解决工业落地的最后一公里，将模型集成到业务中去，我们开发了社区软件包。
支持以下几种服务部署：

<img src="docs/images/sdk_roadmap.jpg"  width="900"/>

- 中文离线文件转写服务（CPU版本），已完成
- 中文流式语音识别服务（CPU版本），已完成

			@@ -19,7 +19,7 @@
			｜<a href="#快速开始"> 快速开始 </a>
			｜<a href="https://alibaba-damo-academy.github.io/FunASR/en/index.html"> 教程文档 </a>
			｜<a href="./docs/model_zoo/modelscope_models.md"> 模型仓库 </a>
			｜<a href="./runtime/readme_cn.md"> 服务部署 </a>
			｜<a href="#服务部署"> 服务部署 </a>
			｜<a href="#联系我们"> 联系我们 </a>
			</h4>
			</div>
			@@ -31,12 +31,12 @@

			<a name="最新动态"></a>
			## 最新动态
			- 20223/10/17: 英文离线文件转写服务一键部署的CPU版本发布，详细信息参阅([一键部署文档](funasr/runtime/docs/SDK_tutorial_en_zh.md))
			- 20223/10/17: 英文离线文件转写服务一键部署的CPU版本发布，详细信息参阅([一键部署文档](runtime/readme_cn.html#cpu))
			- 2023/10/13: [SlideSpeech](https://slidespeech.github.io/): 一个大规模的多模态音视频语料库，主要是在线会议或者在线课程场景，包含了大量与发言人讲话实时同步的幻灯片。
			- 2023.10.10: [Paraformer-long-Spk](https://github.com/alibaba-damo-academy/FunASR/blob/main/egs_modelscope/asr_vad_spk/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn/demo.py)模型发布，支持在长语音识别的基础上获取每句话的说话人标签。
			- 2023.10.07: [FunCodec](https://github.com/alibaba-damo-academy/FunCodec): FunCodec提供开源模型和训练工具，可以用于音频离散编码，以及基于离散编码的语音识别、语音合成等任务。
			- 2023.09.01: 中文离线文件转写服务2.0 CPU版本发布，新增ffmpeg、时间戳与热词模型支持，详细信息参阅([一键部署文档](funasr/runtime/docs/SDK_tutorial_zh.md))
			- 2023.08.07: 中文实时语音听写服务一键部署的CPU版本发布，详细信息参阅([一键部署文档](funasr/runtime/docs/SDK_tutorial_online_zh.md))
			- 2023.09.01: 中文离线文件转写服务2.0 CPU版本发布，新增ffmpeg、时间戳与热词模型支持，详细信息参阅([一键部署文档](runtime/readme_cn.html#id6))
			- 2023.08.07: 中文实时语音听写服务一键部署的CPU版本发布，详细信息参阅([一键部署文档](runtime/readme_cn.html#id3))
			- 2023.07.17: BAT一种低延迟低内存消耗的RNN-T模型发布，详细信息参阅（[BAT](egs/aishell/bat)）
			- 2023.06.26: ASRU2023 多通道多方会议转录挑战赛2.0完成竞赛结果公布，详细信息参阅（[M2MeT2.0](https://alibaba-damo-academy.github.io/FunASR/m2met2_cn/index.html)）

			@@ -116,7 +116,7 @@
			- 中文离线文件转写服务（GPU版本），进行中
			- 更多支持中

			详细信息可以参阅([服务部署文档](funasr/runtime/readme_cn.md))。
			详细信息可以参阅([服务部署文档](runtime/readme_cn.md))。


			<a name="社区交流"></a>

			@@ -71,10 +71,10 @@
			:maxdepth: 1
			:caption: Runtime and Service

			./funasr/runtime/readme.md
			./funasr/runtime/docs/SDK_tutorial_online.md
			./funasr/runtime/docs/SDK_tutorial.md
			./funasr/runtime/html5/readme.md
			./runtime/readme.md
			./runtime/docs/SDK_tutorial_online.md
			./runtime/docs/SDK_tutorial.md
			./runtime/html5/readme.md

			@@ -30,12 +30,10 @@
			task=Tasks.auto_speech_recognition,
			model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch',
			vad_model='damo/speech_fsmn_vad_zh-cn-16k-common-pytorch',
			#punc_model='damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch',
			punc_model='damo/punc_ct-transformer_cn-en-common-vocab471067-large',
			)

			rec_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/vad_example.wav',
			batch_size_token=5000, batch_size_token_threshold_s=40, max_single_segment_time=6000)
			rec_result = inference_pipeline(audio_in='./vad_example.wav')
			print(rec_result)
			```
			其中：

			@@ -2,8 +2,10 @@

			English Version（[docs](./readme.md)）

			FunASR是由达摩院语音实验室开源的一款语音识别基础框架，集成了语音端点检测、语音识别、标点断句等领域的工业级别模型，吸引了众多开发者参与体验和开发。为了解决工业落地的最后一公里，将模型集成到业务中去，我们开发了FunASR runtime-SDK。
			SDK 支持以下几种服务部署：
			FunASR是由阿里巴巴通义-语音实验室开源的一款语音识别基础框架，集成了语音端点检测、语音识别、标点断句等领域的工业级别模型，吸引了众多开发者参与体验和开发。为了解决工业落地的最后一公里，将模型集成到业务中去，我们开发了社区软件包。
			支持以下几种服务部署：

			<img src="docs/images/sdk_roadmap.jpg" width="900"/>

			- 中文离线文件转写服务（CPU版本），已完成
			- 中文流式语音识别服务（CPU版本），已完成