zhifu gao
2023-05-11 211ebc4f3a7f6e35cbfc01389790e009fa593a2e
docs/m2met2_cn/»ùÏß.md
@@ -5,8 +5,29 @@
![model archietecture](images/sa_asr_arch.png)
## å¿«é€Ÿå¼€å§‹
#TODO: fill with the README.md of the baseline
首先需要安装FunASR和ModelScope. ([installation](https://alibaba-damo-academy.github.io/FunASR/en/installation.html))
基线系统有训练和测试两个脚本,`run.sh`是用于训练基线系统并在M2MeT的验证与测试集上评估的,而`run_m2met_2023_infer.sh`用于此次竞赛预备开放的全新测试集上测试同时生成符合竞赛最终提交格式的文件。
在运行 `run.sh`前,需要自行下载并解压[AliMeeting](http://www.openslr.org/119/)数据集并放置于`./dataset`目录下:
```shell
dataset
|—— Eval_Ali_far
|—— Eval_Ali_near
|—— Test_Ali_far
|—— Test_Ali_near
|—— Train_Ali_far
|—— Train_Ali_near
```
在运行`run_m2met_2023_infer.sh`前, éœ€è¦å°†æµ‹è¯•集`Test_2023_Ali_far`(仅包含音频,将于6.16发布)放置于`./dataset`目录下。然后将主办方提供的`wav.scp`,`wav_raw.scp`,`segments`,`utt2spk`和`spk2utt`放置于`./data/Test_2023_Ali_far`目录下。
```shell
data/Test_2023_Ali_far
|—— wav.scp
|—— wav_raw.scp
|—— segments
|—— utt2spk
|—— spk2utt
```
更多基线系统详情见[此处](https://github.com/alibaba-damo-academy/FunASR/blob/main/egs/alimeeting/sa-asr/README.md)
## åŸºçº¿ç»“æžœ
基线系统的结果如表3所示。在训练期间,说话人档案采用了真实说话人嵌入。然而由于在评估过程中缺乏真实说话人标签,因此使用了由额外的谱聚类提供的说话人特征。同时我们还提供了在评估和测试集上使用真实说话人档案的结果,以显示说话人档案准确性的影响。
![baseline result](images/baseline_result.png)
![baseline_result](images/baseline_result.png)