我们将提供一个在FunASR上实现的端到端SA-ASR系统作为基线。该模型的结构如图3所示。SpeakerEncoder用ModelScope中预先训练好的说话人确认模型作为初始化。这个说话人确认模型也被用来提取说话人档案中的说话人嵌入。

首先需要安装FunASR和ModelScope. (installation)
基线系统有训练和测试两个脚本,run.sh是用于训练基线系统并在M2MeT的验证与测试集上评估的,而run_m2met_2023_infer.sh用于此次竞赛预备开放的全新测试集上测试同时生成符合竞赛最终提交格式的文件。
在运行 run.sh前,需要自行下载并解压AliMeeting数据集并放置于./dataset目录下:
dataset
|—— Eval_Ali_far
|—— Eval_Ali_near
|—— Test_Ali_far
|—— Test_Ali_near
|—— Train_Ali_far
|—— Train_Ali_near
在运行run_m2met_2023_infer.sh前, 需要将测试集Test_2023_Ali_far(仅包含音频,将于6.16发布)放置于./dataset目录下。然后将主办方提供的wav.scp,wav_raw.scp,segments,utt2spk和spk2utt放置于./data/Test_2023_Ali_far目录下。
data/Test_2023_Ali_far
|—— wav.scp
|—— wav_raw.scp
|—— segments
|—— utt2spk
|—— spk2utt
更多基线系统详情见此处
基线系统的结果如表3所示。在训练期间,说话人档案采用了真实说话人嵌入。然而由于在评估过程中缺乏真实说话人标签,因此使用了由额外的谱聚类提供的说话人特征。同时我们还提供了在评估和测试集上使用真实说话人档案的结果,以显示说话人档案准确性的影响。
