zhifu gao
2023-07-03 edec2fe85eda80ff1e24aef30b36c7bbbb55ec2a
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
€•e.Œsphinx.addnodes”Œdocument”“”)”}”(Œ    rawsource”Œ”Œchildren”]”Œdocutils.nodes”Œsection”“”)”}”(hhh]”(h    Œtitle”“”)”}”(hŒ基线”h]”h    ŒText”“”Œ基线”…””}”(Œparent”hŒ    _document”hŒsource”NŒline”NubaŒ
attributes”}”(Œids”]”Œclasses”]”Œnames”]”Œdupnames”]”Œbackrefs”]”uŒtagname”hhKhŒ,/mnt/yhliang/FunASR/docs/m2met2_cn/基线.md”hh hhubh )”}”(hhh]”(h)”}”(hŒ 基线概述”h]”hŒ 基线概述”…””}”(hh0hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hh-hhubh    Œ    paragraph”“”)”}”(hXÌ我们将提供一个在[FunASR](https://github.com/alibaba-damo-academy/FunASR)上实现的端到端SA-ASR系统作为基线。该模型的结构如图3所示。SpeakerEncoder用[ModelScope](https://modelscope.cn/home)中预先训练好的[说话人确认模型](https://modelscope.cn/models/damo/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch/summary)作为初始化。这个说话人确认模型也被用来提取说话人档案中的说话人嵌入。”h]”(hŒ我们将提供一个在”…””}”(hh@hhhNhNubh    Œ    reference”“”)”}”(hŒFunASR”h]”hŒFunASR”…””}”(hhJhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”Œrefuri”Œ.https://github.com/alibaba-damo-academy/FunASR”uh+hHhKhh,hh@hhubhŒc上实现的端到端SA-ASR系统作为基线。该模型的结构如图3所示。SpeakerEncoder用”…””}”(hh@hhhNhNubhI)”}”(hŒ
ModelScope”h]”hŒ
ModelScope”…””}”(hh^hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”hXŒhttps://modelscope.cn/home”uh+hHhKhh,hh@hhubhŒ中预先训练好的”…””}”(hh@hhhNhNubhI)”}”(hŒ说话人确认模型”h]”hŒ说话人确认模型”…””}”(hhqhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”hXŒ]https://modelscope.cn/models/damo/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch/summary”uh+hHhKhh,hh@hhubhŒf作为初始化。这个说话人确认模型也被用来提取说话人档案中的说话人嵌入。”…””}”(hh@hhhNhNubeh}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hh-hhubh?)”}”(hŒ.![model archietecture](images/sa_asr_arch.png)”h]”h    Œimage”“”)”}”(hŒmodel archietecture”h]”h}”(h!]”h#]”h%]”h']”h)]”Œuri”Œimages/sa_asr_arch.png”Œalt”h’Œ
candidates”}”Œ*”h›suh+hŽhKhh,hhŠhhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hh-hhubeh}”(h!]”Œid2”ah#]”h%]”Œ 基线概述”ah']”h)]”Œslug”Œ 基线概述”uh+h
hKhh,hh hhubh )”}”(hhh]”(h)”}”(hŒ 快速开始”h]”hŒ 快速开始”…””}”(hh³hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hh°hhubh?)”}”(hX首先需要安装FunASR和ModelScope. ([installation](https://github.com/alibaba-damo-academy/FunASR#installation))  
基线系统有训练和测试两个脚本,`run.sh`是用于训练基线系统并在M2MeT的验证与测试集上评估的,而`run_m2met_2023_infer.sh`用于此次竞赛预备开放的全新测试集上测试同时生成符合竞赛最终提交格式的文件。
在运行 `run.sh`前,需要自行下载并解压[AliMeeting](http://www.openslr.org/119/)数据集并放置于`./dataset`目录下:”h]”(hŒ(首先需要安装FunASR和ModelScope. (”…””}”(hhÁhhhNhNubhI)”}”(hŒ installation”h]”hŒ installation”…””}”(hhÉhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”hXŒ;https://github.com/alibaba-damo-academy/FunASR#installation”uh+hHhKhh,hhÁhhubhŒ)”…””}”(hhÁhhhNhNubh    Œraw”“”)”}”(hŒ<br />
”h]”hŒ<br />
”…””}”(hhÞhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”Œformat”Œhtml”Œ    xml:space”Œpreserve”uh+hÜhhÁhhhh,hKubhÝ)”}”(hŒ\\
”h]”hŒ\\
”…””}”(hhðhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”Œformat”Œlatex”hîhïuh+hÜhhÁhhhh,hKubhŒ+基线系统有训练和测试两个脚本,”…””}”(hhÁhhhNhNubh    Œliteral”“”)”}”(hŒrun.sh”h]”hŒrun.sh”…””}”(hjhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hhÁhhubhŒM是用于训练基线系统并在M2MeT的验证与测试集上评估的,而”…””}”(hhÁhhhNhNubj)”}”(hŒrun_m2met_2023_infer.sh”h]”hŒrun_m2met_2023_infer.sh”…””}”(hjhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hhÁhhubhŒo用于此次竞赛预备开放的全新测试集上测试同时生成符合竞赛最终提交格式的文件。”…””}”(hhÁhhhNhNubhŒ
”…””}”(hhÁhhhNhNubhŒ
在运行 ”…””}”(hhÁhhhNhNubj)”}”(hŒrun.sh”h]”hŒrun.sh”…””}”(hj2hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hhÁhhubhŒ!前,需要自行下载并解压”…””}”(hhÁhhhNhNubhI)”}”(hŒ
AliMeeting”h]”hŒ
AliMeeting”…””}”(hjDhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”hXŒhttp://www.openslr.org/119/”uh+hHhKhh,hhÁhhubhŒ数据集并放置于”…””}”(hhÁhhhNhNubj)”}”(hŒ    ./dataset”h]”hŒ    ./dataset”…””}”(hjWhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hhÁhhubhŒ 目录下:”…””}”(hhÁhhhNhNubeh}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hh°hhubh    Œ literal_block”“”)”}”(hŒ‹dataset
|—— Eval_Ali_far
|—— Eval_Ali_near
|—— Test_Ali_far
|—— Test_Ali_near
|—— Train_Ali_far
|—— Train_Ali_near
”h]”hŒ‹dataset
|—— Eval_Ali_far
|—— Eval_Ali_near
|—— Test_Ali_far
|—— Test_Ali_near
|—— Train_Ali_far
|—— Train_Ali_near
”…””}”hjqsbah}”(h!]”h#]”h%]”h']”h)]”Œlanguage”Œshell”hîhïuh+johh,hK hh°hhubh?)”}”(hX在运行`run_m2met_2023_infer.sh`前, éœ€è¦å°†æµ‹è¯•集`Test_2023_Ali_far`(仅包含音频,将于6.16发布)放置于`./dataset`目录下。然后将主办方提供的`wav.scp`,`wav_raw.scp`,`segments`,`utt2spk`和`spk2utt`放置于`./data/Test_2023_Ali_far`目录下。”h]”(hŒ    åœ¨è¿è¡Œ”…””}”(hjhhhNhNubj)”}”(hŒrun_m2met_2023_infer.sh”h]”hŒrun_m2met_2023_infer.sh”…””}”(hj‰hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubhŒ前, éœ€è¦å°†æµ‹è¯•集”…””}”(hjhhhNhNubj)”}”(hŒTest_2023_Ali_far”h]”hŒTest_2023_Ali_far”…””}”(hj›hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubhŒ1(仅包含音频,将于6.16发布)放置于”…””}”(hjhhhNhNubj)”}”(hŒ    ./dataset”h]”hŒ    ./dataset”…””}”(hj­hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubhŒ'目录下。然后将主办方提供的”…””}”(hjhhhNhNubj)”}”(hŒwav.scp”h]”hŒwav.scp”…””}”(hj¿hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubhŒ,”…””}”(hjhhhNhNubj)”}”(hŒ wav_raw.scp”h]”hŒ wav_raw.scp”…””}”(hjÑhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubhŒ,”…””}”(hjhhhh,hKubj)”}”(hŒsegments”h]”hŒsegments”…””}”(hjãhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubhŒ,”…””}”(hjhhhh,hKubj)”}”(hŒutt2spk”h]”hŒutt2spk”…””}”(hjõhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubhŒ和”…””}”(hjhhhNhNubj)”}”(hŒspk2utt”h]”hŒspk2utt”…””}”(hjhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubhŒ    æ”¾ç½®äºŽ”…””}”(hjhhhNhNubj)”}”(hŒ./data/Test_2023_Ali_far”h]”hŒ./data/Test_2023_Ali_far”…””}”(hjhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubhŒ 目录下。”…””}”(hjhhhNhNubeh}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hh°hhubjp)”}”(hŒldata/Test_2023_Ali_far
|—— wav.scp
|—— wav_raw.scp
|—— segments
|—— utt2spk
|—— spk2utt
”h]”hŒldata/Test_2023_Ali_far
|—— wav.scp
|—— wav_raw.scp
|—— segments
|—— utt2spk
|—— spk2utt
”…””}”hj1sbah}”(h!]”h#]”h%]”h']”h)]”Œlanguage”Œshell”hîhïuh+johh,hKhh°hhubh?)”}”(hŒ}更多基线系统详情见[此处](https://github.com/alibaba-damo-academy/FunASR/blob/main/egs/alimeeting/sa-asr/README.md)”h]”(hŒ更多基线系统详情见”…””}”(hjAhhhNhNubhI)”}”(hŒ此处”h]”hŒ此处”…””}”(hjIhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”hXŒXhttps://github.com/alibaba-damo-academy/FunASR/blob/main/egs/alimeeting/sa-asr/README.md”uh+hHhKhh,hjAhhubeh}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hh°hhubeh}”(h!]”Œid3”ah#]”h%]”Œ 快速开始”ah']”h)]”h®Œ 快速开始”uh+h
hKhh,hh hhubh )”}”(hhh]”(h)”}”(hŒ 基线结果”h]”hŒ 基线结果”…””}”(hjjhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hjghhubh?)”}”(hXf基线系统的结果如表3所示。在训练期间,说话人档案采用了真实说话人嵌入。然而由于在评估过程中缺乏真实说话人标签,因此使用了由额外的谱聚类提供的说话人特征。同时我们还提供了在评估和测试集上使用真实说话人档案的结果,以显示说话人档案准确性的影响。”h]”hXf基线系统的结果如表3所示。在训练期间,说话人档案采用了真实说话人嵌入。然而由于在评估过程中缺乏真实说话人标签,因此使用了由额外的谱聚类提供的说话人特征。同时我们还提供了在评估和测试集上使用真实说话人档案的结果,以显示说话人档案准确性的影响。”…””}”(hjxhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hjghhubh?)”}”(hŒ.![baseline_result](images/baseline_result.png)”h]”h)”}”(hŒbaseline_result”h]”h}”(h!]”h#]”h%]”h']”h)]”hšŒimages/baseline_result.png”hœjŒh}”hŸj”suh+hŽhK!hh,hj†hhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hK!hh,hjghhubeh}”(h!]”Œid4”ah#]”h%]”Œ 基线结果”ah']”h)]”h®Œ 基线结果”uh+h
hKhh,hh hhubeh}”(h!]”Œid1”ah#]”h%]”Œ基线”ah']”h)]”h®Œ基线”uh+h
hKhh,hhhhubah}”(h!]”h#]”h%]”h']”h)]”Œsource”h,uh+hŒcurrent_source”NŒ current_line”NŒsettings”Œdocutils.frontend”ŒValues”“”)”}”(hNŒ    generator”NŒ    datestamp”NŒ source_link”NŒ
source_url”NŒ toc_backlinks”Œentry”Œfootnote_backlinks”KŒ sectnum_xform”KŒstrip_comments”NŒstrip_elements_with_classes”NŒ strip_classes”NŒ report_level”KŒ
halt_level”KŒexit_status_level”KŒdebug”NŒwarning_stream”NŒ    traceback”ˆŒinput_encoding”Œ    utf-8-sig”Œinput_encoding_error_handler”Œstrict”Œoutput_encoding”Œutf-8”Œoutput_encoding_error_handler”jÑŒerror_encoding”ŒUTF-8”Œerror_encoding_error_handler”Œbackslashreplace”Œ language_code”Œzh_CN”Œrecord_dependencies”NŒconfig”NŒ    id_prefix”hŒauto_id_prefix”Œid”Œ dump_settings”NŒdump_internals”NŒdump_transforms”NŒdump_pseudo_xml”NŒexpose_internals”NŒstrict_visitor”NŒ_disable_config”NŒ_source”h,Œ _destination”NŒ _config_files”]”Œfile_insertion_enabled”ˆŒ raw_enabled”KŒline_length_limit”M'Œpep_references”NŒ pep_base_url”Œhttps://peps.python.org/”Œpep_file_url_template”Œpep-%04d”Œrfc_references”NŒ rfc_base_url”Œ&https://datatracker.ietf.org/doc/html/”Œ    tab_width”KŒtrim_footnote_reference_space”‰Œsyntax_highlight”Œlong”Œ smart_quotes”ˆŒsmartquotes_locales”]”Œcharacter_level_inline_markup”‰Œdoctitle_xform”‰Œ docinfo_xform”KŒsectsubtitle_xform”‰Œ image_loading”Œlink”Œembed_stylesheet”‰Œcloak_email_addresses”ˆŒsection_self_link”‰Œenv”NubŒreporter”NŒindirect_targets”]”Œsubstitution_defs”}”(Œwordcount-words”h    Œsubstitution_definition”“”)”}”(hŒ22”h]”hŒ22”…””}”hjsbah}”(h!]”h#]”h%]”Œwordcount-words”ah']”h)]”uh+j hh,ubŒwordcount-minutes”j)”}”(hŒ0”h]”hŒ0”…””}”hjsbah}”(h!]”h#]”h%]”Œwordcount-minutes”ah']”h)]”uh+j hh,ubuŒsubstitution_names”}”(Œwordcount-words”j Œwordcount-minutes”juŒrefnames”}”Œrefids”}”Œnameids”}”(jªj§h«h¨jcj`j¡jžuŒ    nametypes”}”(jª‰h«‰jc‰j¡‰uh!}”(j§h h¨h-j`h°jžjguŒ footnote_refs”}”Œ citation_refs”}”Œ autofootnotes”]”Œautofootnote_refs”]”Œsymbol_footnotes”]”Œsymbol_footnote_refs”]”Œ    footnotes”]”Œ    citations”]”Œautofootnote_start”KŒsymbol_footnote_start”KŒ
id_counter”Œ collections”ŒCounter”“”}”jßKs…”R”Œparse_messages”]”Œtransform_messages”]”Œ transformer”NŒ include_log”]”Œ
decoration”NhhŒ
myst_slugs”}”(j­Kj§Œ基线”‡”h¯Kh¨Œ 基线概述”‡”jfKj`Œ 快速开始”‡”j¤KjžŒ 基线结果”‡”uub.