zhifu gao
2023-04-24 331d57253ae25dd42c8e14930dee30cd8d2affa6
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
€•?Œsphinx.addnodes”Œdocument”“”)”}”(Œ    rawsource”Œ”Œchildren”]”Œdocutils.nodes”Œsection”“”)”}”(hhh]”(h    Œtitle”“”)”}”(hŒ基线”h]”h    ŒText”“”Œ基线”…””}”(Œparent”hŒ    _document”hŒsource”NŒline”NubaŒ
attributes”}”(Œids”]”Œclasses”]”Œnames”]”Œdupnames”]”Œbackrefs”]”uŒtagname”hhKhŒ6/mnt/yhliang/workspace/FunASR/docs_m2met2_cn/基线.md”hh hhubh )”}”(hhh]”(h)”}”(hŒ 基线概述”h]”hŒ 基线概述”…””}”(hh0hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hh-hhubh    Œ    paragraph”“”)”}”(hXÌ我们将提供一个在[FunASR](https://github.com/alibaba-damo-academy/FunASR)上实现的端到端SA-ASR系统作为基线。该模型的结构如图3所示。SpeakerEncoder用[ModelScope](https://modelscope.cn/home)中预先训练好的[说话人确认模型](https://modelscope.cn/models/damo/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch/summary)作为初始化。这个说话人确认模型也被用来提取说话人档案中的说话人嵌入。”h]”(hŒ我们将提供一个在”…””}”(hh@hhhNhNubh    Œ    reference”“”)”}”(hŒFunASR”h]”hŒFunASR”…””}”(hhJhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”Œrefuri”Œ.https://github.com/alibaba-damo-academy/FunASR”uh+hHhKhh,hh@hhubhŒc上实现的端到端SA-ASR系统作为基线。该模型的结构如图3所示。SpeakerEncoder用”…””}”(hh@hhhNhNubhI)”}”(hŒ
ModelScope”h]”hŒ
ModelScope”…””}”(hh^hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”hXŒhttps://modelscope.cn/home”uh+hHhKhh,hh@hhubhŒ中预先训练好的”…””}”(hh@hhhNhNubhI)”}”(hŒ说话人确认模型”h]”hŒ说话人确认模型”…””}”(hhqhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”hXŒ]https://modelscope.cn/models/damo/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch/summary”uh+hHhKhh,hh@hhubhŒf作为初始化。这个说话人确认模型也被用来提取说话人档案中的说话人嵌入。”…””}”(hh@hhhNhNubeh}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hh-hhubh?)”}”(hŒ.![model archietecture](images/sa_asr_arch.png)”h]”h    Œimage”“”)”}”(hŒmodel archietecture”h]”h}”(h!]”h#]”h%]”h']”h)]”Œuri”Œimages/sa_asr_arch.png”Œalt”h’Œ
candidates”}”Œ*”h›suh+hŽhKhh,hhŠhhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hh-hhubeh}”(h!]”Œid2”ah#]”h%]”Œ 基线概述”ah']”h)]”Œslug”Œ 基线概述”uh+h
hKhh,hh hhubh )”}”(hhh]”(h)”}”(hŒ 快速开始”h]”hŒ 快速开始”…””}”(hh³hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hh°hhubh?)”}”(hŒ.#TODO: fill with the README.md of the baseline”h]”hŒ.#TODO: fill with the README.md of the baseline”…””}”(hhÁhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hh°hhubeh}”(h!]”Œid3”ah#]”h%]”Œ 快速开始”ah']”h)]”h®Œ 快速开始”uh+h
hKhh,hh hhubh )”}”(hhh]”(h)”}”(hŒ 基线结果”h]”hŒ 基线结果”…””}”(hhÛhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhK
hh,hhØhhubh?)”}”(hX•基线系统的结果如表3所示。在训练期间,说话人档案采用了真实说话人嵌入。然而由于在评估过程中缺乏真实说话人标签,因此使用了由额外的谱聚类提供的说话人特征。同时我们还提供了在评估和测试集上使用真实说话人档案的结果,以显示说话人档案准确性的影响。
![baseline result](images/baseline_result.png)”h]”(hXf基线系统的结果如表3所示。在训练期间,说话人档案采用了真实说话人嵌入。然而由于在评估过程中缺乏真实说话人标签,因此使用了由额外的谱聚类提供的说话人特征。同时我们还提供了在评估和测试集上使用真实说话人档案的结果,以显示说话人档案准确性的影响。”…””}”(hhéhhhNhNubhŒ
”…””}”(hhéhhhNhNubh)”}”(hŒbaseline result”h]”h}”(h!]”h#]”h%]”h']”h)]”hšŒimages/baseline_result.png”hœh÷h}”hŸhÿsuh+hŽhK hh,hhéhhubeh}”(h!]”h#]”h%]”h']”h)]”uh+h>hK hh,hhØhhubeh}”(h!]”Œid4”ah#]”h%]”Œ 基线结果”ah']”h)]”h®Œ 基线结果”uh+h
hK
hh,hh hhubeh}”(h!]”Œid1”ah#]”h%]”Œ基线”ah']”h)]”h®Œ基线”uh+h
hKhh,hhhhubah}”(h!]”h#]”h%]”h']”h)]”Œsource”h,uh+hŒcurrent_source”NŒ current_line”NŒsettings”Œdocutils.frontend”ŒValues”“”)”}”(hNŒ    generator”NŒ    datestamp”NŒ source_link”NŒ
source_url”NŒ toc_backlinks”Œentry”Œfootnote_backlinks”KŒ sectnum_xform”KŒstrip_comments”NŒstrip_elements_with_classes”NŒ strip_classes”NŒ report_level”KŒ
halt_level”KŒexit_status_level”KŒdebug”NŒwarning_stream”NŒ    traceback”ˆŒinput_encoding”Œ    utf-8-sig”Œinput_encoding_error_handler”Œstrict”Œoutput_encoding”Œutf-8”Œoutput_encoding_error_handler”j<Œerror_encoding”ŒUTF-8”Œerror_encoding_error_handler”Œbackslashreplace”Œ language_code”Œzh_CN”Œrecord_dependencies”NŒconfig”NŒ    id_prefix”hŒauto_id_prefix”Œid”Œ dump_settings”NŒdump_internals”NŒdump_transforms”NŒdump_pseudo_xml”NŒexpose_internals”NŒstrict_visitor”NŒ_disable_config”NŒ_source”h,Œ _destination”NŒ _config_files”]”Œfile_insertion_enabled”ˆŒ raw_enabled”KŒline_length_limit”M'Œpep_references”NŒ pep_base_url”Œhttps://peps.python.org/”Œpep_file_url_template”Œpep-%04d”Œrfc_references”NŒ rfc_base_url”Œ&https://datatracker.ietf.org/doc/html/”Œ    tab_width”KŒtrim_footnote_reference_space”‰Œsyntax_highlight”Œlong”Œ smart_quotes”ˆŒsmartquotes_locales”]”Œcharacter_level_inline_markup”‰Œdoctitle_xform”‰Œ docinfo_xform”KŒsectsubtitle_xform”‰Œ image_loading”Œlink”Œembed_stylesheet”‰Œcloak_email_addresses”ˆŒsection_self_link”‰Œenv”NubŒreporter”NŒindirect_targets”]”Œsubstitution_defs”}”(Œwordcount-words”h    Œsubstitution_definition”“”)”}”(hŒ16”h]”hŒ16”…””}”hjzsbah}”(h!]”h#]”h%]”Œwordcount-words”ah']”h)]”uh+jxhh,ubŒwordcount-minutes”jy)”}”(hŒ0”h]”hŒ0”…””}”hjŠsbah}”(h!]”h#]”h%]”Œwordcount-minutes”ah']”h)]”uh+jxhh,ubuŒsubstitution_names”}”(Œwordcount-words”jwŒwordcount-minutes”j‰uŒrefnames”}”Œrefids”}”Œnameids”}”(jjh«h¨hÔhÑj j    uŒ    nametypes”}”(j‰h«‰hԉj ‰uh!}”(jh h¨h-hÑh°j    hØuŒ footnote_refs”}”Œ citation_refs”}”Œ autofootnotes”]”Œautofootnote_refs”]”Œsymbol_footnotes”]”Œsymbol_footnote_refs”]”Œ    footnotes”]”Œ    citations”]”Œautofootnote_start”KŒsymbol_footnote_start”KŒ
id_counter”Œ collections”ŒCounter”“”}”jJKs…”R”Œparse_messages”]”Œtransform_messages”]”Œ transformer”NŒ include_log”]”Œ
decoration”NhhŒ
myst_slugs”}”(jKjŒ基线”‡”h¯Kh¨Œ 基线概述”‡”h×Khь 快速开始”‡”jK
j    Œ 基线结果”‡”uub.