hnluo
2023-06-29 c2dee5e3c29eba79e591d9e9caebaef15ea4e56b
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
€•à/Œsphinx.addnodes”Œdocument”“”)”}”(Œ    rawsource”Œ”Œchildren”]”Œdocutils.nodes”Œsection”“”)”}”(hhh]”(h    Œtitle”“”)”}”(hŒ    æ•°æ®é›†”h]”h    ŒText”“”Œ    æ•°æ®é›†”…””}”(Œparent”hŒ    _document”hŒsource”NŒline”NubaŒ
attributes”}”(Œids”]”Œclasses”]”Œnames”]”Œdupnames”]”Œbackrefs”]”uŒtagname”hhKhŒ//mnt/yhliang/FunASR/docs/m2met2_cn/数据集.md”hh hhubh )”}”(hhh]”(h)”}”(hŒ数据集概述”h]”hŒ数据集概述”…””}”(hh0hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hh-hhubh    Œ    paragraph”“”)”}”(hX9在限定数据集条件下,训练数据集仅限于三个公开的语料库,即AliMeeting、AISHELL-4和CN-Celeb。为了评估参赛者提交的模型的性能,我们将发布一个新的测试集(Test-2023)用于打分和排名。下面我们将详细描述AliMeeting数据集和Test-2023测试集。”h]”hX9在限定数据集条件下,训练数据集仅限于三个公开的语料库,即AliMeeting、AISHELL-4和CN-Celeb。为了评估参赛者提交的模型的性能,我们将发布一个新的测试集(Test-2023)用于打分和排名。下面我们将详细描述AliMeeting数据集和Test-2023测试集。”…””}”(hh@hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hh-hhubeh}”(h!]”Œid2”ah#]”h%]”Œ数据集概述”ah']”h)]”Œslug”Œ数据集概述”uh+h
hKhh,hh hhubh )”}”(hhh]”(h)”}”(hŒAlimeeting数据集介绍”h]”hŒAlimeeting数据集介绍”…””}”(hh[hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hhXhhubh?)”}”(hX—AliMeeting总共包含118.75小时的语音数据,包括104.75小时的训练集(Train)、4小时的验证集(Eval)和10小时的测试集(Test)。Train集,Eval集和Test集分别包含212场和8场会议,其中每场会议由多个说话人进行15到30分钟的讨论。Train,Eval和Test集中参与会议的总人数分别为456人和25人,并且参会的男女比例人数均衡。”h]”hX—AliMeeting总共包含118.75小时的语音数据,包括104.75小时的训练集(Train)、4小时的验证集(Eval)和10小时的测试集(Test)。Train集,Eval集和Test集分别包含212场和8场会议,其中每场会议由多个说话人进行15到30分钟的讨论。Train,Eval和Test集中参与会议的总人数分别为456人和25人,并且参会的男女比例人数均衡。”…””}”(hhihhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hhXhhubh?)”}”(hXÊ该数据集收集于13个不同的会议室,按照大小规格分为小型、中型和大型三种,房间面积从8到55平方米不等。不同房间具有不同的布局和声学特性,每个房间的详细参数也将发送给参与者。会议场地的墙体材料类型包括水泥、玻璃等。会议场地的家具包括沙发、电视、黑板、风扇、空调、植物等。在录制过程中,麦克风阵列放置于桌上,多个说话人围坐在桌边进行自然对话。麦克风阵列离说话人距离约0.3到5.0米之间。所有说话人的母语均是汉语,并且说的都是普通话,没有浓重的口音。在会议录制期间可能会产生各种室内的噪音,包括键盘声、开门/关门声、风扇声、气泡声等。所有说话人在会议的录制期间均保持相同位置,不发生走动。训练集和验证集的说话人没有重复。图1展示了一个会议室的布局以及麦克风的拓扑结构。”h]”hXÊ该数据集收集于13个不同的会议室,按照大小规格分为小型、中型和大型三种,房间面积从8到55平方米不等。不同房间具有不同的布局和声学特性,每个房间的详细参数也将发送给参与者。会议场地的墙体材料类型包括水泥、玻璃等。会议场地的家具包括沙发、电视、黑板、风扇、空调、植物等。在录制过程中,麦克风阵列放置于桌上,多个说话人围坐在桌边进行自然对话。麦克风阵列离说话人距离约0.3到5.0米之间。所有说话人的母语均是汉语,并且说的都是普通话,没有浓重的口音。在会议录制期间可能会产生各种室内的噪音,包括键盘声、开门/关门声、风扇声、气泡声等。所有说话人在会议的录制期间均保持相同位置,不发生走动。训练集和验证集的说话人没有重复。图1展示了一个会议室的布局以及麦克风的拓扑结构。”…””}”(hhwhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hhXhhubh?)”}”(hŒ(![meeting room](images/meeting_room.png)”h]”h    Œimage”“”)”}”(hŒ meeting room”h]”h}”(h!]”h#]”h%]”h']”h)]”Œuri”Œimages/meeting_room.png”Œalt”hŒ
candidates”}”Œ*”h–suh+h‰hK
hh,hh…hhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hK
hh,hhXhhubh?)”}”(hXà每场会议的说话人数量从2到4人不等。同时为了覆盖各种内容的会议场景,我们选择了多种会议主题,包括医疗、教育、商业、组织管理、工业生产等不同内容的例会。Train集,Eval集和Test集的平均语音重叠率分别为42.27\%,34.76\%和42.8\%。AliMeeting Train集,Eval集和Test集的详细信息见表1。表2显示了Train集,Eval集和Test集中不同发言者人数会议的语音重叠率和会议数量。”h]”hXÝ每场会议的说话人数量从2到4人不等。同时为了覆盖各种内容的会议场景,我们选择了多种会议主题,包括医疗、教育、商业、组织管理、工业生产等不同内容的例会。Train集,Eval集和Test集的平均语音重叠率分别为42.27%,34.76%和42.8%。AliMeeting Train集,Eval集和Test集的详细信息见表1。表2显示了Train集,Eval集和Test集中不同发言者人数会议的语音重叠率和会议数量。”…””}”(hh¡hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hK hh,hhXhhubh?)”}”(hX![dataset detail](images/dataset_detail.png)
Test-2023测试集由20场会议组成,这些会议是在与AliMeeting数据集相同的声学环境下录制的。Test-2023测试集中的每个会议环节由2到4个参与者组成并且与AliMeeting测试集的配置相似。”h]”(hŠ)”}”(hŒdataset detail”h]”h}”(h!]”h#]”h%]”h']”h)]”h•Œimages/dataset_detail.png”h—hµh˜}”hšh½suh+h‰hKhh,hh¯hhubhŒ
”…””}”(hh¯hhhNhNubhŒçTest-2023测试集由20场会议组成,这些会议是在与AliMeeting数据集相同的声学环境下录制的。Test-2023测试集中的每个会议环节由2到4个参与者组成并且与AliMeeting测试集的配置相似。”…””}”(hh¯hhhNhNubeh}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hhXhhubh?)”}”(hXÞ我们还使用耳机麦克风记录了每个说话人的近场音频信号,并确保只转录对应说话人自己的语音。需要注意的是,麦克风阵列记录的远场音频和耳机麦克风记录的近场音频在时间上是同步的。每场会议的所有抄本均以TextGrid格式存储,内容包括会议的时长、说话人信息(说话人数量、说话人ID、性别等)、每个说话人的片段总数、每个片段的时间戳和转录内容。”h]”hXÞ我们还使用耳机麦克风记录了每个说话人的近场音频信号,并确保只转录对应说话人自己的语音。需要注意的是,麦克风阵列记录的远场音频和耳机麦克风记录的近场音频在时间上是同步的。每场会议的所有抄本均以TextGrid格式存储,内容包括会议的时长、说话人信息(说话人数量、说话人ID、性别等)、每个说话人的片段总数、每个片段的时间戳和转录内容。”…””}”(hhÍhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hhXhhubeh}”(h!]”Œ
alimeeting”ah#]”h%]”Œalimeeting数据集介绍”ah']”h)]”hVŒalimeeting数据集介绍”uh+h
hKhh,hh hhubh )”}”(hhh]”(h)”}”(hŒ 获取数据”h]”hŒ 获取数据”…””}”(hhçhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hhähhubh?)”}”(hŒê以上提到的三个训练集均可以在[OpenSLR](https://openslr.org/resources.php)下载. å‚赛者可以使用下方链接直接下载. é’ˆå¯¹AliMeeting数据集,比赛提供的baseline中包含了完整的数据处理流程。”h]”(hŒ*以上提到的三个训练集均可以在”…””}”(hhõhhhNhNubh    Œ    reference”“”)”}”(hŒOpenSLR”h]”hŒOpenSLR”…””}”(hhÿhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”Œrefuri”Œ!https://openslr.org/resources.php”uh+hýhKhh,hhõhhubhŒ”下载. å‚赛者可以使用下方链接直接下载. é’ˆå¯¹AliMeeting数据集,比赛提供的baseline中包含了完整的数据处理流程。”…””}”(hhõhhhNhNubeh}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hhähhubh    Œ bullet_list”“”)”}”(hhh]”(h    Œ    list_item”“”)”}”(hhh]”h?)”}”(hŒ&[AliMeeting](https://openslr.org/119/)”h]”hþ)”}”(hŒ
AliMeeting”h]”hŒ
AliMeeting”…””}”(hj'hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”j Œhttps://openslr.org/119/”uh+hýhKhh,hj#hhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hj hhubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubj)”}”(hhh]”h?)”}”(hŒ%[AISHELL-4](https://openslr.org/111/)”h]”hþ)”}”(hŒ    AISHELL-4”h]”hŒ    AISHELL-4”…””}”(hjIhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”j Œhttps://openslr.org/111/”uh+hýhKhh,hjEhhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hjBhhubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubj)”}”(hhh]”h?)”}”(hŒ#[CN-Celeb](https://openslr.org/82/)”h]”hþ)”}”(hŒCN-Celeb”h]”hŒCN-Celeb”…””}”(hjkhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”j Œhttps://openslr.org/82/”uh+hýhKhh,hjghhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hjdhhubah}”(h!]”h#]”h%]”h']”h)]”uh+jhKhh,hjhhubeh}”(h!]”h#]”h%]”h']”h)]”Œbullet”Œ-”uh+jhKhh,hhähhubeh}”(h!]”Œid3”ah#]”h%]”Œ 获取数据”ah']”h)]”hVŒ 获取数据”uh+h
hKhh,hh hhubeh}”(h!]”Œid1”ah#]”h%]”Œ    æ•°æ®é›†”ah']”h)]”hVŒ    æ•°æ®é›†”uh+h
hKhh,hhhhubah}”(h!]”h#]”h%]”h']”h)]”Œsource”h,uh+hŒcurrent_source”NŒ current_line”NŒsettings”Œdocutils.frontend”ŒValues”“”)”}”(hNŒ    generator”NŒ    datestamp”NŒ source_link”NŒ
source_url”NŒ toc_backlinks”Œentry”Œfootnote_backlinks”KŒ sectnum_xform”KŒstrip_comments”NŒstrip_elements_with_classes”NŒ strip_classes”NŒ report_level”KŒ
halt_level”KŒexit_status_level”KŒdebug”NŒwarning_stream”NŒ    traceback”ˆŒinput_encoding”Œ    utf-8-sig”Œinput_encoding_error_handler”Œstrict”Œoutput_encoding”Œutf-8”Œoutput_encoding_error_handler”jÃŒerror_encoding”ŒUTF-8”Œerror_encoding_error_handler”Œbackslashreplace”Œ language_code”Œzh_CN”Œrecord_dependencies”NŒconfig”NŒ    id_prefix”hŒauto_id_prefix”Œid”Œ dump_settings”NŒdump_internals”NŒdump_transforms”NŒdump_pseudo_xml”NŒexpose_internals”NŒstrict_visitor”NŒ_disable_config”NŒ_source”h,Œ _destination”NŒ _config_files”]”Œfile_insertion_enabled”ˆŒ raw_enabled”KŒline_length_limit”M'Œpep_references”NŒ pep_base_url”Œhttps://peps.python.org/”Œpep_file_url_template”Œpep-%04d”Œrfc_references”NŒ rfc_base_url”Œ&https://datatracker.ietf.org/doc/html/”Œ    tab_width”KŒtrim_footnote_reference_space”‰Œsyntax_highlight”Œlong”Œ smart_quotes”ˆŒsmartquotes_locales”]”Œcharacter_level_inline_markup”‰Œdoctitle_xform”‰Œ docinfo_xform”KŒsectsubtitle_xform”‰Œ image_loading”Œlink”Œembed_stylesheet”‰Œcloak_email_addresses”ˆŒsection_self_link”‰Œenv”NubŒreporter”NŒindirect_targets”]”Œsubstitution_defs”}”(Œwordcount-words”h    Œsubstitution_definition”“”)”}”(hŒ9”h]”hŒ9”…””}”hjsbah}”(h!]”h#]”h%]”Œwordcount-words”ah']”h)]”uh+jÿhh,ubŒwordcount-minutes”j)”}”(hŒ0”h]”hŒ0”…””}”hjsbah}”(h!]”h#]”h%]”Œwordcount-minutes”ah']”h)]”uh+jÿhh,ubuŒsubstitution_names”}”(Œwordcount-words”jþŒwordcount-minutes”juŒrefnames”}”Œrefids”}”Œnameids”}”(jœj™hShPhàhÝj“juŒ    nametypes”}”(jœ‰hS‰hà‰j“‰uh!}”(j™h hPh-hÝhXjhäuŒ footnote_refs”}”Œ citation_refs”}”Œ autofootnotes”]”Œautofootnote_refs”]”Œsymbol_footnotes”]”Œsymbol_footnote_refs”]”Œ    footnotes”]”Œ    citations”]”Œautofootnote_start”KŒsymbol_footnote_start”KŒ
id_counter”Œ collections”ŒCounter”“”}”jÑKs…”R”Œparse_messages”]”Œtransform_messages”]”Œ transformer”NŒ include_log”]”Œ
decoration”NhhŒ
myst_slugs”}”(jŸKj™Œ    æ•°æ®é›†”‡”hWKhPŒ数据集概述”‡”hãKh݌Alimeeting数据集介绍”‡”j–KjŒ 获取数据”‡”uub.