雾聪
2023-05-17 8706e767affc6bdc8cb7a67ca3a20a62779ff048
1
2
3
4
5
6
7
8
9
10
11
12
13
14
€•>8Œsphinx.addnodes”Œdocument”“”)”}”(Œ    rawsource”Œ”Œchildren”]”Œdocutils.nodes”Œsection”“”)”}”(hhh]”(h    Œtitle”“”)”}”(hŒDatasets”h]”h    ŒText”“”ŒDatasets”…””}”(Œparent”hŒ    _document”hŒsource”NŒline”NubaŒ
attributes”}”(Œids”]”Œclasses”]”Œnames”]”Œdupnames”]”Œbackrefs”]”uŒtagname”hhKhŒ4/mnt/yhliang/workspace/FunASR/docs/m2met2/Dataset.md”hh hhubh )”}”(hhh]”(h)”}”(hŒOverview of training data”h]”hŒOverview of training data”…””}”(hh0hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hh-hhubh    Œ    paragraph”“”)”}”(hXlIn the fixed training condition, the training dataset is restricted to three publicly available corpora, namely, AliMeeting, AISHELL-4, and CN-Celeb. To evaluate the performance of the models trained on these datasets, we will release a new Test set called Test-2023 for scoring and ranking. We will describe the AliMeeting dataset and the Test-2023 set in detail.”h]”hXlIn the fixed training condition, the training dataset is restricted to three publicly available corpora, namely, AliMeeting, AISHELL-4, and CN-Celeb. To evaluate the performance of the models trained on these datasets, we will release a new Test set called Test-2023 for scoring and ranking. We will describe the AliMeeting dataset and the Test-2023 set in detail.”…””}”(hh@hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hh-hhubeh}”(h!]”Œoverview-of-training-data”ah#]”h%]”Œoverview of training data”ah']”h)]”Œslug”Œoverview-of-training-data”uh+h
hKhh,hh hhubh )”}”(hhh]”(h)”}”(hŒDetail of AliMeeting corpus”h]”hŒDetail of AliMeeting corpus”…””}”(hh[hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hhXhhubh?)”}”(hXùAliMeeting contains 118.75 hours of speech data in total. The dataset is divided into 104.75 hours for training (Train), 4 hours for evaluation (Eval) and 10 hours as test set (Test) for scoring and ranking. Specifically, the Train, Eval and Test sets contain 212, 8 and 20 sessions, respectively. Each session consists of a 15 to 30-minute discussion by a group of participants. The total number of participants in Train, Eval and Test sets is 456, 25 and 60, respectively, with balanced gender coverage.”h]”hXùAliMeeting contains 118.75 hours of speech data in total. The dataset is divided into 104.75 hours for training (Train), 4 hours for evaluation (Eval) and 10 hours as test set (Test) for scoring and ranking. Specifically, the Train, Eval and Test sets contain 212, 8 and 20 sessions, respectively. Each session consists of a 15 to 30-minute discussion by a group of participants. The total number of participants in Train, Eval and Test sets is 456, 25 and 60, respectively, with balanced gender coverage.”…””}”(hhihhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hhXhhubh?)”}”(hX¶The dataset is collected in 13 meeting venues, which are categorized into three types: small, medium, and large rooms with sizes ranging from 8 m$^{2}$ to 55 m$^{2}$. Different rooms give us a variety of acoustic properties and layouts. The detailed parameters of each meeting venue will be released together with the Train data. The type of wall material of the meeting venues covers cement, glass, etc. Other furnishings in meeting venues include sofa, TV, blackboard, fan, air conditioner, plants, etc. During recording, the participants of the meeting sit around the microphone array which is placed on the table and conduct a natural conversation. The microphone-speaker distance ranges from 0.3 m to 5.0 m. All participants are native Chinese speakers speaking Mandarin without strong accents. During the meeting, various kinds of indoor noise including but not limited to clicking, keyboard, door opening/closing, fan, bubble noise, etc., are made naturally. For both Train and Eval sets, the participants are required to remain in the same position during recording. There is no speaker overlap between the Train and Eval set. An example of the recording venue from the Train set is shown in Fig 1.”h]”(hŒ‘The dataset is collected in 13 meeting venues, which are categorized into three types: small, medium, and large rooms with sizes ranging from 8 m”…””}”(hhwhhhNhNubh    Œmath”“”)”}”(hŒ^{2}”h]”hŒ^{2}”…””}”(hhhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hhwhhubhŒ to 55 m”…””}”(hhwhhhNhNubh€)”}”(hŒ^{2}”h]”hŒ^{2}”…””}”(hh“hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hhwhhubhX. Different rooms give us a variety of acoustic properties and layouts. The detailed parameters of each meeting venue will be released together with the Train data. The type of wall material of the meeting venues covers cement, glass, etc. Other furnishings in meeting venues include sofa, TV, blackboard, fan, air conditioner, plants, etc. During recording, the participants of the meeting sit around the microphone array which is placed on the table and conduct a natural conversation. The microphone-speaker distance ranges from 0.3 m to 5.0 m. All participants are native Chinese speakers speaking Mandarin without strong accents. During the meeting, various kinds of indoor noise including but not limited to clicking, keyboard, door opening/closing, fan, bubble noise, etc., are made naturally. For both Train and Eval sets, the participants are required to remain in the same position during recording. There is no speaker overlap between the Train and Eval set. An example of the recording venue from the Train set is shown in Fig 1.”…””}”(hhwhhhNhNubeh}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hhXhhubh?)”}”(hŒ(![meeting room](images/meeting_room.png)”h]”h    Œimage”“”)”}”(hŒ meeting room”h]”h}”(h!]”h#]”h%]”h']”h)]”Œuri”Œimages/meeting_room.png”Œalt”h³Œ
candidates”}”Œ*”h¼suh+h¯hK    hh,hh«hhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hK    hh,hhXhhubh?)”}”(hXcThe number of participants within one meeting session ranges from 2 to 4. To ensure the coverage of different overlap ratios, we select various meeting topics during recording, including medical treatment, education, business, organization management, industrial production and other daily routine meetings. The average speech overlap ratio of Train, Eval and Test sets are 42.27\%, 34.76\% and 42.8\%, respectively. More details of AliMeeting are shown in Table 1. A detailed overlap ratio distribution of meeting sessions with different numbers of speakers in the Train, Eval and Test set is shown in Table 2.”h]”hX`The number of participants within one meeting session ranges from 2 to 4. To ensure the coverage of different overlap ratios, we select various meeting topics during recording, including medical treatment, education, business, organization management, industrial production and other daily routine meetings. The average speech overlap ratio of Train, Eval and Test sets are 42.27%, 34.76% and 42.8%, respectively. More details of AliMeeting are shown in Table 1. A detailed overlap ratio distribution of meeting sessions with different numbers of speakers in the Train, Eval and Test set is shown in Table 2.”…””}”(hhÇhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hK hh,hhXhhubh?)”}”(hŒ-![dataset detail](images/dataset_details.png)”h]”h°)”}”(hŒdataset detail”h]”h}”(h!]”h#]”h%]”h']”h)]”h»Œimages/dataset_details.png”h½hÛh¾}”hÀhãsuh+h¯hK hh,hhÕhhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hK hh,hhXhhubh?)”}”(hXThe Test-2023 set consists of 20 sessions that were recorded in an identical acoustic setting to that of the AliMeeting corpus. Each meeting session in the Test-2023 dataset comprises between 2 and 4 participants, thereby sharing a similar configuration with the AliMeeting test set.”h]”hXThe Test-2023 set consists of 20 sessions that were recorded in an identical acoustic setting to that of the AliMeeting corpus. Each meeting session in the Test-2023 dataset comprises between 2 and 4 participants, thereby sharing a similar configuration with the AliMeeting test set.”…””}”(hhëhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hhXhhubh?)”}”(hX\We also record the near-field signal of each participant using a headset microphone and ensure that only the participant's own speech is recorded and transcribed. It is worth noting that the far-field audio recorded by the microphone array and the near-field audio recorded by the headset microphone will be synchronized to a common timeline range.”h]”hX^We also record the near-field signal of each participant using a headset microphone and ensure that only the participant’s own speech is recorded and transcribed. It is worth noting that the far-field audio recorded by the microphone array and the near-field audio recorded by the headset microphone will be synchronized to a common timeline range.”…””}”(hhùhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hhXhhubh?)”}”(hX6All transcriptions of the speech data are prepared in TextGrid format for each session, which contains the information of the session duration, speaker information (number of speaker, speaker-id, gender, etc.), the total number of segments of each speaker, the timestamp and transcription of each segment, etc.”h]”hX6All transcriptions of the speech data are prepared in TextGrid format for each session, which contains the information of the session duration, speaker information (number of speaker, speaker-id, gender, etc.), the total number of segments of each speaker, the timestamp and transcription of each segment, etc.”…””}”(hjhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hhXhhubeh}”(h!]”Œdetail-of-alimeeting-corpus”ah#]”h%]”Œdetail of alimeeting corpus”ah']”h)]”hVŒdetail-of-alimeeting-corpus”uh+h
hKhh,hh hhubh )”}”(hhh]”(h)”}”(hŒ Get the data”h]”hŒ Get the data”…””}”(hj!hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”uh+hhKhh,hjhhubh?)”}”(hX The three dataset for training mentioned above can be downloaded at [OpenSLR](https://openslr.org/resources.php). The participants can download via the following links. Particularly, in the baseline we provide convenient data preparation scripts for AliMeeting corpus.”h]”(hŒDThe three dataset for training mentioned above can be downloaded at ”…””}”(hj/hhhNhNubh    Œ    reference”“”)”}”(hŒOpenSLR”h]”hŒOpenSLR”…””}”(hj9hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”Œrefuri”Œ!https://openslr.org/resources.php”uh+j7hKhh,hj/hhubhŒœ. The participants can download via the following links. Particularly, in the baseline we provide convenient data preparation scripts for AliMeeting corpus.”…””}”(hj/hhhNhNubeh}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hjhhubh    Œ bullet_list”“”)”}”(hhh]”(h    Œ    list_item”“”)”}”(hhh]”h?)”}”(hŒ&[AliMeeting](https://openslr.org/119/)”h]”j8)”}”(hŒ
AliMeeting”h]”hŒ
AliMeeting”…””}”(hjahhhNhNubah}”(h!]”h#]”h%]”h']”h)]”jGŒhttps://openslr.org/119/”uh+j7hKhh,hj]hhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hjZhhubah}”(h!]”h#]”h%]”h']”h)]”uh+jXhKhh,hjUhhubjY)”}”(hhh]”h?)”}”(hŒ%[AISHELL-4](https://openslr.org/111/)”h]”j8)”}”(hŒ    AISHELL-4”h]”hŒ    AISHELL-4”…””}”(hjƒhhhNhNubah}”(h!]”h#]”h%]”h']”h)]”jGŒhttps://openslr.org/111/”uh+j7hKhh,hjhhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hj|hhubah}”(h!]”h#]”h%]”h']”h)]”uh+jXhKhh,hjUhhubjY)”}”(hhh]”h?)”}”(hŒ#[CN-Celeb](https://openslr.org/82/)”h]”j8)”}”(hŒCN-Celeb”h]”hŒCN-Celeb”…””}”(hj¥hhhNhNubah}”(h!]”h#]”h%]”h']”h)]”jGŒhttps://openslr.org/82/”uh+j7hKhh,hj¡hhubah}”(h!]”h#]”h%]”h']”h)]”uh+h>hKhh,hjžhhubah}”(h!]”h#]”h%]”h']”h)]”uh+jXhKhh,hjUhhubeh}”(h!]”h#]”h%]”h']”h)]”Œbullet”Œ-”uh+jShKhh,hjhhubeh}”(h!]”Œ get-the-data”ah#]”h%]”Œ get the data”ah']”h)]”hVŒ get-the-data”uh+h
hKhh,hh hhubeh}”(h!]”Œdatasets”ah#]”h%]”Œdatasets”ah']”h)]”hVŒdatasets”uh+h
hKhh,hhhhubah}”(h!]”h#]”h%]”h']”h)]”Œsource”h,uh+hŒcurrent_source”NŒ current_line”NŒsettings”Œdocutils.frontend”ŒValues”“”)”}”(hNŒ    generator”NŒ    datestamp”NŒ source_link”NŒ
source_url”NŒ toc_backlinks”Œentry”Œfootnote_backlinks”KŒ sectnum_xform”KŒstrip_comments”NŒstrip_elements_with_classes”NŒ strip_classes”NŒ report_level”KŒ
halt_level”KŒexit_status_level”KŒdebug”NŒwarning_stream”NŒ    traceback”ˆŒinput_encoding”Œ    utf-8-sig”Œinput_encoding_error_handler”Œstrict”Œoutput_encoding”Œutf-8”Œoutput_encoding_error_handler”jýŒerror_encoding”ŒUTF-8”Œerror_encoding_error_handler”Œbackslashreplace”Œ language_code”Œen”Œrecord_dependencies”NŒconfig”NŒ    id_prefix”hŒauto_id_prefix”Œid”Œ dump_settings”NŒdump_internals”NŒdump_transforms”NŒdump_pseudo_xml”NŒexpose_internals”NŒstrict_visitor”NŒ_disable_config”NŒ_source”h,Œ _destination”NŒ _config_files”]”Œfile_insertion_enabled”ˆŒ raw_enabled”KŒline_length_limit”M'Œpep_references”NŒ pep_base_url”Œhttps://peps.python.org/”Œpep_file_url_template”Œpep-%04d”Œrfc_references”NŒ rfc_base_url”Œ&https://datatracker.ietf.org/doc/html/”Œ    tab_width”KŒtrim_footnote_reference_space”‰Œsyntax_highlight”Œlong”Œ smart_quotes”ˆŒsmartquotes_locales”]”Œcharacter_level_inline_markup”‰Œdoctitle_xform”‰Œ docinfo_xform”KŒsectsubtitle_xform”‰Œ image_loading”Œlink”Œembed_stylesheet”‰Œcloak_email_addresses”ˆŒsection_self_link”‰Œenv”NubŒreporter”NŒindirect_targets”]”Œsubstitution_defs”}”(Œwordcount-words”h    Œsubstitution_definition”“”)”}”(hŒ576”h]”hŒ576”…””}”hj;sbah}”(h!]”h#]”h%]”Œwordcount-words”ah']”h)]”uh+j9hh,ubŒwordcount-minutes”j:)”}”(hŒ3”h]”hŒ3”…””}”hjKsbah}”(h!]”h#]”h%]”Œwordcount-minutes”ah']”h)]”uh+j9hh,ubuŒsubstitution_names”}”(Œwordcount-words”j8Œwordcount-minutes”jJuŒrefnames”}”Œrefids”}”Œnameids”}”(jÖjÓhShPjjjÍjÊuŒ    nametypes”}”(jÖ‰hS‰j‰j͉uh!}”(jÓh hPh-jhXjÊjuŒ footnote_refs”}”Œ citation_refs”}”Œ autofootnotes”]”Œautofootnote_refs”]”Œsymbol_footnotes”]”Œsymbol_footnote_refs”]”Œ    footnotes”]”Œ    citations”]”Œautofootnote_start”KŒsymbol_footnote_start”KŒ
id_counter”Œ collections”ŒCounter”“”}”…”R”Œparse_messages”]”Œtransform_messages”]”Œ transformer”NŒ include_log”]”Œ
decoration”NhhŒ
myst_slugs”}”(jÙKjÓŒDatasets”‡”hWKhPŒOverview of training data”‡”jKjŒDetail of AliMeeting corpus”‡”jÐKjÊŒ Get the data”‡”uub.