From e8f80e96f99cb856423d030c7d055c302a6d3278 Mon Sep 17 00:00:00 2001
From: zhifu gao <zhifu.gzf@alibaba-inc.com>
Date: 星期三, 17 四月 2024 21:23:20 +0800
Subject: [PATCH] Dev gzf exp (#1627)

---
 funasr/datasets/audio_datasets/index_ds.py |   31 ++++++++++++++++++++++---------
 1 files changed, 22 insertions(+), 9 deletions(-)

diff --git a/funasr/datasets/audio_datasets/index_ds.py b/funasr/datasets/audio_datasets/index_ds.py
index 34f7b4f..53419e8 100644
--- a/funasr/datasets/audio_datasets/index_ds.py
+++ b/funasr/datasets/audio_datasets/index_ds.py
@@ -76,7 +76,10 @@
     
     def __init__(self, path: str, **kwargs):
         super().__init__()
-        
+        self.max_source_length = kwargs.get("max_source_length", 2048)
+        self.min_source_length = kwargs.get("min_source_length", 0)
+        self.max_target_length = kwargs.get("max_target_length", 2048)
+        self.min_target_length = kwargs.get("min_target_length", 0)
         if isinstance(path, (list, tuple)): # wav.scp, text.txt/text.trans
             from funasr.datasets.audio_datasets.scp2jsonl import gen_jsonl_from_wav_text_list
             jsonl_outdir = os.path.dirname(path[0])
@@ -92,7 +95,7 @@
             for line in fin:
                 data = json.loads(line.strip())
                 if "text" in data:  # for sft
-                    self.contents.append(data['text'])
+                    contents.append(data['text'])
                 if "source" in data:  # for speech lab pretrain
                     prompt = data.get("prompt", "<ASR>")
                     source = data["source"]
@@ -101,13 +104,23 @@
                     target_len = data.get("target_len", 0)
                     if "aishell" in source:
                         target = target.replace(" ", "")
-                    contents.append({"source": source,
-                                     "prompt": prompt,
-                                     "target": target,
-                                     "source_len": source_len,
-                                     "target_len": target_len,
-                                     }
-                                    )
+                    if source_len < self.min_source_length or source_len > self.max_source_length:
+                        continue
+                    if target_len < self.min_target_length or target_len > self.max_target_length:
+                        continue
+                    contents_i = {"source": source,
+                                 "prompt": prompt,
+                                 "target": target,
+                                 "source_len": source_len,
+                                 "target_len": target_len,
+                                 }
+                    text_language = data.get("text_language", None)
+                    if text_language is not None:
+                        contents_i["text_language"] = text_language
+                    audio_language = data.get("audio_language", None)
+                    if audio_language is not None:
+                        contents_i["audio_language"] = audio_language
+                    contents.append(contents_i)
 
         self.contents = contents
         

--
Gitblit v1.9.1