From c553a8db1712c2a5deeef5bbb68bd1fdf8d61ab7 Mon Sep 17 00:00:00 2001
From: 游雁 <zhifu.gzf@alibaba-inc.com>
Date: 星期四, 13 六月 2024 17:38:01 +0800
Subject: [PATCH] decoding

---
 funasr/datasets/openai_datasets/index_ds.py |   24 +++++++++++++++---------
 1 files changed, 15 insertions(+), 9 deletions(-)

diff --git a/funasr/datasets/openai_datasets/index_ds.py b/funasr/datasets/openai_datasets/index_ds.py
index 1c48cd2..9943e2a 100644
--- a/funasr/datasets/openai_datasets/index_ds.py
+++ b/funasr/datasets/openai_datasets/index_ds.py
@@ -15,11 +15,6 @@
 
     def __init__(self, path: str, **kwargs):
         super().__init__()
-        self.max_source_length = kwargs.get("max_source_length", 2048)
-        self.min_source_length = kwargs.get("min_source_length", 0)
-        self.max_target_length = kwargs.get("max_target_length", 2048)
-        self.min_target_length = kwargs.get("min_target_length", 0)
-        self.max_token_length = kwargs.get("max_token_length", 2200)
 
         is_training = kwargs.get("is_training", True)
         if not (path.endswith(".jsonl") or path.endswith(".json")):
@@ -48,7 +43,10 @@
         for file_json in file_list:
             with open(file_json.strip(), encoding="utf-8") as fin:
                 for line in fin:
-                    data = json.loads(line.strip())["messages"]
+                    data_dict = json.loads(line.strip())
+                    data = data_dict["messages"]
+                    speech_length = data_dict.get("speech_length", -1) // 8
+                    text_length = data_dict.get("text_length", 0)
 
                     system, user, assistant = [], [], []
                     for i, item in enumerate(data):
@@ -63,7 +61,12 @@
 
                     system = system * len(user)
 
-                    contents_i = {"system": system, "user": user, "assistant": assistant}
+                    contents_i = {
+                        "system": system,
+                        "user": user,
+                        "assistant": assistant,
+                        "source_len": speech_length + text_length,
+                    }
                     contents.append(contents_i)
 
         self.contents = contents
@@ -80,11 +83,14 @@
         return data
 
     def get_source_len(self, data_dict):
-        return len(data_dict["system"]) + len(data_dict["user"])
+        source_len = data_dict.get("source_len", -1)
+        if source_len < 0:
+            source_len = len(data_dict["system"]) + len(data_dict["user"])
+        return source_len
 
     def get_target_len(self, data_dict):
 
-        return len(data_dict["assistant"])
+        return 0
 
 
 if __name__ == "__main__":

--
Gitblit v1.9.1