python/FunASR-XL.git

			@@ -25,11 +25,10 @@
			from funasr.train_utils.set_all_random_seed import set_all_random_seed
			from funasr.train_utils.load_pretrained_model import load_pretrained_model
			from funasr.utils import export_utils
			try:
			from funasr.models.campplus.utils import sv_chunk, postprocess, distribute_spk
			from funasr.models.campplus.cluster_backend import ClusterBackend
			except:
			print("Notice: If you want to use the speaker diarization, please `pip install hdbscan`")

			from funasr.models.campplus.utils import sv_chunk, postprocess, distribute_spk
			from funasr.models.campplus.cluster_backend import ClusterBackend



			def prepare_data_iterator(data_in, input_len=None, data_type=None, key=None):

			@@ -7,7 +7,6 @@
			import scipy
			import torch
			import sklearn
			import hdbscan
			import numpy as np

			from sklearn.cluster._kmeans import k_means
			@@ -116,6 +115,8 @@
			self.min_samples = min_samples
			self.min_cluster_size = min_cluster_size
			self.metric = metric
			import hdbscan
			self.hdbscan = hdbscan

			def __call__(self, X):
			import umap.umap_ as umap
			@@ -125,7 +126,7 @@
			n_components=min(self.n_components, X.shape[0] - 2),
			metric=self.metric,
			).fit_transform(X)
			labels = hdbscan.HDBSCAN(
			labels = self.hdbscan.HDBSCAN(
			min_samples=self.min_samples,
			min_cluster_size=self.min_cluster_size,
			allow_single_cluster=True).fit_predict(umap_X)

			@@ -9,8 +9,7 @@
			from torch import nn
			import whisper
			from funasr.utils.load_utils import load_audio_text_image_video, extract_fbank
			from transformers import AutoModelForCausalLM, AutoTokenizer
			from transformers.generation import GenerationConfig


			from funasr.register import tables

			@@ -27,6 +26,8 @@
			"""
			def __init__(self, args, *kwargs):
			super().__init__()
			from transformers import AutoModelForCausalLM, AutoTokenizer
			from transformers.generation import GenerationConfig

			model_or_path = kwargs.get("model_path", "QwenAudio")
			model = AutoModelForCausalLM.from_pretrained(model_or_path, device_map="cpu",
			@@ -82,7 +83,8 @@
			Modified from https://github.com/QwenLM/Qwen-Audio
			"""
			super().__init__()

			from transformers import AutoModelForCausalLM, AutoTokenizer
			from transformers.generation import GenerationConfig
			model_or_path = kwargs.get("model_path", "QwenAudio")
			bf16 = kwargs.get("bf16", False)
			fp16 = kwargs.get("fp16", False)

	funasr/auto/auto_model.py	9 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/campplus/cluster_backend.py	5 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史
	funasr/models/qwen_audio/model.py	8 ●●●●● 补丁 \| 查看 \| 原始文档 \| blame \| 历史