python/FunASR-XL.git

			@@ -3,6 +3,7 @@
			import torch
			import logging
			from tqdm import tqdm
			from datetime import datetime
			import torch.distributed as dist
			from contextlib import nullcontext
			# from torch.utils.tensorboard import SummaryWriter
			@@ -107,14 +108,10 @@
			filename = os.path.join(self.output_dir, f'model.pt.ep{epoch}')
			torch.save(state, filename)

			print(f'Checkpoint saved to {filename}')
			print(f'\nCheckpoint saved to {filename}\n')
			latest = Path(os.path.join(self.output_dir, f'model.pt'))
			try:
			latest.unlink()
			except:
			pass
			torch.save(state, latest)

			latest.symlink_to(filename)

			def _resume_checkpoint(self, resume_path):
			"""
			@@ -160,7 +157,7 @@
			self._resume_checkpoint(self.output_dir)

			for epoch in range(self.start_epoch, self.max_epoch + 1):

			time1 = time.perf_counter()
			self._train_epoch(epoch)


			@@ -182,6 +179,9 @@

			self.scheduler.step()

			time2 = time.perf_counter()
			time_escaped = (time2 - time1)/3600.0
			print(f"\ntime_escaped_epoch: {time_escaped:.3f} hours, estimated to finish {self.max_epoch} epoch: {(self.max_epoch-epoch)*time_escaped:.3f}\n")

			if self.rank == 0:
			average_checkpoints(self.output_dir, self.avg_nbest_model)
			@@ -287,7 +287,10 @@
			torch.cuda.max_memory_reserved()/1024/1024/1024,
			)
			lr = self.scheduler.get_last_lr()[0]
			time_now = datetime.now()
			time_now = time_now.strftime("%Y-%m-%d %H:%M:%S")
			description = (
			f"{time_now}, "
			f"rank: {self.local_rank}, "
			f"epoch: {epoch}/{self.max_epoch}, "
			f"step: {batch_idx+1}/{len(self.dataloader_train)}, total: {self.batch_total}, "