GPT-SoVITS模型训练记录

alex 收录于类别 AIGC AI语音

2024-04-06 2024-04-06 约 1254 字预计阅读 6 分钟

mangev2要好，v2的原视频。以及训练参数从训练日志看：

0.1 mangev2

mangev2训练config：

{"train": {"log_interval": 100, "eval_interval": 500, "seed": 1234, "epochs": 8, "learning_rate": 0.0001, "betas": [0.8, 0.99], "eps": 1e-09, "batch_size": 12, "fp16_run": true, "lr_decay": 0.999875, "segment_size": 20480, "init_lr_ratio": 1, "warmup_epochs": 0, "c_mel": 45, "c_kl": 1.0, "text_low_lr_rate": 0.4, "pretrained_s2G": "GPT_SoVITS/pretrained_models/s2G488k.pth", "pretrained_s2D": "GPT_SoVITS/pretrained_models/s2D488k.pth", "if_save_latest": true, "if_save_every_weights": true, "save_every_epoch": 4, "gpu_numbers": "0"}, "data": {"max_wav_value": 32768.0, "sampling_rate": 32000, "filter_length": 2048, "hop_length": 640, "win_length": 2048, "n_mel_channels": 128, "mel_fmin": 0.0, "mel_fmax": null, "add_blank": true, "n_speakers": 300, "cleaned_text": true, "exp_dir": "logs/mangev2"}, "model": {"inter_channels": 192, "hidden_channels": 192, "filter_channels": 768, "n_heads": 2, "n_layers": 6, "kernel_size": 3, "p_dropout": 0.1, "resblock": "1", "resblock_kernel_sizes": [3, 7, 11], "resblock_dilation_sizes": [[1, 3, 5], [1, 3, 5], [1, 3, 5]], "upsample_rates": [10, 8, 2, 2, 2], "upsample_initial_channel": 512, "upsample_kernel_sizes": [16, 16, 8, 2, 2], "n_layers_q": 3, "use_spectral_norm": false, "gin_channels": 512, "semantic_frame_rate": "25hz", "freeze_quantizer": true}, "s2_ckpt_dir": "logs/mangev2", "content_module": "cnhubert", "save_weight_dir": "SoVITS_weights", "name": "mangev2"}

mangev2训练日志：

2024-01-25 17:05:30,958	mangev2	INFO	{'train': {'log_interval': 100, 'eval_interval': 500, 'seed': 1234, 'epochs': 8, 'learning_rate': 0.0001, 'betas': [0.8, 0.99], 'eps': 1e-09, 'batch_size': 12, 'fp16_run': True, 'lr_decay': 0.999875, 'segment_size': 20480, 'init_lr_ratio': 1, 'warmup_epochs': 0, 'c_mel': 45, 'c_kl': 1.0, 'text_low_lr_rate': 0.4, 'pretrained_s2G': 'GPT_SoVITS/pretrained_models/s2G488k.pth', 'pretrained_s2D': 'GPT_SoVITS/pretrained_models/s2D488k.pth', 'if_save_latest': True, 'if_save_every_weights': True, 'save_every_epoch': 4, 'gpu_numbers': '0'}, 'data': {'max_wav_value': 32768.0, 'sampling_rate': 32000, 'filter_length': 2048, 'hop_length': 640, 'win_length': 2048, 'n_mel_channels': 128, 'mel_fmin': 0.0, 'mel_fmax': None, 'add_blank': True, 'n_speakers': 300, 'cleaned_text': True, 'exp_dir': 'logs/mangev2'}, 'model': {'inter_channels': 192, 'hidden_channels': 192, 'filter_channels': 768, 'n_heads': 2, 'n_layers': 6, 'kernel_size': 3, 'p_dropout': 0.1, 'resblock': '1', 'resblock_kernel_sizes': [3, 7, 11], 'resblock_dilation_sizes': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'upsample_rates': [10, 8, 2, 2, 2], 'upsample_initial_channel': 512, 'upsample_kernel_sizes': [16, 16, 8, 2, 2], 'n_layers_q': 3, 'use_spectral_norm': False, 'gin_channels': 512, 'semantic_frame_rate': '25hz', 'freeze_quantizer': True}, 's2_ckpt_dir': 'logs/mangev2', 'content_module': 'cnhubert', 'save_weight_dir': 'SoVITS_weights', 'name': 'mangev2', 'pretrain': None, 'resume_step': None}
2024-01-25 17:05:31,586	mangev2	INFO	loaded pretrained GPT_SoVITS/pretrained_models/s2G488k.pth
2024-01-25 17:05:31,694	mangev2	INFO	loaded pretrained GPT_SoVITS/pretrained_models/s2D488k.pth
2024-01-25 17:05:42,788	mangev2	INFO	Train Epoch: 1 [0%]
2024-01-25 17:05:42,788	mangev2	INFO	[2.066542387008667, 2.4788734912872314, 13.217020034790039, 27.605552673339844, 0.3608757257461548, 2.6584651470184326, 0, 9.99875e-05]
2024-01-25 17:05:47,371	mangev2	INFO	====> Epoch: 1
2024-01-25 17:05:52,080	mangev2	INFO	====> Epoch: 2
2024-01-25 17:05:56,015	mangev2	INFO	====> Epoch: 3
2024-01-25 17:06:00,198	mangev2	INFO	Saving model and optimizer state at iteration 4 to logs/mangev2/logs_s2\G_233333333333.pth
2024-01-25 17:06:00,909	mangev2	INFO	Saving model and optimizer state at iteration 4 to logs/mangev2/logs_s2\D_233333333333.pth
2024-01-25 17:06:01,395	mangev2	INFO	saving ckpt mangev2_e4:Success.
2024-01-25 17:06:01,396	mangev2	INFO	====> Epoch: 4
2024-01-25 17:06:04,595	mangev2	INFO	====> Epoch: 5
2024-01-25 17:06:07,516	mangev2	INFO	====> Epoch: 6
2024-01-25 17:06:10,370	mangev2	INFO	====> Epoch: 7
2024-01-25 17:06:13,624	mangev2	INFO	Saving model and optimizer state at iteration 8 to logs/mangev2/logs_s2\G_233333333333.pth
2024-01-25 17:06:14,089	mangev2	INFO	Saving model and optimizer state at iteration 8 to logs/mangev2/logs_s2\D_233333333333.pth
2024-01-25 17:06:14,556	mangev2	INFO	saving ckpt mangev2_e8:Success.
2024-01-25 17:06:14,556	mangev2	INFO	====> Epoch: 8

总结：

2024-01-25 17:05 时间对应项目文件：D:\Software\AI\GPT-SoVITS-beta\logs\mangev2\5-wav32k–》原音频 D:\Software\AI\GPT-SoVITS-beta\output\uvr5_opt\vocal_vocal_wav103_2t5nyv4dn.wav_10.wav 原音频2分钟时长底噪声音小。

SoVITS_weights：mangev2_e4_s36.pth mangev2_e8_s72.pth 要比vi1高

GPT_weights：v2和 v1一样的。都是e5.ckpt e10.ckpt e15.ckpt

0.2 mangev1

mangev1训练config：

{"train": {"log_interval": 100, "eval_interval": 500, "seed": 1234, "epochs": 8, "learning_rate": 0.0001, "betas": [0.8, 0.99], "eps": 1e-09, "batch_size": 12, "fp16_run": true, "lr_decay": 0.999875, "segment_size": 20480, "init_lr_ratio": 1, "warmup_epochs": 0, "c_mel": 45, "c_kl": 1.0, "text_low_lr_rate": 0.4, "pretrained_s2G": "GPT_SoVITS/pretrained_models/s2G488k.pth", "pretrained_s2D": "GPT_SoVITS/pretrained_models/s2D488k.pth", "if_save_latest": true, "if_save_every_weights": true, "save_every_epoch": 4, "gpu_numbers": "0"}, "data": {"max_wav_value": 32768.0, "sampling_rate": 32000, "filter_length": 2048, "hop_length": 640, "win_length": 2048, "n_mel_channels": 128, "mel_fmin": 0.0, "mel_fmax": null, "add_blank": true, "n_speakers": 300, "cleaned_text": true, "exp_dir": "logs/mange"}, "model": {"inter_channels": 192, "hidden_channels": 192, "filter_channels": 768, "n_heads": 2, "n_layers": 6, "kernel_size": 3, "p_dropout": 0.1, "resblock": "1", "resblock_kernel_sizes": [3, 7, 11], "resblock_dilation_sizes": [[1, 3, 5], [1, 3, 5], [1, 3, 5]], "upsample_rates": [10, 8, 2, 2, 2], "upsample_initial_channel": 512, "upsample_kernel_sizes": [16, 16, 8, 2, 2], "n_layers_q": 3, "use_spectral_norm": false, "gin_channels": 512, "semantic_frame_rate": "25hz", "freeze_quantizer": true}, "s2_ckpt_dir": "logs/mange", "content_module": "cnhubert", "save_weight_dir": "SoVITS_weights", "name": "mange"}

mangev1训练日志：

2024-01-25 12:13:53,739	mange	INFO	{'train': {'log_interval': 100, 'eval_interval': 500, 'seed': 1234, 'epochs': 8, 'learning_rate': 0.0001, 'betas': [0.8, 0.99], 'eps': 1e-09, 'batch_size': 12, 'fp16_run': True, 'lr_decay': 0.999875, 'segment_size': 20480, 'init_lr_ratio': 1, 'warmup_epochs': 0, 'c_mel': 45, 'c_kl': 1.0, 'text_low_lr_rate': 0.4, 'pretrained_s2G': 'GPT_SoVITS/pretrained_models/s2G488k.pth', 'pretrained_s2D': 'GPT_SoVITS/pretrained_models/s2D488k.pth', 'if_save_latest': True, 'if_save_every_weights': True, 'save_every_epoch': 4, 'gpu_numbers': '0'}, 'data': {'max_wav_value': 32768.0, 'sampling_rate': 32000, 'filter_length': 2048, 'hop_length': 640, 'win_length': 2048, 'n_mel_channels': 128, 'mel_fmin': 0.0, 'mel_fmax': None, 'add_blank': True, 'n_speakers': 300, 'cleaned_text': True, 'exp_dir': 'logs/mange'}, 'model': {'inter_channels': 192, 'hidden_channels': 192, 'filter_channels': 768, 'n_heads': 2, 'n_layers': 6, 'kernel_size': 3, 'p_dropout': 0.1, 'resblock': '1', 'resblock_kernel_sizes': [3, 7, 11], 'resblock_dilation_sizes': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'upsample_rates': [10, 8, 2, 2, 2], 'upsample_initial_channel': 512, 'upsample_kernel_sizes': [16, 16, 8, 2, 2], 'n_layers_q': 3, 'use_spectral_norm': False, 'gin_channels': 512, 'semantic_frame_rate': '25hz', 'freeze_quantizer': True}, 's2_ckpt_dir': 'logs/mange', 'content_module': 'cnhubert', 'save_weight_dir': 'SoVITS_weights', 'name': 'mange', 'pretrain': None, 'resume_step': None}
2024-01-25 12:13:54,368	mange	INFO	loaded pretrained GPT_SoVITS/pretrained_models/s2G488k.pth
2024-01-25 12:13:54,477	mange	INFO	loaded pretrained GPT_SoVITS/pretrained_models/s2D488k.pth
2024-01-25 12:14:06,947	mange	INFO	Train Epoch: 1 [0%]
2024-01-25 12:14:06,947	mange	INFO	[2.211968183517456, 2.5368943214416504, 12.84042739868164, 28.32691192626953, 0.36601871252059937, 2.0283617973327637, 0, 9.99875e-05]
2024-01-25 12:14:11,661	mange	INFO	====> Epoch: 1
2024-01-25 12:14:15,500	mange	INFO	====> Epoch: 2
2024-01-25 12:14:18,566	mange	INFO	====> Epoch: 3
2024-01-25 12:14:21,260	mange	INFO	Saving model and optimizer state at iteration 4 to logs/mange/logs_s2\G_233333333333.pth
2024-01-25 12:14:21,918	mange	INFO	Saving model and optimizer state at iteration 4 to logs/mange/logs_s2\D_233333333333.pth
2024-01-25 12:14:22,415	mange	INFO	saving ckpt mange_e4:Success.
2024-01-25 12:14:22,415	mange	INFO	====> Epoch: 4
2024-01-25 12:14:25,329	mange	INFO	====> Epoch: 5
2024-01-25 12:14:29,006	mange	INFO	====> Epoch: 6
2024-01-25 12:14:32,513	mange	INFO	====> Epoch: 7
2024-01-25 12:14:35,937	mange	INFO	Saving model and optimizer state at iteration 8 to logs/mange/logs_s2\G_233333333333.pth
2024-01-25 12:14:36,644	mange	INFO	Saving model and optimizer state at iteration 8 to logs/mange/logs_s2\D_233333333333.pth
2024-01-25 12:14:37,158	mange	INFO	saving ckpt mange_e8:Success.
2024-01-25 12:14:37,158	mange	INFO	====> Epoch: 8

总结:

2024-01-25 12:13 时间对应项目文件：D:\Software\AI\GPT-SoVITS-beta\logs\mange\5-wav32k D:\Software\AI\GPT-SoVITS-beta\output\uvr5_opt\vocal_wav103_hmdh7.wav_10.wav 1：38分钟时长、

D:\Software\AI\GPT-SoVITS-beta\output\uvr5_opt\vocal_mangeszyz7tm93yv.wav_10.wav 1分钟时长

SoVITS_weights：mange_e4_s32.pth mange_e8_s64.pth

目录

目录

GPT-SoVITS模型训练记录

0.1 mangev2

0.2 mangev1

相关内容

目录

GPT-SoVITS模型训练记录

0.1 mangev2

0.2 mangev1

相关内容

GPT-SoVITS声音模型训练