config.toml

title = "SABER Configurations"

[dataset]
# root = "/media/vigi99/ssd_1tb/AudioData/cv-corpus-6.1-2020-12-11/en"
# test_root = "/media/vigi99/ssd_1tb/AudioData/simclr_test"
root = "/dev/shm/cv-corpus-6.1-2020-12-11/en"
test_root ="/dev/shm/simclr_test"
train = "validated.tsv"
test = "test.tsv"
unsupervised_train = "unsupervised_train.tsv"
supervised_train = "supervised_train.tsv"
text_corpus = "common_cv_corpus.txt"
spe_prefix = "cv_tokenizer"
n_classes = 256
percent_split = 9
sample_rate = 48000
max_audio_in_s = 13.0
min_audio_in_s = 2.0

[trainer]
# default_root_dir = "/media/vigi99/ssd_1tb/AudioWorkdir/SABERv2/training_artifacts"
default_root_dir = "/tts_data/SABERV2/training_artifacts"
tensorboard_logdir = "tb_logs"
savewieghts_dir = "weights"
max_epochs = 400
num_gpus = 3
num_nodes = 1
precision = 32
log_every_n_steps = 50
gradient_clip_val = 0.0
fast_dev_run = false
start_lr = 1e-3
final_lr = 1e-4
learning_rate = 1e-3
warmup_epochs = 0.0
weight_decay = 0
val_check_interval = 1.0

[dataloader]
batch_size = 48
num_workers = 60

[audio]
n_mels = 80
window_size_in_ms = 25
stride_in_ms = 10
model_sample_rate = 16000

[augmentations]
vol_range_in_db = [-25, 10]
pitch_range_in_cents = [-400, 400]
lowpass_cutoff = [1500, 4000]
tempo_range = [0.8, 1.3]
apply_prob = 0.8

[spec_aug]
freq_len = 27
time_len = 100
freq_n = 1
time_n = 1

[noises]
# noises_root = "/media/vigi99/ssd_1tb/AudioData/noises"
noises_root = "/dev/shm/noises"
noisefilelist = "noiselist.txt"
snr_range = [3, 20]

[model]
output_dim = 2160

[simclr]
projection_head_dim = 1024
final_embedding_dim = 128
temperature = 0.1
margin = 0.3

[simsiam]
projection_hid_dim = 2048
prediction_hid_dim = 512
prediction_out_dim = 2048

[barlow_twins]
projection_hid_dim = 8192
projection_out_dim = 8192
scale_loss = 0.024
lambda_param = 0.0051

[aggregated_ce]
projection_hid_dim = 1024
n_characters = 512
lambda_aggregated_loss = 2.0
scale_entropy = 0.1
gumbel_temperature = 0.5