Dataset generator for Supervised Learning

In this section, we consider the dataset generator function for performing experiments in both standard and robust supervised learning scenarios.

Dataset Builder

class cords.utils.data.datasets.SL.builder.CustomDataset(data, target, device=None, transform=None, isreg=False)[source]: Bases: torch.utils.data.dataset.Dataset

class cords.utils.data.datasets.SL.builder.CustomDataset_WithId(data, target, transform=None)[source]: Bases: torch.utils.data.dataset.Dataset

class cords.utils.data.datasets.SL.builder.GlueDataset(glue_dataset, sentence_str, label_str, clean_type, num_classes, wordvec_dim, wordvec, device='cpu')[source]: Bases: torch.utils.data.dataset.Dataset

class cords.utils.data.datasets.SL.builder.SSTDataset(path_to_dataset, name, num_classes, wordvec_dim, wordvec, device='cpu')[source]

Bases: torch.utils.data.dataset.Dataset

label_tmp = None

class cords.utils.data.datasets.SL.builder.Trec6Dataset(data_path, cls_to_num, num_classes, wordvec_dim, wordvec, device='cpu')[source]: Bases: torch.utils.data.dataset.Dataset

cords.utils.data.datasets.SL.builder.census_load(path, dim, save_data=False)[source]

cords.utils.data.datasets.SL.builder.clean_data(sentence, type=0, TREC=False)[source]

cords.utils.data.datasets.SL.builder.clean_lawschool_full(path)[source]

cords.utils.data.datasets.SL.builder.create_imbalance(x_trn, y_trn, x_val, y_val, x_tst, y_tst, num_cls, ratio)[source]

cords.utils.data.datasets.SL.builder.create_noisy(y_trn, num_cls, noise_ratio=0.8)[source]

cords.utils.data.datasets.SL.builder.csv_file_load(path, dim, save_data=False)[source]

cords.utils.data.datasets.SL.builder.gen_dataset(datadir, dset_name, feature, isnumpy=False, **kwargs)[source]

Generate train, val, and test datasets for supervised learning setting.

Parameters

datadir (str) – Dataset directory in which the data is present or needs to be downloaded.
dset_name (str) – dataset name, [‘cifar10’, ‘cifar100’, ‘svhn’, ‘stl10’]
feature (str) –
if ‘classimb’, generate datasets wth class imbalance
- Needs keyword argument ‘classimb_ratio’
elif ‘noise’, generate datasets with label noise otherwise, generate standard datasets
isnumpy (bool) – if True, return datasets in numpy format instead of tensor format

cords.utils.data.datasets.SL.builder.get_class(sentiment, num_classes)[source]

cords.utils.data.datasets.SL.builder.libsvm_file_load(path, dim, save_data=False)[source]

cords.utils.data.datasets.SL.builder.loadGloveModel(gloveFile)[source]

class cords.utils.data.datasets.SL.builder.standard_scaling[source]

Bases: object

fit_transform(data)[source]

transform(data)[source]