update

2023-05-04 13:42:06 +08:00
parent 5a1dc89756
commit 2410fe9f5e
18 changed files with 3384 additions and 0 deletions
--- a/correlation/NAS-Bench-101.py
+++ b/correlation/NAS-Bench-101.py
@@ -0,0 +1,133 @@
+# Copyright 2021 Samsung Electronics Co., Ltd.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+
+#     http://www.apache.org/licenses/LICENSE-2.0
+
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# =============================================================================
+
+import pickle
+import torch
+import argparse
+import json
+import numpy as np
+from thop import profile
+
+from foresight.models import *
+from foresight.pruners import *
+from foresight.dataset import *
+
+
+def get_num_classes(args):
+    return 100 if args.dataset == 'cifar100' else 10 if args.dataset == 'cifar10' else 120
+
+
+def parse_arguments():
+    parser = argparse.ArgumentParser(description='Zero-cost Metrics for NAS-Bench-101')
+    parser.add_argument('--api_loc', default='../data/nasbench_only108.tfrecord',
+                        type=str, help='path to API')
+    parser.add_argument('--json_loc', default='data/all_graphs.json',
+                        type=str, help='path to JSON database')
+    parser.add_argument('--outdir', default='./',
+                        type=str, help='output directory')
+    parser.add_argument('--outfname', default='test',
+                        type=str, help='output filename')
+    parser.add_argument('--batch_size', default=256, type=int)
+    parser.add_argument('--dataset', type=str, default='cifar10',
+                        help='dataset to use [cifar10, cifar100, ImageNet16-120]')
+    parser.add_argument('--gpu', type=int, default=0, help='GPU index to work on')
+    parser.add_argument('--num_data_workers', type=int, default=2, help='number of workers for dataloaders')
+    parser.add_argument('--dataload', type=str, default='random', help='random or grasp supported')
+    parser.add_argument('--dataload_info', type=int, default=1,
+                        help='number of batches to use for random dataload or number of samples per class for grasp dataload')
+    parser.add_argument('--start', type=int, default=5, help='start index')
+    parser.add_argument('--end', type=int, default=10, help='end index')
+    parser.add_argument('--write_freq', type=int, default=100, help='frequency of write to file')
+    args = parser.parse_args()
+    args.device = torch.device("cuda:" + str(args.gpu) if torch.cuda.is_available() else "cpu")
+    return args
+
+
+def get_op_names(v):
+    o = []
+    for op in v:
+        if op == -1:
+            o.append('input')
+        elif op == -2:
+            o.append('output')
+        elif op == 0:
+            o.append('conv3x3-bn-relu')
+        elif op == 1:
+            o.append('conv1x1-bn-relu')
+        elif op == 2:
+            o.append('maxpool3x3')
+    return o
+
+
+if __name__ == '__main__':
+    args = parse_arguments()
+    # nasbench = api.NASBench(args.api_loc)
+    models = json.load(open(args.json_loc))
+
+    print(f'Running models {args.start} to {args.end} out of {len(models.keys())}')
+
+    train_loader, val_loader = get_cifar_dataloaders(args.batch_size, args.batch_size, args.dataset,
+                                                     args.num_data_workers)
+
+    all_points = []
+    pre = 'cf' if 'cifar' in args.dataset else 'im'
+
+    if args.outfname == 'test':
+        fn = f'nb1_{pre}{get_num_classes(args)}.p'
+    else:
+        fn = f'{args.outfname}.p'
+    op = os.path.join(args.outdir, fn)
+
+    print('outfile =', op)
+    first = True
+
+    # loop over nasbench1 archs (k=hash, v=[adj_matrix, ops])
+    idx = 0
+    cached_res = []
+    for k, v in models.items():
+
+        if idx < args.start:
+            idx += 1
+            continue
+        if idx >= args.end:
+            break
+        print(f'idx = {idx}')
+        idx += 1
+
+        res = {}
+        res['hash'] = k
+
+        # model
+        spec = nasbench1_spec._ToModelSpec(v[0], get_op_names(v[1]))
+        net = nasbench1.Network(spec, stem_out=128, num_stacks=3, num_mods=3, num_classes=get_num_classes(args))
+        net.to(args.device)
+
+        measures = predictive.find_measures(net,
+                                            train_loader,
+                                            (args.dataload, args.dataload_info, get_num_classes(args)),
+                                            args.device)
+        res['logmeasures'] = measures
+
+        print(res)
+        cached_res.append(res)
+
+        # write to file
+        if idx % args.write_freq == 0 or idx == args.end or idx == args.start + 10:
+            print(f'writing {len(cached_res)} results to {op}')
+            pf = open(op, 'ab')
+            for cr in cached_res:
+                pickle.dump(cr, pf)
+            pf.close()
+            cached_res = []
--- a/correlation/NAS-Bench-201.py
+++ b/correlation/NAS-Bench-201.py
@@ -0,0 +1,128 @@
+import argparse
+import os
+
+import time
+
+from foresight.dataset import *
+from foresight.models import nasbench2
+from foresight.pruners import predictive
+from foresight.weight_initializers import init_net
+from models import get_cell_based_tiny_net
+import pickle
+
+
+def get_num_classes(args):
+    return 100 if args.dataset == 'cifar100' else 10 if args.dataset == 'cifar10' else 120
+
+
+def parse_arguments():
+    parser = argparse.ArgumentParser(description='Zero-cost Metrics for NAS-Bench-201')
+    parser.add_argument('--api_loc', default='../data/NAS-Bench-201-v1_0-e61699.pth',
+                        type=str, help='path to API')
+    parser.add_argument('--outdir', default='./',
+                        type=str, help='output directory')
+    parser.add_argument('--init_w_type', type=str, default='none',
+                        help='weight initialization (before pruning) type [none, xavier, kaiming, zero, one]')
+    parser.add_argument('--init_b_type', type=str, default='none',
+                        help='bias initialization (before pruning) type [none, xavier, kaiming, zero, one]')
+    parser.add_argument('--batch_size', default=64, type=int)
+    parser.add_argument('--dataset', type=str, default='ImageNet16-120',
+                        help='dataset to use [cifar10, cifar100, ImageNet16-120]')
+    parser.add_argument('--gpu', type=int, default=5, help='GPU index to work on')
+    parser.add_argument('--data_size', type=int, default=32, help='data_size')
+    parser.add_argument('--num_data_workers', type=int, default=2, help='number of workers for dataloaders')
+    parser.add_argument('--dataload', type=str, default='appoint', help='random, grasp, appoint supported')
+    parser.add_argument('--dataload_info', type=int, default=1,
+                        help='number of batches to use for random dataload or number of samples per class for grasp dataload')
+    parser.add_argument('--seed', type=int, default=42, help='pytorch manual seed')
+    parser.add_argument('--write_freq', type=int, default=1, help='frequency of write to file')
+    parser.add_argument('--start', type=int, default=0, help='start index')
+    parser.add_argument('--end', type=int, default=0, help='end index')
+    parser.add_argument('--noacc', default=False, action='store_true',
+                        help='avoid loading NASBench2 api an instead load a pickle file with tuple (index, arch_str)')
+    args = parser.parse_args()
+    args.device = torch.device("cuda:" + str(args.gpu) if torch.cuda.is_available() else "cpu")
+    return args
+
+
+if __name__ == '__main__':
+    args = parse_arguments()
+    print(args.device)
+
+    if args.noacc:
+        api = pickle.load(open(args.api_loc,'rb'))
+    else:
+        from nas_201_api import NASBench201API as API
+        api = API(args.api_loc)
+
+    torch.manual_seed(args.seed)
+    torch.backends.cudnn.deterministic = True
+    torch.backends.cudnn.benchmark = False
+
+    train_loader, val_loader = get_cifar_dataloaders(args.batch_size, args.batch_size, args.dataset, args.num_data_workers, resize=args.data_size)
+    x, y = next(iter(train_loader))
+    # random data
+    # x = torch.rand((args.batch_size, 3, args.data_size, args.data_size))
+    # y = 0
+
+    cached_res = []
+    pre = 'cf' if 'cifar' in args.dataset else 'im'
+    pfn = f'nb2_{args.search_space}_{pre}{get_num_classes(args)}_seed{args.seed}_dl{args.dataload}_dlinfo{args.dataload_info}_initw{args.init_w_type}_initb{args.init_b_type}_{args.batch_size}.p'
+    op = os.path.join(args.outdir, pfn)
+
+    end = len(api) if args.end == 0 else args.end
+
+    # loop over nasbench2 archs
+    for i, arch_str in enumerate(api):
+
+        if i < args.start:
+            continue
+        if i >= end:
+            break
+
+        res = {'i': i, 'arch': arch_str}
+        # print(arch_str)
+        if args.search_space == 'tss':
+            net = nasbench2.get_model_from_arch_str(arch_str, get_num_classes(args))
+            arch_str2 = nasbench2.get_arch_str_from_model(net)
+            if arch_str != arch_str2:
+                print(arch_str)
+                print(arch_str2)
+                raise ValueError
+        elif args.search_space == 'sss':
+            config = api.get_net_config(i, args.dataset)
+            # print(config)
+            net = get_cell_based_tiny_net(config)
+        net.to(args.device)
+        # print(net)
+
+        init_net(net, args.init_w_type, args.init_b_type)
+
+        # print(x.size(), y)
+        measures = get_score(net, x, i, args.device)
+
+        res['meco'] = measures
+
+        if not args.noacc:
+            info = api.get_more_info(i, 'cifar10-valid' if args.dataset == 'cifar10' else args.dataset, iepoch=None,
+                                     hp='200', is_random=False)
+
+            trainacc = info['train-accuracy']
+            valacc = info['valid-accuracy']
+            testacc = info['test-accuracy']
+
+            res['trainacc'] = trainacc
+            res['valacc'] = valacc
+            res['testacc'] = testacc
+
+        print(res)
+        cached_res.append(res)
+
+        # write to file
+        if i % args.write_freq == 0 or i == len(api) - 1 or i == 10:
+            print(f'writing {len(cached_res)} results to {op}')
+            pf = open(op, 'ab')
+            for cr in cached_res:
+                pickle.dump(cr, pf)
+            pf.close()
+            cached_res = []
--- a/exp_scripts/zerocostpt_nb201_pipeline.sh
+++ b/exp_scripts/zerocostpt_nb201_pipeline.sh
@@ -0,0 +1,38 @@
+#!/bin/bash
+script_name=`basename "$0"`
+id=${script_name%.*}
+dataset=${dataset:-cifar10}
+seed=${seed:-0}
+gpu=${gpu:-"auto"}
+pool_size=${pool_size:-10}
+batch_size=${batch_size:-256}
+edge_decision=${edge_decision:-'random'}
+validate_rounds=${validate_rounds:-100}
+metric=${metric:-'jacob'}
+while [ $# -gt 0 ]; do
+    if [[ $1 == *"--"* ]]; then
+        param="${1/--/}"
+        declare $param="$2"
+        # echo $1 $2 // Optional to see the parameter:value result
+    fi
+    shift
+done
+
+echo 'id:' $id 'seed:' $seed 'dataset:' $dataset
+echo 'gpu:' $gpu
+
+cd ../nasbench201/
+python3 networks_proposal.py \
+    --dataset $dataset \
+    --save $id --gpu $gpu --seed $seed \
+    --edge_decision $edge_decision --proj_crit $metric \
+    --batch_size $batch_size\
+    --pool_size $pool_size \
+
+cd ../zerocostnas/
+python3 post_validate.py\
+    --ckpt_path ../experiments/nas-bench-201/prop-$id-$seed-$pool_size-$metric\
+    --save $id --seed $seed --gpu $gpu\
+    --edge_decision $edge_decision --proj_crit $metric \
+    --batch_size $batch_size\
+    --validate_rounds $validate_rounds\
--- a/nasbench201/DownsampledImageNet.py
+++ b/nasbench201/DownsampledImageNet.py
@@ -0,0 +1,110 @@
+import os, sys, hashlib, torch
+import numpy as np
+from PIL import Image
+import torch.utils.data as data
+import pickle
+
+
+def calculate_md5(fpath, chunk_size=1024 * 1024):
+  md5 = hashlib.md5()
+  with open(fpath, 'rb') as f:
+    for chunk in iter(lambda: f.read(chunk_size), b''):
+      md5.update(chunk)
+  return md5.hexdigest()
+
+
+def check_md5(fpath, md5, **kwargs):
+  return md5 == calculate_md5(fpath, **kwargs)
+
+
+def check_integrity(fpath, md5=None):
+  print(fpath)
+  if not os.path.isfile(fpath): return False
+  if md5 is None: return True
+  else          : return check_md5(fpath, md5)
+
+
+class ImageNet16(data.Dataset):
+  # http://image-net.org/download-images
+  # A Downsampled Variant of ImageNet as an Alternative to the CIFAR datasets
+  # https://arxiv.org/pdf/1707.08819.pdf
+  
+  train_list = [
+        ['train_data_batch_1', '27846dcaa50de8e21a7d1a35f30f0e91'],
+        ['train_data_batch_2', 'c7254a054e0e795c69120a5727050e3f'],
+        ['train_data_batch_3', '4333d3df2e5ffb114b05d2ffc19b1e87'],
+        ['train_data_batch_4', '1620cdf193304f4a92677b695d70d10f'],
+        ['train_data_batch_5', '348b3c2fdbb3940c4e9e834affd3b18d'],
+        ['train_data_batch_6', '6e765307c242a1b3d7d5ef9139b48945'],
+        ['train_data_batch_7', '564926d8cbf8fc4818ba23d2faac7564'],
+        ['train_data_batch_8', 'f4755871f718ccb653440b9dd0ebac66'],
+        ['train_data_batch_9', 'bb6dd660c38c58552125b1a92f86b5d4'],
+        ['train_data_batch_10','8f03f34ac4b42271a294f91bf480f29b'],
+    ]
+  valid_list = [
+        ['val_data', '3410e3017fdaefba8d5073aaa65e4bd6'],
+    ]
+
+  def __init__(self, root, train, transform, use_num_of_class_only=None):
+    self.root      = root
+    self.transform = transform
+    self.train     = train  # training set or valid set
+    if not self._check_integrity(): raise RuntimeError('Dataset not found or corrupted.')
+
+    if self.train: downloaded_list = self.train_list
+    else         : downloaded_list = self.valid_list
+    self.data    = []
+    self.targets = []
+  
+    # now load the picked numpy arrays
+    for i, (file_name, checksum) in enumerate(downloaded_list):
+      file_path = os.path.join(self.root, file_name)
+      #print ('Load {:}/{:02d}-th : {:}'.format(i, len(downloaded_list), file_path))
+      with open(file_path, 'rb') as f:
+        if sys.version_info[0] == 2:
+          entry = pickle.load(f)
+        else:
+          entry = pickle.load(f, encoding='latin1')
+        self.data.append(entry['data'])
+        self.targets.extend(entry['labels'])
+    self.data = np.vstack(self.data).reshape(-1, 3, 16, 16)
+    self.data = self.data.transpose((0, 2, 3, 1))  # convert to HWC
+    if use_num_of_class_only is not None:
+      assert isinstance(use_num_of_class_only, int) and use_num_of_class_only > 0 and use_num_of_class_only < 1000, 'invalid use_num_of_class_only : {:}'.format(use_num_of_class_only)
+      new_data, new_targets = [], []
+      for I, L in zip(self.data, self.targets):
+        if 1 <= L <= use_num_of_class_only:
+          new_data.append( I )
+          new_targets.append( L )
+      self.data    = new_data
+      self.targets = new_targets
+    #    self.mean.append(entry['mean'])
+    #self.mean = np.vstack(self.mean).reshape(-1, 3, 16, 16)
+    #self.mean = np.mean(np.mean(np.mean(self.mean, axis=0), axis=1), axis=1)
+    #print ('Mean : {:}'.format(self.mean))
+    #temp      = self.data - np.reshape(self.mean, (1, 1, 1, 3))
+    #std_data  = np.std(temp, axis=0)
+    #std_data  = np.mean(np.mean(std_data, axis=0), axis=0)
+    #print ('Std  : {:}'.format(std_data))
+
+  def __getitem__(self, index):
+    img, target = self.data[index], self.targets[index] - 1
+
+    img = Image.fromarray(img)
+
+    if self.transform is not None:
+      img = self.transform(img)
+
+    return img, target
+
+  def __len__(self):
+    return len(self.data)
+
+  def _check_integrity(self):
+    root = self.root
+    for fentry in (self.train_list + self.valid_list):
+      filename, md5 = fentry[0], fentry[1]
+      fpath = os.path.join(root, filename)
+      if not check_integrity(fpath, md5):
+        return False
+    return True
--- a/nasbench201/architect_ig.py
+++ b/nasbench201/architect_ig.py
@@ -0,0 +1,52 @@
+import torch
+
+
+class Architect(object):
+    def __init__(self, model, args):
+        self.network_momentum = args.momentum
+        self.network_weight_decay = args.weight_decay
+        self.model = model
+        self.optimizer = torch.optim.Adam(self.model.arch_parameters(),
+                                        lr=args.arch_learning_rate, betas=(0.5, 0.999),
+                                        weight_decay=args.arch_weight_decay)
+
+        self._init_arch_parameters = []
+        for alpha in self.model.arch_parameters():
+            alpha_init = torch.zeros_like(alpha)
+            alpha_init.data.copy_(alpha)
+            self._init_arch_parameters.append(alpha_init)
+
+        #### mode
+        if args.method in ['darts', 'darts-proj', 'sdarts', 'sdarts-proj']:
+            self.method = 'fo' # first order update
+        elif 'so' in args.method:
+            print('ERROR: PLEASE USE architect.py for second order darts')
+        elif args.method in ['blank', 'blank-proj']:
+            self.method = 'blank'
+        else:
+            print('ERROR: WRONG ARCH UPDATE METHOD', args.method); exit(0)
+
+    def reset_arch_parameters(self):
+        for alpha, alpha_init in zip(self.model.arch_parameters(), self._init_arch_parameters):
+            alpha.data.copy_(alpha_init.data)
+
+    def step(self, input_train, target_train, input_valid, target_valid, *args, **kwargs):
+        if self.method == 'fo':
+            shared = self._step_fo(input_train, target_train, input_valid, target_valid)
+        elif self.method == 'so':
+            raise NotImplementedError
+        elif self.method == 'blank': ## do not update alpha
+            shared = None
+
+        return shared
+
+    #### first order
+    def _step_fo(self, input_train, target_train, input_valid, target_valid):
+        loss = self.model._loss(input_valid, target_valid)
+        loss.backward()
+        self.optimizer.step()
+        return None
+
+    #### darts 2nd order
+    def _step_darts_so(self, input_train, target_train, input_valid, target_valid, eta, model_optimizer):
+        raise NotImplementedError
--- a/nasbench201/cell_infers/cells.py
+++ b/nasbench201/cell_infers/cells.py
@@ -0,0 +1,120 @@
+#####################################################
+# Copyright (c) Xuanyi Dong [GitHub D-X-Y], 2019.01 #
+#####################################################
+
+import torch
+import torch.nn as nn
+from copy import deepcopy
+from ..cell_operations import OPS
+
+
+# Cell for NAS-Bench-201
+class InferCell(nn.Module):
+
+  def __init__(self, genotype, C_in, C_out, stride):
+    super(InferCell, self).__init__()
+
+    self.layers  = nn.ModuleList()
+    self.node_IN = []
+    self.node_IX = []
+    self.genotype = deepcopy(genotype)
+    for i in range(1, len(genotype)):
+      node_info = genotype[i-1]
+      cur_index = []
+      cur_innod = []
+      for (op_name, op_in) in node_info:
+        if op_in == 0:
+          layer = OPS[op_name](C_in , C_out, stride, True, True)
+        else:
+          layer = OPS[op_name](C_out, C_out,      1, True, True)
+        cur_index.append( len(self.layers) )
+        cur_innod.append( op_in )
+        self.layers.append( layer )
+      self.node_IX.append( cur_index )
+      self.node_IN.append( cur_innod )
+    self.nodes   = len(genotype)
+    self.in_dim  = C_in
+    self.out_dim = C_out
+
+  def extra_repr(self):
+    string = 'info :: nodes={nodes}, inC={in_dim}, outC={out_dim}'.format(**self.__dict__)
+    laystr = []
+    for i, (node_layers, node_innods) in enumerate(zip(self.node_IX,self.node_IN)):
+      y = ['I{:}-L{:}'.format(_ii, _il) for _il, _ii in zip(node_layers, node_innods)]
+      x = '{:}<-({:})'.format(i+1, ','.join(y))
+      laystr.append( x )
+    return string + ', [{:}]'.format( ' | '.join(laystr) ) + ', {:}'.format(self.genotype.tostr())
+
+  def forward(self, inputs):
+    nodes = [inputs]
+    for i, (node_layers, node_innods) in enumerate(zip(self.node_IX,self.node_IN)):
+      node_feature = sum( self.layers[_il](nodes[_ii]) for _il, _ii in zip(node_layers, node_innods) )
+      nodes.append( node_feature )
+    return nodes[-1]
+
+
+
+# Learning Transferable Architectures for Scalable Image Recognition, CVPR 2018
+class NASNetInferCell(nn.Module):
+
+  def __init__(self, genotype, C_prev_prev, C_prev, C, reduction, reduction_prev, affine, track_running_stats):
+    super(NASNetInferCell, self).__init__()
+    self.reduction = reduction
+    if reduction_prev: self.preprocess0 = OPS['skip_connect'](C_prev_prev, C, 2, affine, track_running_stats)
+    else             : self.preprocess0 = OPS['nor_conv_1x1'](C_prev_prev, C, 1, affine, track_running_stats)
+    self.preprocess1 = OPS['nor_conv_1x1'](C_prev, C, 1, affine, track_running_stats)
+
+    if not reduction:
+      nodes, concats = genotype['normal'], genotype['normal_concat']
+    else:
+      nodes, concats = genotype['reduce'], genotype['reduce_concat']
+    self._multiplier = len(concats)
+    self._concats = concats
+    self._steps = len(nodes)
+    self._nodes = nodes
+    self.edges = nn.ModuleDict()
+    for i, node in enumerate(nodes):
+      for in_node in node:
+        name, j = in_node[0], in_node[1]
+        stride = 2 if reduction and j < 2 else 1
+        node_str = '{:}<-{:}'.format(i+2, j)
+        self.edges[node_str] = OPS[name](C, C, stride, affine, track_running_stats)
+
+  # [TODO] to support drop_prob in this function..
+  def forward(self, s0, s1, unused_drop_prob):
+    s0 = self.preprocess0(s0)
+    s1 = self.preprocess1(s1)
+
+    states = [s0, s1]
+    for i, node in enumerate(self._nodes):
+      clist = []
+      for in_node in node:
+        name, j = in_node[0], in_node[1]
+        node_str = '{:}<-{:}'.format(i+2, j)
+        op = self.edges[ node_str ]
+        clist.append( op(states[j]) )
+      states.append( sum(clist) )
+    return torch.cat([states[x] for x in self._concats], dim=1)
+
+
+class AuxiliaryHeadCIFAR(nn.Module):
+
+  def __init__(self, C, num_classes):
+    """assuming input size 8x8"""
+    super(AuxiliaryHeadCIFAR, self).__init__()
+    self.features = nn.Sequential(
+      nn.ReLU(inplace=True),
+      nn.AvgPool2d(5, stride=3, padding=0, count_include_pad=False), # image size = 2 x 2
+      nn.Conv2d(C, 128, 1, bias=False),
+      nn.BatchNorm2d(128),
+      nn.ReLU(inplace=True),
+      nn.Conv2d(128, 768, 2, bias=False),
+      nn.BatchNorm2d(768),
+      nn.ReLU(inplace=True)
+    )
+    self.classifier = nn.Linear(768, num_classes)
+
+  def forward(self, x):
+    x = self.features(x)
+    x = self.classifier(x.view(x.size(0),-1))
+    return x
--- a/nasbench201/cell_infers/tiny_network.py
+++ b/nasbench201/cell_infers/tiny_network.py
@@ -0,0 +1,82 @@
+#####################################################
+# Copyright (c) Xuanyi Dong [GitHub D-X-Y], 2019.01 #
+#####################################################
+import torch.nn as nn
+from ..cell_operations import ResNetBasicblock
+from .cells import InferCell
+
+
+# The macro structure for architectures in NAS-Bench-201
+class TinyNetwork(nn.Module):
+
+  def __init__(self, C, N, genotype, num_classes):
+    super(TinyNetwork, self).__init__()
+    self._C               = C
+    self._layerN          = N
+
+    self.stem = nn.Sequential(
+                    nn.Conv2d(3, C, kernel_size=3, padding=1, bias=False),
+                    nn.BatchNorm2d(C))
+  
+    layer_channels   = [C    ] * N + [C*2 ] + [C*2  ] * N + [C*4 ] + [C*4  ] * N    
+    layer_reductions = [False] * N + [True] + [False] * N + [True] + [False] * N
+
+    C_prev = C
+    self.cells = nn.ModuleList()
+    for index, (C_curr, reduction) in enumerate(zip(layer_channels, layer_reductions)):
+      if reduction:
+        cell = ResNetBasicblock(C_prev, C_curr, 2, True)
+      else:
+        cell = InferCell(genotype, C_prev, C_curr, 1)
+      self.cells.append( cell )
+      C_prev = cell.out_dim
+    self._Layer= len(self.cells)
+
+    self.lastact = nn.Sequential(nn.BatchNorm2d(C_prev), nn.ReLU(inplace=True))
+    self.global_pooling = nn.AdaptiveAvgPool2d(1)
+    self.classifier = nn.Linear(C_prev, num_classes)
+    
+    self.requires_feature = True
+
+  def get_message(self):
+    string = self.extra_repr()
+    for i, cell in enumerate(self.cells):
+      string += '\n {:02d}/{:02d} :: {:}'.format(i, len(self.cells), cell.extra_repr())
+    return string
+
+  def extra_repr(self):
+    return ('{name}(C={_C}, N={_layerN}, L={_Layer})'.format(name=self.__class__.__name__, **self.__dict__))
+
+  def forward(self, inputs):
+    feature = self.stem(inputs)
+    for i, cell in enumerate(self.cells):
+      feature = cell(feature)
+
+    out = self.lastact(feature)
+    out = self.global_pooling( out )
+    out = out.view(out.size(0), -1)
+    logits = self.classifier(out)
+
+    if self.requires_feature:
+      return logits, out
+    else:
+      return logits
+  
+  def _loss(self, input, target, return_logits=False):
+    logits, _ = self(input)
+    loss = self._criterion(logits, target)
+    
+    return (loss, logits) if return_logits else loss
+
+  def step(self, input, target, args, shared=None, return_grad=False):
+    Lt, logit_t = self._loss(input, target, return_logits=True)
+    Lt.backward()
+    if args.grad_clip != 0: 
+      nn.utils.clip_grad_norm_(self.get_weights(), args.grad_clip)
+    self.optimizer.step()
+
+    if return_grad:
+      grad = torch.nn.utils.parameters_to_vector([p.grad for p in self.get_weights()])
+      return logit_t, Lt, grad
+    else:
+      return logit_t, Lt
--- a/nasbench201/cell_operations.py
+++ b/nasbench201/cell_operations.py
@@ -0,0 +1,289 @@
+import sys
+import torch
+import torch.nn as nn
+sys.path.insert(0, '../')
+from Layers import layers
+__all__ = ['OPS', 'ResNetBasicblock', 'SearchSpaceNames']
+
+OPS = {
+  'noise'        : lambda C_in, C_out, stride, affine, track_running_stats: NoiseOp(stride, 0., 1.), # C_in, C_out not needed
+  'none'         : lambda C_in, C_out, stride, affine, track_running_stats: Zero(C_in, C_out, stride),
+  'avg_pool_3x3' : lambda C_in, C_out, stride, affine, track_running_stats: POOLING(C_in, C_out, stride, 'avg', affine, track_running_stats),
+  'max_pool_3x3' : lambda C_in, C_out, stride, affine, track_running_stats: POOLING(C_in, C_out, stride, 'max', affine, track_running_stats),
+  'nor_conv_7x7' : lambda C_in, C_out, stride, affine, track_running_stats: ReLUConvBN(C_in, C_out, (7,7), (stride,stride), (3,3), (1,1), affine, track_running_stats),
+  'nor_conv_3x3' : lambda C_in, C_out, stride, affine, track_running_stats: ReLUConvBN(C_in, C_out, (3,3), (stride,stride), (1,1), (1,1), affine, track_running_stats),
+  'nor_conv_1x1' : lambda C_in, C_out, stride, affine, track_running_stats: ReLUConvBN(C_in, C_out, (1,1), (stride,stride), (0,0), (1,1), affine, track_running_stats),
+  'dua_sepc_3x3' : lambda C_in, C_out, stride, affine, track_running_stats: DualSepConv(C_in, C_out, (3,3), (stride,stride), (1,1), (1,1), affine, track_running_stats),
+  'dua_sepc_5x5' : lambda C_in, C_out, stride, affine, track_running_stats: DualSepConv(C_in, C_out, (5,5), (stride,stride), (2,2), (1,1), affine, track_running_stats),
+  'dil_sepc_3x3' : lambda C_in, C_out, stride, affine, track_running_stats: SepConv(C_in, C_out, (3,3), (stride,stride), (2,2), (2,2), affine, track_running_stats),
+  'dil_sepc_5x5' : lambda C_in, C_out, stride, affine, track_running_stats: SepConv(C_in, C_out, (5,5), (stride,stride), (4,4), (2,2), affine, track_running_stats),
+  'skip_connect' : lambda C_in, C_out, stride, affine, track_running_stats: Identity() if stride == 1 and C_in == C_out else FactorizedReduce(C_in, C_out, stride, affine, track_running_stats),
+}
+
+CONNECT_NAS_BENCHMARK = ['none', 'skip_connect', 'nor_conv_3x3']
+NAS_BENCH_201         = ['none', 'skip_connect', 'nor_conv_1x1', 'nor_conv_3x3', 'avg_pool_3x3']
+DARTS_SPACE           = ['none', 'skip_connect', 'dua_sepc_3x3', 'dua_sepc_5x5', 'dil_sepc_3x3', 'dil_sepc_5x5', 'avg_pool_3x3', 'max_pool_3x3']
+#### wrc modified
+NAS_BENCH_201_SKIP    = ['none', 'skip_connect', 'nor_conv_1x1_skip', 'nor_conv_3x3_skip', 'avg_pool_3x3']
+NAS_BENCH_201_SIMPLE  = ['skip_connect', 'nor_conv_1x1', 'nor_conv_3x3', 'avg_pool_3x3']
+NAS_BENCH_201_S2      = ['skip_connect', 'nor_conv_3x3']
+NAS_BENCH_201_S4      = ['noise', 'nor_conv_3x3']
+NAS_BENCH_201_S10     = ['none', 'nor_conv_3x3']
+
+SearchSpaceNames = {'connect-nas'  : CONNECT_NAS_BENCHMARK,
+                    'nas-bench-201': NAS_BENCH_201,
+                    'nas-bench-201-simple': NAS_BENCH_201_SIMPLE,
+                    'nas-bench-201-s2': NAS_BENCH_201_S2,
+                    'nas-bench-201-s4': NAS_BENCH_201_S4,
+                    'nas-bench-201-s10': NAS_BENCH_201_S10,
+                    'darts'        : DARTS_SPACE}
+
+class NoiseOp(nn.Module):
+    def __init__(self, stride, mean, std):
+        super(NoiseOp, self).__init__()
+        self.stride = stride
+        self.mean = mean
+        self.std = std
+
+    def forward(self, x, block_input=False):
+      if block_input:
+        x = x * 0
+      if self.stride != 1:
+        x_new = x[:,:,::self.stride,::self.stride]
+      else:
+        x_new = x
+      noise = x_new.data.new(x_new.size()).normal_(self.mean, self.std)
+      return noise
+
+class ReLUConvBN(nn.Module):
+
+  def __init__(self, C_in, C_out, kernel_size, stride, padding, dilation, affine, track_running_stats=True):
+    super(ReLUConvBN, self).__init__()
+    self.op = nn.Sequential(
+      nn.ReLU(inplace=False),
+      layers.Conv2d(C_in, C_out, kernel_size, stride=stride, padding=padding, dilation=dilation, bias=False),
+      nn.BatchNorm2d(C_out, affine=affine, track_running_stats=track_running_stats)
+    )
+
+  def forward(self, x, block_input=False):
+    if block_input:
+      x = x * 0
+    return self.op(x)
+
+  def score(self):
+    score = 0 
+    for l in self.op:
+        if hasattr(l, 'score'):
+            score += torch.sum(l.score).cpu().numpy()
+    return score
+  
+#### wrc modified
+class ReLUConvBNSkip(nn.Module):
+
+  def __init__(self, C_in, C_out, kernel_size, stride, padding, dilation, affine, track_running_stats=True):
+    super(ReLUConvBNSkip, self).__init__()
+    self.op = nn.Sequential(
+      nn.ReLU(inplace=False),
+      layers.Conv2d(C_in, C_out, kernel_size, stride=stride, padding=padding, dilation=dilation, bias=False),
+      nn.BatchNorm2d(C_out, affine=affine, track_running_stats=track_running_stats)
+    )
+
+  def forward(self, x, block_input=False):
+    if block_input:
+      x = x * 0
+    return self.op(x) + x
+  
+  def score(self):
+    score = 0 
+    for l in self.op:
+        if hasattr(l, 'score'):
+            score += torch.sum(l.score).cpu().numpy()
+    return score
+####
+
+class SepConv(nn.Module):
+    
+  def __init__(self, C_in, C_out, kernel_size, stride, padding, dilation, affine, track_running_stats=True):
+    super(SepConv, self).__init__()
+    self.op = nn.Sequential(
+      nn.ReLU(inplace=False),
+      layers.Conv2d(C_in, C_in, kernel_size=kernel_size, stride=stride, padding=padding, dilation=dilation, groups=C_in, bias=False),
+      layers.Conv2d(C_in, C_out, kernel_size=1, padding=0, bias=False),
+      nn.BatchNorm2d(C_out, affine=affine, track_running_stats=track_running_stats),
+      )
+
+  def forward(self, x, block_input=False):
+    if block_input:
+      x = x * 0
+    return self.op(x)
+
+  def score(self):
+    score = 0 
+    for l in self.op:
+        if hasattr(l, 'score'):
+            score += torch.sum(l.score).cpu().numpy()
+    return score
+
+
+class DualSepConv(nn.Module):
+    
+  def __init__(self, C_in, C_out, kernel_size, stride, padding, dilation, affine, track_running_stats=True):
+    super(DualSepConv, self).__init__()
+    self.op_a = SepConv(C_in, C_in , kernel_size, stride, padding, dilation, affine, track_running_stats)
+    self.op_b = SepConv(C_in, C_out, kernel_size, 1, padding, dilation, affine, track_running_stats)
+
+  def forward(self, x, block_input=False):
+    if block_input:
+      x = x * 0
+    x = self.op_a(x)
+    x = self.op_b(x)
+    return x
+
+  def score(self):
+    score = self.op_a.score() + self.op_b.score()
+    return score
+
+
+class ResNetBasicblock(nn.Module):
+
+  def __init__(self, inplanes, planes, stride, affine=True):
+    super(ResNetBasicblock, self).__init__()
+    assert stride == 1 or stride == 2, 'invalid stride {:}'.format(stride)
+    self.conv_a = ReLUConvBN(inplanes, planes, 3, stride, 1, 1, affine)
+    self.conv_b = ReLUConvBN(  planes, planes, 3,      1, 1, 1, affine)
+    if stride == 2:
+      self.downsample = nn.Sequential(
+                           nn.AvgPool2d(kernel_size=2, stride=2, padding=0),
+                           nn.Conv2d(inplanes, planes, kernel_size=1, stride=1, padding=0, bias=False))
+    elif inplanes != planes:
+      self.downsample = ReLUConvBN(inplanes, planes, 1, 1, 0, 1, affine)
+    else:
+      self.downsample = None
+    self.in_dim  = inplanes
+    self.out_dim = planes
+    self.stride  = stride
+    self.num_conv = 2
+
+  def extra_repr(self):
+    string = '{name}(inC={in_dim}, outC={out_dim}, stride={stride})'.format(name=self.__class__.__name__, **self.__dict__)
+    return string
+
+  def forward(self, inputs):
+    basicblock = self.conv_a(inputs)
+    basicblock = self.conv_b(basicblock)
+
+    if self.downsample is not None:
+      residual = self.downsample(inputs)
+    else:
+      residual = inputs
+    return residual + basicblock
+  
+  def score(self):
+    return self.conv_a.score() + self.conv_b.score()
+    
+
+
+
+class POOLING(nn.Module):
+
+  def __init__(self, C_in, C_out, stride, mode, affine=True, track_running_stats=True):
+    super(POOLING, self).__init__()
+    if C_in == C_out:
+      self.preprocess = None
+    else:
+      self.preprocess = ReLUConvBN(C_in, C_out, 1, 1, 0, affine, track_running_stats)
+    if mode == 'avg'  : self.op = nn.AvgPool2d(3, stride=stride, padding=1, count_include_pad=False)
+    elif mode == 'max': self.op = nn.MaxPool2d(3, stride=stride, padding=1)
+    else              : raise ValueError('Invalid mode={:} in POOLING'.format(mode))
+
+  def forward(self, inputs, block_input=False):
+    if block_input:
+      inputs = inputs * 0
+    if self.preprocess: x = self.preprocess(inputs)
+    else              : x = inputs
+    return self.op(x)
+  
+  def score(self):
+    if self.preprocess :
+      return self.preprocess.score()
+    else:
+      return 0
+
+
+class Identity(nn.Module):
+
+  def __init__(self):
+    super(Identity, self).__init__()
+
+  def forward(self, x, block_input=False):
+    if block_input:
+      x = x * 0
+    return x
+
+
+class Zero(nn.Module):
+
+  def __init__(self, C_in, C_out, stride):
+    super(Zero, self).__init__()
+    self.C_in   = C_in
+    self.C_out  = C_out
+    self.stride = stride
+    self.is_zero = True
+
+  def forward(self, x, block_input=False):
+    if block_input:
+      x = x*0
+    if self.C_in == self.C_out:
+      if self.stride == 1: return x.mul(0.)
+      else               : return x[:,:,::self.stride,::self.stride].mul(0.)
+    else: ## this is never called in nasbench201
+      shape = list(x.shape)
+      shape[1] = self.C_out
+      zeros = x.new_zeros(shape, dtype=x.dtype, device=x.device)
+      return zeros
+
+  def extra_repr(self):
+    return 'C_in={C_in}, C_out={C_out}, stride={stride}'.format(**self.__dict__)
+
+
+class FactorizedReduce(nn.Module):
+
+  def __init__(self, C_in, C_out, stride, affine, track_running_stats):
+    super(FactorizedReduce, self).__init__()
+    self.stride = stride
+    self.C_in   = C_in
+    self.C_out  = C_out
+    self.relu   = nn.ReLU(inplace=False)
+    if stride == 2:
+      #assert C_out % 2 == 0, 'C_out : {:}'.format(C_out)
+      C_outs = [C_out // 2, C_out - C_out // 2]
+      self.convs = nn.ModuleList()
+      for i in range(2):
+        self.convs.append(layers.Conv2d(C_in, C_outs[i], 1, stride=stride, padding=0, bias=False) )
+      self.pad = nn.ConstantPad2d((0, 1, 0, 1), 0)
+    elif stride == 1:
+      self.conv = layers.Conv2d(C_in, C_out, 1, stride=stride, padding=0, bias=False)
+    else:
+      raise ValueError('Invalid stride : {:}'.format(stride))
+    self.bn = nn.BatchNorm2d(C_out, affine=affine, track_running_stats=track_running_stats)
+
+  def forward(self, x, block_input=False):
+    if block_input:
+      x = x * 0
+    if self.stride == 2:
+      x = self.relu(x)
+      y = self.pad(x)
+      out = torch.cat([self.convs[0](x), self.convs[1](y[:,:,1:,1:])], dim=1)
+    else:
+      out = self.conv(x)
+    out = self.bn(out)
+    return out
+
+  def extra_repr(self):
+    return 'C_in={C_in}, C_out={C_out}, stride={stride}'.format(**self.__dict__)
+
+  def score(self):
+    if self.stride == 1:
+      return self.conv.score()
+    else:
+      return self.convs[0].score()+self.convs[1].score()
--- a/nasbench201/genotypes.py
+++ b/nasbench201/genotypes.py
@@ -0,0 +1,194 @@
+from copy import deepcopy
+
+
+def get_combination(space, num):
+  combs = []
+  for i in range(num):
+    if i == 0:
+      for func in space:
+        combs.append( [(func, i)] )
+    else:
+      new_combs = []
+      for string in combs:
+        for func in space:
+          xstring = string + [(func, i)]
+          new_combs.append( xstring )
+      combs = new_combs
+  return combs
+  
+
+class Structure:
+
+  def __init__(self, genotype):
+    assert isinstance(genotype, list) or isinstance(genotype, tuple), 'invalid class of genotype : {:}'.format(type(genotype))
+    self.node_num = len(genotype) + 1
+    self.nodes    = []
+    self.node_N   = []
+    for idx, node_info in enumerate(genotype):
+      assert isinstance(node_info, list) or isinstance(node_info, tuple), 'invalid class of node_info : {:}'.format(type(node_info))
+      assert len(node_info) >= 1, 'invalid length : {:}'.format(len(node_info))
+      for node_in in node_info:
+        assert isinstance(node_in, list) or isinstance(node_in, tuple), 'invalid class of in-node : {:}'.format(type(node_in))
+        assert len(node_in) == 2 and node_in[1] <= idx, 'invalid in-node : {:}'.format(node_in)
+      self.node_N.append( len(node_info) )
+      self.nodes.append( tuple(deepcopy(node_info)) )
+
+  def tolist(self, remove_str):
+    # convert this class to the list, if remove_str is 'none', then remove the 'none' operation.
+    # note that we re-order the input node in this function
+    # return the-genotype-list and success [if unsuccess, it is not a connectivity]
+    genotypes = []
+    for node_info in self.nodes:
+      node_info = list( node_info )
+      node_info = sorted(node_info, key=lambda x: (x[1], x[0]))
+      node_info = tuple(filter(lambda x: x[0] != remove_str, node_info))
+      if len(node_info) == 0: return None, False
+      genotypes.append( node_info )
+    return genotypes, True
+
+  def node(self, index):
+    assert index > 0 and index <= len(self), 'invalid index={:} < {:}'.format(index, len(self))
+    return self.nodes[index]
+
+  def tostr(self):
+    strings = []
+    for node_info in self.nodes:
+      string = '|'.join([x[0]+'~{:}'.format(x[1]) for x in node_info])
+      string = '|{:}|'.format(string)
+      strings.append( string )
+    return '+'.join(strings)
+
+  def check_valid(self):
+    nodes = {0: True}
+    for i, node_info in enumerate(self.nodes):
+      sums = []
+      for op, xin in node_info:
+        if op == 'none' or nodes[xin] is False: x = False
+        else: x = True
+        sums.append( x )
+      nodes[i+1] = sum(sums) > 0
+    return nodes[len(self.nodes)]
+
+  def to_unique_str(self, consider_zero=False):
+    # this is used to identify the isomorphic cell, which rerquires the prior knowledge of operation
+    # two operations are special, i.e., none and skip_connect
+    nodes = {0: '0'}
+    for i_node, node_info in enumerate(self.nodes):
+      cur_node = []
+      for op, xin in node_info:
+        if consider_zero is None:
+          x = '('+nodes[xin]+')' + '@{:}'.format(op)
+        elif consider_zero:
+          if op == 'none' or nodes[xin] == '#': x = '#' # zero
+          elif op == 'skip_connect': x = nodes[xin]
+          else: x = '('+nodes[xin]+')' + '@{:}'.format(op)
+        else:
+          if op == 'skip_connect': x = nodes[xin]
+          else: x = '('+nodes[xin]+')' + '@{:}'.format(op)
+        cur_node.append(x)
+      nodes[i_node+1] = '+'.join( sorted(cur_node) )
+    return nodes[ len(self.nodes) ]
+
+  def check_valid_op(self, op_names):
+    for node_info in self.nodes:
+      for inode_edge in node_info:
+        #assert inode_edge[0] in op_names, 'invalid op-name : {:}'.format(inode_edge[0])
+        if inode_edge[0] not in op_names: return False
+    return True
+
+  def __repr__(self):
+    return ('{name}({node_num} nodes with {node_info})'.format(name=self.__class__.__name__, node_info=self.tostr(), **self.__dict__))
+
+  def __len__(self):
+    return len(self.nodes) + 1
+
+  def __getitem__(self, index):
+    return self.nodes[index]
+
+  @staticmethod
+  def str2structure(xstr):
+    assert isinstance(xstr, str), 'must take string (not {:}) as input'.format(type(xstr))
+    nodestrs = xstr.split('+')
+    genotypes = []
+    for i, node_str in enumerate(nodestrs):
+      inputs = list(filter(lambda x: x != '', node_str.split('|')))
+      for xinput in inputs: assert len(xinput.split('~')) == 2, 'invalid input length : {:}'.format(xinput)
+      inputs = ( xi.split('~') for xi in inputs )
+      input_infos = tuple( (op, int(IDX)) for (op, IDX) in inputs)
+      genotypes.append( input_infos )
+    return Structure( genotypes )
+
+  @staticmethod
+  def str2fullstructure(xstr, default_name='none'):
+    assert isinstance(xstr, str), 'must take string (not {:}) as input'.format(type(xstr))
+    nodestrs = xstr.split('+')
+    genotypes = []
+    for i, node_str in enumerate(nodestrs):
+      inputs = list(filter(lambda x: x != '', node_str.split('|')))
+      for xinput in inputs: assert len(xinput.split('~')) == 2, 'invalid input length : {:}'.format(xinput)
+      inputs = ( xi.split('~') for xi in inputs )
+      input_infos = list( (op, int(IDX)) for (op, IDX) in inputs)
+      all_in_nodes= list(x[1] for x in input_infos)
+      for j in range(i):
+        if j not in all_in_nodes: input_infos.append((default_name, j))
+      node_info = sorted(input_infos, key=lambda x: (x[1], x[0]))
+      genotypes.append( tuple(node_info) )
+    return Structure( genotypes )
+
+  @staticmethod
+  def gen_all(search_space, num, return_ori):
+    assert isinstance(search_space, list) or isinstance(search_space, tuple), 'invalid class of search-space : {:}'.format(type(search_space))
+    assert num >= 2, 'There should be at least two nodes in a neural cell instead of {:}'.format(num)
+    all_archs = get_combination(search_space, 1)
+    for i, arch in enumerate(all_archs):
+      all_archs[i] = [ tuple(arch) ]
+  
+    for inode in range(2, num):
+      cur_nodes = get_combination(search_space, inode)
+      new_all_archs = []
+      for previous_arch in all_archs:
+        for cur_node in cur_nodes:
+          new_all_archs.append( previous_arch + [tuple(cur_node)] )
+      all_archs = new_all_archs
+    if return_ori:
+      return all_archs
+    else:
+      return [Structure(x) for x in all_archs]
+
+
+
+ResNet_CODE = Structure(
+  [(('nor_conv_3x3', 0), ), # node-1 
+   (('nor_conv_3x3', 1), ), # node-2
+   (('skip_connect', 0), ('skip_connect', 2))] # node-3
+  )
+
+AllConv3x3_CODE = Structure(
+  [(('nor_conv_3x3', 0), ), # node-1 
+   (('nor_conv_3x3', 0), ('nor_conv_3x3', 1)), # node-2
+   (('nor_conv_3x3', 0), ('nor_conv_3x3', 1), ('nor_conv_3x3', 2))] # node-3
+  )
+
+AllFull_CODE = Structure(
+  [(('skip_connect', 0), ('nor_conv_1x1', 0), ('nor_conv_3x3', 0), ('avg_pool_3x3', 0)), # node-1 
+   (('skip_connect', 0), ('nor_conv_1x1', 0), ('nor_conv_3x3', 0), ('avg_pool_3x3', 0), ('skip_connect', 1), ('nor_conv_1x1', 1), ('nor_conv_3x3', 1), ('avg_pool_3x3', 1)), # node-2
+   (('skip_connect', 0), ('nor_conv_1x1', 0), ('nor_conv_3x3', 0), ('avg_pool_3x3', 0), ('skip_connect', 1), ('nor_conv_1x1', 1), ('nor_conv_3x3', 1), ('avg_pool_3x3', 1), ('skip_connect', 2), ('nor_conv_1x1', 2), ('nor_conv_3x3', 2), ('avg_pool_3x3', 2))] # node-3
+  )
+
+AllConv1x1_CODE = Structure(
+  [(('nor_conv_1x1', 0), ), # node-1 
+   (('nor_conv_1x1', 0), ('nor_conv_1x1', 1)), # node-2
+   (('nor_conv_1x1', 0), ('nor_conv_1x1', 1), ('nor_conv_1x1', 2))] # node-3
+  )
+
+AllIdentity_CODE = Structure(
+  [(('skip_connect', 0), ), # node-1 
+   (('skip_connect', 0), ('skip_connect', 1)), # node-2
+   (('skip_connect', 0), ('skip_connect', 1), ('skip_connect', 2))] # node-3
+  )
+
+architectures = {'resnet'  : ResNet_CODE,
+                 'all_c3x3': AllConv3x3_CODE,
+                 'all_c1x1': AllConv1x1_CODE,
+                 'all_idnt': AllIdentity_CODE,
+                 'all_full': AllFull_CODE}
--- a/nasbench201/init_projection.py
+++ b/nasbench201/init_projection.py
@@ -0,0 +1,619 @@
+import os
+import sys
+import numpy as np
+import torch
+import torch.nn.functional as f
+sys.path.insert(0, '../')
+import nasbench201.utils as ig_utils
+import logging
+import torch.utils
+import copy
+import scipy.stats as ss
+from collections import OrderedDict
+from foresight.pruners import *
+from op_score import Jocab_Score, get_ntk_n
+import gc
+from nasbench201.linear_region import Linear_Region_Collector
+
+torch.set_printoptions(precision=4, sci_mode=False)
+np.set_printoptions(precision=4, suppress=True)
+
+# global-edge-iter: similar toglobal-op-iterbut iteratively selects edge e from E based on the average score of all operations on each edge
+def global_op_greedy_pt_project(proj_queue, model, args): 
+    def project(model, args):
+        ## macros
+        num_edge, num_op = model.num_edge, model.num_op
+
+        ##get remain eid numbers 
+        remain_eids = torch.nonzero(model.candidate_flags).cpu().numpy().T[0]
+        compare = lambda x, y : x < y
+
+        crit_extrema = None
+        best_eid = None
+        input, target = next(iter(proj_queue))
+        for eid in remain_eids:
+            for opid in range(num_op):
+                # projection
+                weights = model.get_projected_weights()
+                proj_mask = torch.ones_like(weights[eid])
+                proj_mask[opid] = 0
+                weights[eid] = weights[eid] * proj_mask
+
+                ## proj evaluation
+                if args.proj_crit == 'jacob':
+                    valid_stats = Jocab_Score(model, input, target, weights=weights)
+                    crit = valid_stats
+
+                if crit_extrema is None or compare(crit, crit_extrema):
+                    crit_extrema = crit
+                    best_opid = opid
+                    best_eid = eid
+
+        logging.info('best opid %d', best_opid)
+        return best_eid, best_opid
+
+    tune_epochs = model.arch_parameters()[0].shape[0]
+
+    for epoch in range(tune_epochs):
+        logging.info('epoch %d', epoch) 
+        logging.info('project')
+        selected_eid, best_opid = project(model, args)
+        model.project_op(selected_eid, best_opid)
+
+    return
+
+# global-edge-iter: similar toglobal-op-oncebut uses the average score of operations on edges to obtain the edge discretization order
+def global_edge_greedy_pt_project(proj_queue, model, args):
+    def select_eid(model, args):
+        ## macros
+        num_edge, num_op = model.num_edge, model.num_op
+
+        ##get remain eid numbers 
+        remain_eids = torch.nonzero(model.candidate_flags).cpu().numpy().T[0]
+        compare = lambda x, y : x < y
+
+        crit_extrema = None
+        best_eid = None
+        input, target = next(iter(proj_queue))
+        for eid in remain_eids:
+            eid_score = []
+            for opid in range(num_op):
+                # projection
+                weights = model.get_projected_weights()
+                proj_mask = torch.ones_like(weights[eid])
+                proj_mask[opid] = 0
+                weights[eid] = weights[eid] * proj_mask
+
+                ## proj evaluation
+                if args.proj_crit == 'jacob':
+                    valid_stats = Jocab_Score(model, input,  target, weights=weights)
+                    crit = valid_stats
+                eid_score.append(crit)
+            eid_score = np.mean(eid_score)
+
+            if crit_extrema is None or compare(eid_score, crit_extrema):
+                crit_extrema = eid_score
+                best_eid = eid
+        return best_eid
+    
+    def project(model, args, selected_eid):
+        ## macros
+        num_edge, num_op = model.num_edge, model.num_op
+
+        ## select the best operation
+        if args.proj_crit == 'jacob':
+            crit_idx = 3
+            compare = lambda x, y: x < y
+        else:
+            crit_idx = 4
+            compare = lambda x, y: x < y
+        
+        best_opid = 0
+        crit_list = []
+        op_ids = []
+        input, target = next(iter(proj_queue))
+        for opid in range(num_op):
+            ## projection
+            weights = model.get_projected_weights()
+            proj_mask = torch.ones_like(weights[selected_eid])
+            proj_mask[opid] = 0
+            weights[selected_eid] = weights[selected_eid] * proj_mask
+
+            ## proj evaluation
+            if args.proj_crit == 'jacob':
+                valid_stats = Jocab_Score(model, input,  target, weights=weights)
+                crit = valid_stats
+           
+            crit_list.append(crit)
+            op_ids.append(opid)
+            
+        best_opid = op_ids[np.nanargmin(crit_list)]
+
+        logging.info('best opid %d', best_opid)
+        logging.info(crit_list)
+        return selected_eid, best_opid
+
+    num_edges = model.arch_parameters()[0].shape[0]
+
+    for epoch in range(num_edges):
+        logging.info('epoch %d', epoch)
+        
+        logging.info('project')
+        selected_eid = select_eid(model, args)
+        selected_eid, best_opid = project(model, args, selected_eid)
+        model.project_op(selected_eid, best_opid)
+    return
+
+# global-op-once: only evaluates S(A−(e,o)) for all operations once to obtain a ranking order of the operations, and discretizes the edgesEaccording to this order
+def global_op_once_pt_project(proj_queue, model, args):
+    def order(model, args):
+        ## macros
+        num_edge, num_op = model.num_edge, model.num_op
+
+        ##get remain eid numbers 
+        remain_eids = torch.nonzero(model.candidate_flags).cpu().numpy().T[0]
+        compare = lambda x, y : x < y
+
+        edge_score = OrderedDict()
+        input, target = next(iter(proj_queue))
+        for eid in remain_eids:       
+            crit_list = []
+            for opid in range(num_op):
+                # projection
+                weights = model.get_projected_weights()
+                proj_mask = torch.ones_like(weights[eid])
+                proj_mask[opid] = 0
+                weights[eid] = weights[eid] * proj_mask
+
+                ## proj evaluation
+                if args.proj_crit == 'jacob':
+                    valid_stats = Jocab_Score(model, input,  target, weights=weights)
+                    crit = valid_stats
+
+                crit_list.append(crit)
+            edge_score[eid] = np.nanargmin(crit_list)
+        return edge_score
+
+    def project(model, args, selected_eid):
+        ## macros
+        num_edge, num_op = model.num_edge, model.num_op
+        ## select the best operation
+        if args.proj_crit == 'jacob':
+            crit_idx = 3
+            compare = lambda x, y: x < y
+        else:
+            crit_idx = 4
+            compare = lambda x, y: x < y
+        
+        best_opid = 0
+        crit_list = []
+        op_ids = []
+        input, target = next(iter(proj_queue))
+        for opid in range(num_op):
+            ## projection
+            weights = model.get_projected_weights()
+            proj_mask = torch.ones_like(weights[selected_eid])
+            proj_mask[opid] = 0
+            weights[selected_eid] = weights[selected_eid] * proj_mask
+
+            ## proj evaluation
+            if args.proj_crit == 'jacob':
+                crit = Jocab_Score(model, input,  target, weights=weights)
+            crit_list.append(crit)
+            op_ids.append(opid)
+            
+        best_opid = op_ids[np.nanargmin(crit_list)]
+
+        logging.info('best opid %d', best_opid)
+        logging.info(crit_list)
+        return selected_eid, best_opid
+    
+    num_edges = model.arch_parameters()[0].shape[0]
+
+    eid_order = order(model, args)
+    for epoch in range(num_edges):
+        logging.info('epoch %d', epoch)
+        logging.info('project')
+        selected_eid, _ = eid_order.popitem()
+        selected_eid, best_opid = project(model, args, selected_eid)
+        model.project_op(selected_eid, best_opid)
+
+    return
+
+# global-edge-once: similar toglobal-op-oncebut uses the average score of operations on dges to obtain the edge discretization order
+def global_edge_once_pt_project(proj_queue, model, args):
+    def order(model, args):
+        ## macros
+        num_edge, num_op = model.num_edge, model.num_op
+
+        ##get remain eid numbers 
+        remain_eids = torch.nonzero(model.candidate_flags).cpu().numpy().T[0]
+        compare = lambda x, y : x < y
+
+        edge_score = OrderedDict()
+        crit_extrema = None
+        best_eid = None
+        input, target = next(iter(proj_queue))
+        for eid in remain_eids:       
+            crit_list = []
+            for opid in range(num_op):
+                # projection
+                weights = model.get_projected_weights()
+                proj_mask = torch.ones_like(weights[eid])
+                proj_mask[opid] = 0
+                weights[eid] = weights[eid] * proj_mask
+
+                ## proj evaluation
+                if args.proj_crit == 'jacob':
+                    crit = Jocab_Score(model, input,  target, weights=weights)
+
+                crit_list.append(crit)
+            edge_score[eid] = np.mean(crit_list)
+        return edge_score
+
+    def project(model, args, selected_eid):
+        ## macros
+        num_edge, num_op = model.num_edge, model.num_op
+        ## select the best operation
+        if args.proj_crit == 'jacob':
+            crit_idx = 3
+            compare = lambda x, y: x < y
+        else:
+            crit_idx = 4
+            compare = lambda x, y: x < y
+        
+        best_opid = 0
+        crit_extrema = None
+        crit_list = []
+        op_ids = []
+        input, target = next(iter(proj_queue))
+        for opid in range(num_op):
+            ## projection
+            weights = model.get_projected_weights()
+            proj_mask = torch.ones_like(weights[selected_eid])
+            proj_mask[opid] = 0
+            weights[selected_eid] = weights[selected_eid] * proj_mask
+
+            ## proj evaluation
+            if args.proj_crit == 'jacob':
+                crit = Jocab_Score(model, input,  target, weights=weights)      
+            crit_list.append(crit)
+            op_ids.append(opid)
+            
+        best_opid = op_ids[np.nanargmin(crit_list)]
+
+        logging.info('best opid %d', best_opid)
+        logging.info(crit_list)
+        return selected_eid, best_opid
+    
+    num_edges = model.arch_parameters()[0].shape[0]
+
+    eid_order = order(model, args)
+    for epoch in range(num_edges):
+        logging.info('epoch %d', epoch)
+        logging.info('project')
+        selected_eid, _ = eid_order.popitem()
+        selected_eid, best_opid = project(model, args, selected_eid)
+        model.project_op(selected_eid, best_opid)
+
+    return
+
+# fixed [reverse, order]: discretizes the edges in a fixed order, where in our experiments we discretize from the222input towards the output of the cell struct
+# random: discretizes the edges in a random order (DARTS-PT)
+# NOTE: Only this methods allows use other zero-cost proxy metrics 
+def pt_project(proj_queue, model, args):
+    def project(model, args):
+        ## macros,一共6条边，每条边有5个操作
+        num_edge, num_op = model.num_edge, model.num_op
+
+        ## select an edge
+        remain_eids = torch.nonzero(model.candidate_flags).cpu().numpy().T[0]
+        # print('candidate_flags:', model.candidate_flags)
+        # print(model.candidate_flags)
+        # 选边的方法
+        if args.edge_decision == "random":
+            # 选出来了一个数组，取其中的一个元素
+            selected_eid = np.random.choice(remain_eids, size=1)[0]
+        elif args.edge_decision == "reverse":
+            selected_eid = remain_eids[-1]
+        else:
+            selected_eid = remain_eids[0]
+
+        ## select the best operation
+        if args.proj_crit == 'jacob':
+            crit_idx = 3
+            compare = lambda x, y: x < y
+        else:
+            crit_idx = 4
+            compare = lambda x, y: x < y
+
+        if args.dataset == 'cifar100':
+            n_classes = 100
+        elif args.dataset == 'imagenet16-120':
+            n_classes = 120
+        else:
+            n_classes = 10
+
+        best_opid = 0
+        crit_extrema = None
+        crit_list = []
+        op_ids = []
+        input, target = next(iter(proj_queue))
+        for opid in range(num_op):
+            ## projection
+            weights = model.get_projected_weights()
+            proj_mask = torch.ones_like(weights[selected_eid])
+            # print(selected_eid, weights[selected_eid])
+            proj_mask[opid] = 0
+            weights[selected_eid] = weights[selected_eid] * proj_mask
+
+
+            ## proj evaluation
+            if args.proj_crit == 'jacob':
+                crit = Jocab_Score(model, input,  target, weights=weights)
+            else:
+                cache_weight = model.proj_weights[selected_eid]
+                cache_flag =  model.candidate_flags[selected_eid]
+
+
+                for idx in range(num_op):
+                    if idx == opid:
+                        model.proj_weights[selected_eid][opid] = 0
+                    else:
+                        model.proj_weights[selected_eid][idx] = 1.0/num_op
+
+
+                model.candidate_flags[selected_eid] = False
+                # print(model.get_projected_weights())
+
+                if args.proj_crit == 'comb':
+                    synflow = predictive.find_measures(model,
+                                        proj_queue,
+                                        ('random', 1, n_classes),
+                                        torch.device("cuda"),
+                                        measure_names=['synflow'])
+                    var = predictive.find_measures(model,
+                                        proj_queue,
+                                        ('random', 1, n_classes),
+                                        torch.device("cuda"),
+                                        measure_names=['var'])
+                    # print(synflow, var)
+                    comb = np.log(synflow['synflow'] + 1) / (var['var'] + 0.1)
+                    measures = {'comb': comb}
+                else:
+                    measures = predictive.find_measures(model,
+                                             proj_queue,
+                                             ('random', 1, n_classes),
+                                             torch.device("cuda"),
+                                             measure_names=[args.proj_crit])
+
+                # print(measures)
+                for idx in range(num_op):
+                    model.proj_weights[selected_eid][idx] = 0
+                model.candidate_flags[selected_eid] = cache_flag
+                crit = measures[args.proj_crit]
+
+            crit_list.append(crit)
+            op_ids.append(opid)
+
+
+        best_opid = op_ids[np.nanargmin(crit_list)]
+        # best_opid = op_ids[np.nanargmax(crit_list)]
+
+        logging.info('best opid %d', best_opid)
+        logging.info('current edge id %d', selected_eid)
+        logging.info(crit_list)
+        return selected_eid, best_opid
+    
+    num_edges = model.arch_parameters()[0].shape[0]
+
+    for epoch in range(num_edges):
+        logging.info('epoch %d', epoch)        
+        logging.info('project')
+        selected_eid, best_opid = project(model, args)
+        model.project_op(selected_eid, best_opid)
+
+    return
+
+def tenas_project(proj_queue, model, model_thin, args):
+    def project(model, args):
+        ## macros
+        num_edge, num_op = model.num_edge, model.num_op
+
+        ##get remain eid numbers 
+        remain_eids = torch.nonzero(model.candidate_flags).cpu().numpy().T[0]
+        compare = lambda x, y : x < y
+
+        ntks = []
+        lrs = []
+        edge_op_id = []
+        best_eid = None
+        
+        if args.proj_crit == 'tenas':
+            lrc_model = Linear_Region_Collector(input_size=(1000, 1, 3, 3), sample_batch=3, dataset=args.dataset, data_path=args.data, seed=args.seed)
+        for eid in remain_eids:
+            for opid in range(num_op):
+                # projection
+                weights = model.get_projected_weights()
+                proj_mask = torch.ones_like(weights[eid])
+                proj_mask[opid] = 0
+                weights[eid] = weights[eid] * proj_mask
+
+                ## proj evaluation
+                if args.proj_crit == 'tenas':
+                    lrc_model.reinit(ori_models=[model_thin], seed=args.seed, weights=weights)
+                    lr = lrc_model.forward_batch_sample()
+                    lrc_model.clear()
+                    ntk = get_ntk_n(proj_queue, [model], recalbn=0, train_mode=True, num_batch=1, weights=weights)
+                    ntks.append(ntk)
+                    lrs.append(lr)
+                    edge_op_id.append('{}:{}'.format(eid, opid))
+        print('ntls', ntks)
+        print('lrs', lrs)
+        ntks_ranks = ss.rankdata(ntks)
+        lrs_ranks = ss.rankdata(lrs)
+        ntks_ranks = len(ntks_ranks) - ntks_ranks.astype(int)
+        op_ranks = []
+        for i in range(len(edge_op_id)):
+            op_ranks.append(ntks_ranks[i]+lrs_ranks[i])
+        
+        best_op_index = edge_op_id[np.nanargmin(op_ranks[0:num_op])]
+        best_eid, best_opid = [int(x) for x in best_op_index.split(':')]
+
+        logging.info(op_ranks)
+        logging.info('best eid %d', best_eid)
+        logging.info('best opid %d', best_opid)
+        return best_eid, best_opid
+    num_edges = model.arch_parameters()[0].shape[0]
+
+    for epoch in range(num_edges):
+        logging.info('epoch %d', epoch)        
+        logging.info('project')
+        selected_eid, best_opid = project(model, args)
+        model.project_op(selected_eid, best_opid)
+
+    return
+
+#new methods 
+#Randomly propose candidate of networks and transfer it to supernet, then perform global op selection in this subspace
+def shrink_pt_project(proj_queue, model, args):
+    def project(model, args):
+        ## macros
+        num_edge, num_op = model.num_edge, model.num_op
+
+        ## select an edge
+        remain_eids = torch.nonzero(model.candidate_flags).cpu().numpy().T[0]
+        selected_eid = np.random.choice(remain_eids, size=1)[0]
+
+
+        ## select the best operation
+        if args.proj_crit == 'jacob':
+            crit_idx = 3
+            compare = lambda x, y: x < y
+        else:
+            crit_idx = 4
+            compare = lambda x, y: x < y
+
+        if args.dataset == 'cifar100':
+            n_classes = 100
+        elif args.dataset == 'imagenet16-120':
+            n_classes = 120
+        else:
+            n_classes = 10
+
+        best_opid = 0
+        crit_extrema = None
+        crit_list = []
+        op_ids = []
+        input, target = next(iter(proj_queue))
+        for opid in range(num_op):
+            ## projection
+            weights = model.get_projected_weights()
+            proj_mask = torch.ones_like(weights[selected_eid])
+            proj_mask[opid] = 0
+            weights[selected_eid] = weights[selected_eid] * proj_mask
+
+            ## proj evaluation
+            if args.proj_crit == 'jacob':
+                crit = Jocab_Score(model, input,  target, weights=weights)
+            else:
+                cache_weight = model.proj_weights[selected_eid]
+                cache_flag =  model.candidate_flags[selected_eid]
+
+                for idx in range(num_op):
+                    if idx == opid:
+                        model.proj_weights[selected_eid][opid] = 0
+                    else:
+                        model.proj_weights[selected_eid][idx] = 1.0/num_op
+                model.candidate_flags[selected_eid] = False
+                
+                measures = predictive.find_measures(model,
+                                    train_queue,
+                                    ('random', 1, n_classes), 
+                                    torch.device("cuda"),
+                                    measure_names=[args.proj_crit])
+                for idx in range(num_op):
+                    model.proj_weights[selected_eid][idx] = 0
+                model.candidate_flags[selected_eid] = cache_flag
+                crit = measures[args.proj_crit]
+
+            crit_list.append(crit)
+            op_ids.append(opid)
+            
+        best_opid = op_ids[np.nanargmin(crit_list)]
+
+        logging.info('best opid %d', best_opid)
+        logging.info('current edge id %d', selected_eid)
+        logging.info(crit_list)
+        return selected_eid, best_opid
+    
+    def global_project(model, args):
+        ## macros
+        num_edge, num_op = model.num_edge, model.num_op
+
+        ##get remain eid numbers 
+        remain_eids = torch.nonzero(model.subspace_candidate_flags).cpu().numpy().T[0]
+        compare = lambda x, y : x < y
+
+        crit_extrema = None
+        best_eid = None
+        best_opid = None
+        input, target = next(iter(proj_queue))
+        for eid in remain_eids:
+            remain_oids = torch.nonzero(model.proj_weights[eid]).cpu().numpy().T[0]
+            for opid in remain_oids:
+                # projection
+                weights = model.get_projected_weights()
+                proj_mask = torch.ones_like(weights[eid])
+                proj_mask[opid] = 0
+                weights[eid] = weights[eid] * proj_mask
+                ## proj evaluation
+                if args.proj_crit == 'jacob':
+                    valid_stats = Jocab_Score(model, input, target, weights=weights)
+                    crit = valid_stats
+
+                if crit_extrema is None or compare(crit, crit_extrema):
+                    crit_extrema = crit
+                    best_opid = opid
+                    best_eid = eid
+
+
+        logging.info('best eid %d', best_eid)
+        logging.info('best opid %d', best_opid)
+        model.subspace_candidate_flags[best_eid] = False
+        proj_mask = torch.zeros_like(model.proj_weights[best_eid])
+        model.proj_weights[best_eid] = model.proj_weights[best_eid] * proj_mask
+        model.proj_weights[best_eid][best_opid] = 1
+        return best_eid, best_opid
+
+    num_edges = model.arch_parameters()[0].shape[0]
+
+    #subspace
+    logging.info('Start subspace proposal')
+    subspace = copy.deepcopy(model.proj_weights)
+    for i in range(20):
+        model.reset_arch_parameters()
+        for epoch in range(num_edges):
+            logging.info('epoch %d', epoch)        
+            logging.info('project')
+            selected_eid, best_opid = project(model, args)
+            model.project_op(selected_eid, best_opid)
+        subspace += model.proj_weights
+    
+    model.reset_arch_parameters()
+    subspace = torch.gt(subspace, 0).int().float()
+    subspace = f.normalize(subspace, p=1, dim=1)
+    model.proj_weights += subspace
+    for i in range(num_edges):
+        model.candidate_flags[i] = False
+    logging.info('Start final search in subspace')
+    logging.info(subspace)
+
+    model.subspace_candidate_flags = torch.tensor(len(model._arch_parameters) * [True], requires_grad=False, dtype=torch.bool).cuda()
+    for epoch in range(num_edges):
+        logging.info('epoch %d', epoch) 
+        logging.info('project')
+        selected_eid, best_opid = global_project(model, args)
+        model.printing(logging)
+        #model.project_op(selected_eid, best_opid)
+    return
--- a/nasbench201/linear_region.py
+++ b/nasbench201/linear_region.py
@@ -0,0 +1,270 @@
+import os.path as osp
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.utils.data
+import torchvision.transforms as transforms
+import torchvision.datasets as dset
+from pdb import set_trace as bp
+from operator import mul
+from functools import reduce
+import copy
+Dataset2Class = {'cifar10': 10,
+                 'cifar100': 100,
+                 'imagenet-1k-s': 1000,
+                 'imagenet-1k': 1000,
+}
+
+
+class CUTOUT(object):
+
+    def __init__(self, length):
+        self.length = length
+
+    def __repr__(self):
+        return ('{name}(length={length})'.format(name=self.__class__.__name__, **self.__dict__))
+
+    def __call__(self, img):
+        h, w = img.size(1), img.size(2)
+        mask = np.ones((h, w), np.float32)
+        y = np.random.randint(h)
+        x = np.random.randint(w)
+
+        y1 = np.clip(y - self.length // 2, 0, h)
+        y2 = np.clip(y + self.length // 2, 0, h)
+        x1 = np.clip(x - self.length // 2, 0, w)
+        x2 = np.clip(x + self.length // 2, 0, w)
+
+        mask[y1: y2, x1: x2] = 0.
+        mask = torch.from_numpy(mask)
+        mask = mask.expand_as(img)
+        img *= mask
+        return img
+
+
+imagenet_pca = {
+        'eigval': np.asarray([0.2175, 0.0188, 0.0045]),
+        'eigvec': np.asarray([
+                [-0.5675, 0.7192, 0.4009],
+                [-0.5808, -0.0045, -0.8140],
+                [-0.5836, -0.6948, 0.4203],
+        ])
+}
+
+
+class RandChannel(object):
+    # randomly pick channels from input
+    def __init__(self, num_channel):
+        self.num_channel = num_channel
+
+    def __repr__(self):
+        return ('{name}(num_channel={num_channel})'.format(name=self.__class__.__name__, **self.__dict__))
+
+    def __call__(self, img):
+        channel = img.size(0)
+        channel_choice = sorted(np.random.choice(list(range(channel)), size=self.num_channel, replace=False))
+        return torch.index_select(img, 0, torch.Tensor(channel_choice).long())
+
+
+def get_datasets(name, root, input_size, cutout=-1):
+    assert len(input_size) in [3, 4]
+    if len(input_size) == 4:
+        input_size = input_size[1:]
+    assert input_size[1] == input_size[2]
+
+    if name == 'cifar10':
+        mean = [x / 255 for x in [125.3, 123.0, 113.9]]
+        std  = [x / 255 for x in [63.0, 62.1, 66.7]]
+    elif name == 'cifar100':
+        mean = [x / 255 for x in [129.3, 124.1, 112.4]]
+        std  = [x / 255 for x in [68.2, 65.4, 70.4]]
+    elif name.startswith('imagenet-1k'):
+        mean, std = [0.485, 0.456, 0.406], [0.229, 0.224, 0.225]
+    elif name.startswith('ImageNet16'):
+        mean = [x / 255 for x in [122.68, 116.66, 104.01]]
+        std  = [x / 255 for x in [63.22,  61.26 , 65.09]]
+    else:
+        raise TypeError("Unknow dataset : {:}".format(name))
+    #ßprint(input_size)
+    # Data Argumentation
+    if name == 'cifar10' or name == 'cifar100':
+        lists = [transforms.RandomCrop(input_size[1], padding=4), transforms.ToTensor(), transforms.Normalize(mean, std), RandChannel(input_size[0])]
+        if cutout > 0 : lists += [CUTOUT(cutout)]
+        train_transform = transforms.Compose(lists)
+        test_transform  = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean, std)])
+    elif name.startswith('ImageNet16'):
+        lists = [transforms.RandomCrop(input_size[1], padding=4), transforms.ToTensor(), transforms.Normalize(mean, std), RandChannel(input_size[0])]
+        if cutout > 0 : lists += [CUTOUT(cutout)]
+        train_transform = transforms.Compose(lists)
+        test_transform  = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean, std)])
+    elif name.startswith('imagenet-1k'):
+        normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
+        if name == 'imagenet-1k':
+            xlists    = []
+            xlists.append(transforms.Resize((32, 32), interpolation=2))
+            xlists.append(transforms.RandomCrop(input_size[1], padding=0))
+        elif name == 'imagenet-1k-s':
+            xlists = [transforms.RandomResizedCrop(32, scale=(0.2, 1.0))]
+            xlists = []
+        else: raise ValueError('invalid name : {:}'.format(name))
+        xlists.append(transforms.ToTensor())
+        xlists.append(normalize)
+        xlists.append(RandChannel(input_size[0]))
+        train_transform = transforms.Compose(xlists)
+        test_transform = transforms.Compose([transforms.Resize(40), transforms.CenterCrop(32), transforms.ToTensor(), normalize])
+    else:
+        raise TypeError("Unknow dataset : {:}".format(name))
+
+    if name == 'cifar10':
+        train_data = dset.CIFAR10 (root, train=True , transform=train_transform, download=True)
+        test_data  = dset.CIFAR10 (root, train=False, transform=test_transform , download=True)
+        assert len(train_data) == 50000 and len(test_data) == 10000
+    elif name == 'cifar100':
+        train_data = dset.CIFAR100(root, train=True , transform=train_transform, download=True)
+        test_data  = dset.CIFAR100(root, train=False, transform=test_transform , download=True)
+        assert len(train_data) == 50000 and len(test_data) == 10000
+    elif name.startswith('imagenet-1k'):
+        train_data = dset.ImageFolder(osp.join(root, 'train'), train_transform)
+        test_data  = dset.ImageFolder(osp.join(root, 'val'),   test_transform)
+    else: raise TypeError("Unknow dataset : {:}".format(name))
+
+    class_num = Dataset2Class[name]
+    return train_data, test_data, class_num
+
+
+class LinearRegionCount(object):
+    """Computes and stores the average and current value"""
+    def __init__(self, n_samples):
+        self.ActPattern = {}
+        self.n_LR = -1
+        self.n_samples = n_samples
+        self.ptr = 0
+        self.activations = None
+
+    @torch.no_grad()
+    def update2D(self, activations):
+        n_batch = activations.size()[0]
+        n_neuron = activations.size()[1]
+        self.n_neuron = n_neuron
+        if self.activations is None:
+            self.activations = torch.zeros(self.n_samples, n_neuron).cuda()
+        self.activations[self.ptr:self.ptr+n_batch] = torch.sign(activations)  # after ReLU
+        self.ptr += n_batch
+
+    @torch.no_grad()
+    def calc_LR(self):
+        res = torch.matmul(self.activations.half(), (1-self.activations).T.half()) # each element in res: A * (1 - B)
+        res += res.T # make symmetric, each element in res: A * (1 - B) + (1 - A) * B, a non-zero element indicate a pair of two different linear regions
+        res = 1 - torch.sign(res) # a non-zero element now indicate two linear regions are identical
+        res = res.sum(1) # for each sample's linear region: how many identical regions from other samples
+        res = 1. / res.float() # contribution of each redudant (repeated) linear region
+        self.n_LR = res.sum().item() # sum of unique regions (by aggregating contribution of all regions)
+        del self.activations, res
+        self.activations = None
+        torch.cuda.empty_cache()
+
+    @torch.no_grad()
+    def update1D(self, activationList):
+        code_string = ''
+        for key, value in activationList.items():
+            n_neuron = value.size()[0]
+            for i in range(n_neuron):
+                if value[i] > 0:
+                    code_string += '1'
+                else:
+                    code_string += '0'
+        if code_string not in self.ActPattern:
+            self.ActPattern[code_string] = 1
+
+    def getLinearReginCount(self):
+        if self.n_LR == -1:
+            self.calc_LR()
+        return self.n_LR
+
+
+class Linear_Region_Collector:
+    def __init__(self, models=[], input_size=(64, 3, 32, 32), sample_batch=100, dataset='cifar100', data_path=None, seed=0):
+        self.models = []
+        self.input_size = input_size  # BCHW
+        self.sample_batch = sample_batch
+        self.input_numel = reduce(mul, self.input_size, 1)
+        self.interFeature = []
+        self.dataset = dataset
+        self.data_path = data_path
+        self.seed = seed
+        self.reinit(models, input_size, sample_batch, seed)
+        
+    def reinit(self, ori_models=None, input_size=None, sample_batch=None, seed=None, weights=None):
+        models = []
+        for network in ori_models:
+            network = network.cuda()
+            net = copy.deepcopy(network)
+            net.proj_weights = weights
+            num_edge, num_op = net.num_edge, net.num_op
+            for i in range(num_edge):
+                net.candidate_flags[i] = False
+                net.eval()
+            models.append(net)
+
+        if models is not None:
+            assert isinstance(models, list)
+            del self.models
+            self.models = models
+            for model in self.models:
+                self.register_hook(model)
+                device = torch.cuda.current_device()
+                model = model.cuda(device=device)
+            self.LRCounts = [LinearRegionCount(self.input_size[0]*self.sample_batch) for _ in range(len(models))]
+        if input_size is not None or sample_batch is not None:
+            if input_size is not None:
+                self.input_size = input_size  # BCHW
+                self.input_numel = reduce(mul, self.input_size, 1)
+            if sample_batch is not None:
+                self.sample_batch = sample_batch
+            if self.data_path is not None:
+                self.train_data, _, class_num = get_datasets(self.dataset, self.data_path, self.input_size, -1)
+                self.train_loader = torch.utils.data.DataLoader(self.train_data, batch_size=self.input_size[0], num_workers=16, pin_memory=True, drop_last=True, shuffle=True)
+                self.loader = iter(self.train_loader)
+        if seed is not None and seed != self.seed:
+            self.seed = seed
+            torch.manual_seed(seed)
+            torch.cuda.manual_seed(seed)
+        del self.interFeature
+        self.interFeature = []
+        torch.cuda.empty_cache()
+
+    def clear(self):
+        self.LRCounts = [LinearRegionCount(self.input_size[0]*self.sample_batch) for _ in range(len(self.models))]
+        del self.interFeature
+        self.interFeature = []
+        torch.cuda.empty_cache()
+
+    def register_hook(self, model):
+        for m in model.modules():
+            if isinstance(m, nn.ReLU):
+                m.register_forward_hook(hook=self.hook_in_forward)
+
+    def hook_in_forward(self, module, input, output):
+        if isinstance(input, tuple) and len(input[0].size()) == 4:
+            self.interFeature.append(output.detach())  # for ReLU
+
+    def forward_batch_sample(self):
+        for _ in range(self.sample_batch):
+            try:
+                inputs, targets = self.loader.next()
+            except Exception:
+                del self.loader
+                self.loader = iter(self.train_loader)
+                inputs, targets = self.loader.next()
+            for model, LRCount in zip(self.models, self.LRCounts):
+                self.forward(model, LRCount, inputs)
+        output = [LRCount.getLinearReginCount() for LRCount in self.LRCounts]
+        return output
+
+    def forward(self, model, LRCount, input_data):
+        self.interFeature = []
+        with torch.no_grad():
+            model.forward(input_data.cuda())
+            if len(self.interFeature) == 0: return
+            feature_data = torch.cat([f.view(input_data.size(0), -1) for f in self.interFeature], 1)
+            LRCount.update2D(feature_data)
--- a/nasbench201/networks_proposal.py
+++ b/nasbench201/networks_proposal.py
@@ -0,0 +1,245 @@
+import os
+import sys
+sys.path.insert(0, '../')
+import time
+import glob
+import json
+import shutil
+import logging
+import argparse
+import numpy as np
+
+import torch
+import torch.nn as nn
+import torch.utils
+import torchvision.datasets as dset
+import torch.backends.cudnn as cudnn
+from torch.utils.tensorboard import SummaryWriter
+from torch.autograd import Variable
+
+import nasbench201.utils as ig_utils
+from nasbench201.search_model_darts_proj import TinyNetworkDartsProj
+from nasbench201.cell_operations import SearchSpaceNames
+from nasbench201.init_projection import pt_project, global_op_greedy_pt_project, global_op_once_pt_project, global_edge_greedy_pt_project, global_edge_once_pt_project, shrink_pt_project, tenas_project
+from nas_201_api import NASBench201API as API
+
+torch.set_printoptions(precision=4, sci_mode=False)
+np.set_printoptions(precision=4, suppress=True)
+
+
+parser = argparse.ArgumentParser("sota")
+# data related 
+parser.add_argument('--data', type=str, default='../data', help='location of the data corpus')
+parser.add_argument('--dataset', type=str, default='cifar10', choices=['cifar10', 'cifar100', 'imagenet16-120'], help='choose dataset')
+parser.add_argument('--train_portion', type=float, default=0.5, help='portion of training data')
+parser.add_argument('--batch_size', type=int, default=64, help='batch size for alpha')
+parser.add_argument('--cutout', action='store_true', default=True, help='use cutout')
+parser.add_argument('--cutout_length', type=int, default=16, help='cutout length')
+parser.add_argument('--cutout_prob', type=float, default=1.0, help='cutout probability')
+parser.add_argument('--seed', type=int, default=2, help='random seed')
+
+#search space setting
+parser.add_argument('--search_space', type=str, default='nas-bench-201')
+
+parser.add_argument('--pool_size', type=int, default=100, help='number of model to proposed')
+parser.add_argument('--init_channels', type=int, default=16, help='num of init channels')
+parser.add_argument('--layers', type=int, default=8, help='total number of layers')
+
+#system configurations
+parser.add_argument('--gpu', type=str, default='auto', help='gpu device id')
+parser.add_argument('--save', type=str, default='exp', help='experiment name')
+
+#default opt setting for model
+parser.add_argument('--learning_rate', type=float, default=0.025, help='init learning rate')
+parser.add_argument('--learning_rate_min', type=float, default=0.001, help='min learning rate')
+parser.add_argument('--momentum', type=float, default=0.9, help='momentum')
+parser.add_argument('--nesterov', action='store_true', default=True, help='using nestrov momentum for SGD')
+parser.add_argument('--weight_decay', type=float, default=3e-4, help='weight decay')
+parser.add_argument('--grad_clip', type=float, default=5, help='gradient clipping')
+
+#### common
+parser.add_argument('--fast', action='store_true', default=True, help='skip loading api which is slow')
+
+#### projection
+parser.add_argument('--edge_decision', type=str, default='random', choices=['random','reverse', 'order', 'global_op_greedy', 'global_op_once', 'global_edge_greedy', 'global_edge_once', 'shrink_pt_project'], help='which edge to be projected next')
+parser.add_argument('--proj_crit', type=str, default="comb", choices=['loss', 'acc', 'jacob', 'snip', 'fisher', 'synflow', 'grad_norm', 'grasp', 'jacob_cov','tenas', 'var', 'cor', 'norm', 'comb', 'meco'], help='criteria for projection')
+args = parser.parse_args()
+
+#### args augment
+expid = args.save
+args.save = '../experiments/nas-bench-201/prop-{}-{}-{}'.format(args.save, args.seed, args.pool_size)
+if not args.dataset == 'cifar10':
+    args.save += '-' + args.dataset
+if not args.edge_decision == 'random':
+    args.save += '-' + args.edge_decision
+if not args.proj_crit == 'jacob':
+    args.save += '-' + args.proj_crit
+
+#### logging
+scripts_to_save = glob.glob('*.py') \
+                  # + ['../exp_scripts/{}.sh'.format(expid)]
+if os.path.exists(args.save):
+    if input("WARNING: {} exists, override?[y/n]".format(args.save)) == 'y':
+        print('proceed to override saving directory')
+        shutil.rmtree(args.save)
+    else:
+        exit(0)
+ig_utils.create_exp_dir(args.save, scripts_to_save=scripts_to_save)
+
+log_format = '%(asctime)s %(message)s'
+logging.basicConfig(stream=sys.stdout, level=logging.INFO,
+    format=log_format, datefmt='%m/%d %I:%M:%S %p')
+
+log_file = 'log.txt'
+log_path = os.path.join(args.save, log_file)
+logging.info('======> log filename: %s', log_file)
+
+if os.path.exists(log_path):
+    if input("WARNING: {} exists, override?[y/n]".format(log_file)) == 'y':
+        print('proceed to override log file directory')
+    else:
+        exit(0)
+
+fh = logging.FileHandler(log_path, mode='w')
+fh.setFormatter(logging.Formatter(log_format))
+logging.getLogger().addHandler(fh)
+writer = SummaryWriter(args.save + '/runs')
+
+#### macros
+if args.dataset == 'cifar100':
+    n_classes = 100
+elif args.dataset == 'imagenet16-120':
+    n_classes = 120
+else:
+    n_classes = 10
+
+def main():
+    torch.set_num_threads(3)
+    if not torch.cuda.is_available():
+        logging.info('no gpu device available')
+        sys.exit(1)
+
+    np.random.seed(args.seed)
+    gpu = ig_utils.pick_gpu_lowest_memory() if args.gpu == 'auto' else int(args.gpu)
+    torch.cuda.set_device(gpu)
+    cudnn.benchmark = True
+    torch.manual_seed(args.seed)
+    cudnn.enabled = True
+    torch.cuda.manual_seed(args.seed)
+    logging.info("args = %s", args)
+    logging.info('gpu device = %d' % gpu)
+
+    #### model
+    criterion = nn.CrossEntropyLoss()
+    search_space = SearchSpaceNames[args.search_space]
+
+    # 初始化超网络
+    model = TinyNetworkDartsProj(C=args.init_channels, N=5, max_nodes=4, num_classes=n_classes, criterion=criterion, search_space=search_space, args=args)
+    model_thin = TinyNetworkDartsProj(C=args.init_channels, N=5, max_nodes=4, num_classes=n_classes, criterion=criterion, search_space=search_space, args=args, stem_channels=1)
+    model = model.cuda()
+    model_thin = model_thin.cuda()
+    logging.info("param size = %fMB", ig_utils.count_parameters_in_MB(model))
+
+    #### data
+    if args.dataset == 'cifar10':
+        train_transform, valid_transform = ig_utils._data_transforms_cifar10(args)
+        train_data = dset.CIFAR10(root=args.data, train=True, download=True, transform=train_transform)
+        valid_data = dset.CIFAR10(root=args.data, train=False, download=True, transform=valid_transform)
+    elif args.dataset == 'cifar100':
+        train_transform, valid_transform = ig_utils._data_transforms_cifar100(args)
+        train_data = dset.CIFAR100(root=args.data, train=True, download=True, transform=train_transform)
+        valid_data = dset.CIFAR100(root=args.data, train=False, download=True, transform=valid_transform)
+    elif args.dataset == 'imagenet16-120':
+        import torchvision.transforms as transforms
+        from nasbench201.DownsampledImageNet import ImageNet16
+        mean = [x / 255 for x in [122.68, 116.66, 104.01]]
+        std = [x / 255 for x in [63.22,  61.26, 65.09]]
+        lists = [transforms.RandomHorizontalFlip(), transforms.RandomCrop(16, padding=2), transforms.ToTensor(), transforms.Normalize(mean, std)]
+        train_transform = transforms.Compose(lists)
+        train_data = ImageNet16(root=os.path.join(args.data,'imagenet16'), train=True, transform=train_transform, use_num_of_class_only=120)
+        valid_data = ImageNet16(root=os.path.join(args.data,'imagenet16'), train=False, transform=train_transform, use_num_of_class_only=120)
+        assert len(train_data) == 151700
+
+    num_train = len(train_data)
+    indices = list(range(num_train))
+    split = int(np.floor(args.train_portion * num_train))
+
+    train_queue = torch.utils.data.DataLoader(
+        train_data, batch_size=args.batch_size,
+        sampler=torch.utils.data.sampler.SubsetRandomSampler(indices[:split]),
+        pin_memory=True)
+
+
+    #format network pool diction
+    networks_pool={}
+    networks_pool['search_space'] = args.search_space
+    networks_pool['dataset'] = args.dataset
+    networks_pool['networks'] = []
+    networks_pool['pool_size'] = args.pool_size 
+    #### architecture selection / projection
+    for i in range(args.pool_size):
+        network_info={}
+        logging.info('{} MODEL HAS SEARCHED'.format(i+1))
+        if args.edge_decision == 'global_op_greedy':
+            global_op_greedy_pt_project(train_queue, model, args)
+        elif args.edge_decision == 'global_op_once': 
+            global_op_once_pt_project(train_queue, model, args)
+        elif args.edge_decision == 'global_edge_greedy':
+            global_edge_greedy_pt_project(train_queue, model, args)
+        elif args.edge_decision == 'global_edge_once':
+            global_edge_once_pt_project(train_queue, model, args)
+        elif args.edge_decision == 'shrink_pt_project':
+            shrink_pt_project(train_queue, model, args)
+            api = API('../data/NAS-Bench-201-v1_0-e61699.pth')
+            cifar10_train, cifar10_test, cifar100_train, cifar100_valid, \
+                cifar100_test, imagenet16_train, imagenet16_valid, imagenet16_test = query(api, model.genotype().tostr(), logging)
+        else:
+            if args.proj_crit == 'jacob':
+                pt_project(train_queue, model, args)
+            else:
+                pt_project(train_queue, model, args)
+                # tenas_project(train_queue, model, model_thin, args)
+
+        network_info['id'] = str(i)
+        network_info['genotype'] = model.genotype().tostr()
+        networks_pool['networks'].append(network_info)
+        model.reset_arch_parameters()
+    
+    with open(os.path.join(args.save,'networks_pool.json'), 'w') as save_file:
+        json.dump(networks_pool, save_file)
+
+
+#### util functions
+def distill(result):
+    result = result.split('\n')
+    cifar10 = result[5].replace(' ', '').split(':')
+    cifar100 = result[7].replace(' ', '').split(':')
+    imagenet16 = result[9].replace(' ', '').split(':')
+
+    cifar10_train = float(cifar10[1].strip(',test')[-7:-2].strip('='))
+    cifar10_test = float(cifar10[2][-7:-2].strip('='))
+    cifar100_train = float(cifar100[1].strip(',valid')[-7:-2].strip('='))
+    cifar100_valid = float(cifar100[2].strip(',test')[-7:-2].strip('='))
+    cifar100_test = float(cifar100[3][-7:-2].strip('='))
+    imagenet16_train = float(imagenet16[1].strip(',valid')[-7:-2].strip('='))
+    imagenet16_valid = float(imagenet16[2].strip(',test')[-7:-2].strip('='))
+    imagenet16_test = float(imagenet16[3][-7:-2].strip('='))
+
+    return cifar10_train, cifar10_test, cifar100_train, cifar100_valid, \
+        cifar100_test, imagenet16_train, imagenet16_valid, imagenet16_test
+
+
+def query(api, genotype, logging):
+    result = api.query_by_arch(genotype, hp='200')
+    logging.info('{:}'.format(result))
+    cifar10_train, cifar10_test, cifar100_train, cifar100_valid, \
+        cifar100_test, imagenet16_train, imagenet16_valid, imagenet16_test = distill(result)
+    logging.info('cifar10 train %f test %f', cifar10_train, cifar10_test)
+    logging.info('cifar100 train %f valid %f test %f', cifar100_train, cifar100_valid, cifar100_test)
+    logging.info('imagenet16 train %f valid %f test %f', imagenet16_train, imagenet16_valid, imagenet16_test)
+    return cifar10_train, cifar10_test, cifar100_train, cifar100_valid, \
+           cifar100_test, imagenet16_train, imagenet16_valid, imagenet16_test
+
+
+if __name__ == '__main__':
+    main()
--- a/nasbench201/op_score.py
+++ b/nasbench201/op_score.py
@@ -0,0 +1,113 @@
+import gc
+import numpy as np
+import os
+import sys
+import torch
+import torch.nn.functional as f
+from operator import mul
+from functools import reduce
+import copy
+sys.path.insert(0, '../')
+
+def Jocab_Score(ori_model, input, target, weights=None):
+    model = copy.deepcopy(ori_model)
+    model.eval()
+    model.proj_weights = weights
+    num_edge, num_op = model.num_edge, model.num_op
+    for i in range(num_edge):
+        model.candidate_flags[i] = False
+    batch_size = input.shape[0]
+    model.K = torch.zeros(batch_size, batch_size).cuda()
+
+    def counting_forward_hook(module, inp, out):
+        try:
+            if isinstance(inp, tuple):
+                inp = inp[0]
+            inp = inp.view(inp.size(0), -1)
+            x = (inp > 0).float()
+            K = x @ x.t()
+            K2 = (1.-x) @ (1.-x.t())
+            model.K = model.K + K + K2
+        except:
+            pass
+
+    for name, module in model.named_modules():
+        if 'ReLU' in str(type(module)):
+            module.register_forward_hook(counting_forward_hook)
+    
+    input = input.cuda()
+    model(input)
+    score = hooklogdet(model.K.cpu().numpy())
+    del model
+    del input
+    return score
+
+def hooklogdet(K, labels=None):
+    s, ld = np.linalg.slogdet(K)
+    return ld
+
+# NTK
+#------------------------------------------------------------
+#https://github.com/VITA-Group/TENAS/blob/main/lib/procedures/ntk.py
+#
+def recal_bn(network, xloader, recalbn, device):
+    for m in network.modules():
+        if isinstance(m, torch.nn.BatchNorm2d):
+            m.running_mean.data.fill_(0)
+            m.running_var.data.fill_(0)
+            m.num_batches_tracked.data.zero_()
+            m.momentum = None
+    network.train()
+    with torch.no_grad():
+        for i, (inputs, targets) in enumerate(xloader):
+            if i >= recalbn: break
+            inputs = inputs.cuda(device=device, non_blocking=True)
+            _, _ = network(inputs)
+    return network
+
+def get_ntk_n(xloader, networks, recalbn=0, train_mode=False, num_batch=-1, weights=None):
+    device = torch.cuda.current_device()
+    ntks = []
+    copied_networks = []
+    for network in networks:
+        network = network.cuda(device=device)
+        net = copy.deepcopy(network)
+        net.proj_weights = weights
+        num_edge, num_op = net.num_edge, net.num_op
+        for i in range(num_edge):
+            net.candidate_flags[i] = False
+        if train_mode:
+            net.train()
+        else:
+            net.eval()
+        copied_networks.append(net)
+    ######
+    grads = [[] for _ in range(len(copied_networks))]
+    for i, (inputs, targets) in enumerate(xloader):
+        if num_batch > 0 and i >= num_batch: break
+        inputs = inputs.cuda(device=device, non_blocking=True)
+        for net_idx, network in enumerate(copied_networks):
+            network.zero_grad()
+            inputs_ = inputs.clone().cuda(device=device, non_blocking=True)
+            logit = network(inputs_)
+            if isinstance(logit, tuple):
+                logit = logit[1]  # 201 networks: return features and logits
+            for _idx in range(len(inputs_)):
+                logit[_idx:_idx+1].backward(torch.ones_like(logit[_idx:_idx+1]), retain_graph=True)
+                grad = []
+                for name, W in network.named_parameters():
+                    if 'weight' in name and W.grad is not None:
+                        grad.append(W.grad.view(-1).detach())
+                grads[net_idx].append(torch.cat(grad, -1))
+                network.zero_grad()
+                torch.cuda.empty_cache()
+    ######
+    grads = [torch.stack(_grads, 0) for _grads in grads]
+    ntks = [torch.einsum('nc,mc->nm', [_grads, _grads]) for _grads in grads]
+    conds = []
+    for ntk in ntks:
+        eigenvalues, _ = torch.symeig(ntk)  # ascending
+        conds.append(np.nan_to_num((eigenvalues[-1] / eigenvalues[0]).item(), copy=True, nan=100000.0))
+    
+    del copied_networks
+    return conds
--- a/nasbench201/search_cells.py
+++ b/nasbench201/search_cells.py
@@ -0,0 +1,182 @@
+import math, random, torch
+import warnings
+import torch.nn as nn
+import torch.nn.functional as F
+from copy import deepcopy
+import sys
+sys.path.insert(0, '../')
+from nasbench201.cell_operations import OPS
+
+
+# This module is used for NAS-Bench-201, represents a small search space with a complete DAG
+class NAS201SearchCell(nn.Module):
+
+  def __init__(self, C_in, C_out, stride, max_nodes, op_names, affine=False, track_running_stats=True):
+    super(NAS201SearchCell, self).__init__()
+
+    self.op_names  = deepcopy(op_names)
+    self.edges     = nn.ModuleDict()
+    self.max_nodes = max_nodes
+    self.in_dim    = C_in
+    self.out_dim   = C_out
+    for i in range(1, max_nodes):
+      for j in range(i):
+        node_str = '{:}<-{:}'.format(i, j)
+        if j == 0:
+          xlists = [OPS[op_name](C_in , C_out, stride, affine, track_running_stats) for op_name in op_names]
+        else:
+          xlists = [OPS[op_name](C_in , C_out,      1, affine, track_running_stats) for op_name in op_names]
+        self.edges[ node_str ] = nn.ModuleList( xlists )
+    self.edge_keys  = sorted(list(self.edges.keys()))
+    self.edge2index = {key:i for i, key in enumerate(self.edge_keys)}
+    self.num_edges  = len(self.edges)
+    
+  def extra_repr(self):
+    string = 'info :: {max_nodes} nodes, inC={in_dim}, outC={out_dim}'.format(**self.__dict__)
+    return string
+
+  def forward(self, inputs, weightss):
+    return self._forward(inputs, weightss)
+
+  def _forward(self, inputs, weightss):
+    with torch.autograd.set_detect_anomaly(True):
+      nodes = [inputs]
+      for i in range(1, self.max_nodes):
+        inter_nodes = []
+        for j in range(i):
+          node_str = '{:}<-{:}'.format(i, j)
+          weights  = weightss[ self.edge2index[node_str] ]
+          inter_nodes.append(sum(layer(nodes[j], block_input=True)*w if w==0 else layer(nodes[j]) * w for layer, w in zip(self.edges[node_str], weights)) )
+        nodes.append( sum(inter_nodes) )
+      return nodes[-1]
+
+  # GDAS
+  def forward_gdas(self, inputs, hardwts, index):
+    nodes   = [inputs]
+    for i in range(1, self.max_nodes):
+      inter_nodes = []
+      for j in range(i):
+        node_str = '{:}<-{:}'.format(i, j)
+        weights  = hardwts[ self.edge2index[node_str] ]
+        argmaxs  = index[ self.edge2index[node_str] ].item()
+        weigsum  = sum( weights[_ie] * edge(nodes[j]) if _ie == argmaxs else weights[_ie] for _ie, edge in enumerate(self.edges[node_str]) )
+        inter_nodes.append( weigsum )
+      nodes.append( sum(inter_nodes) )
+    return nodes[-1]
+
+  # joint
+  def forward_joint(self, inputs, weightss):
+    nodes = [inputs]
+    for i in range(1, self.max_nodes):
+      inter_nodes = []
+      for j in range(i):
+        node_str = '{:}<-{:}'.format(i, j)
+        weights  = weightss[ self.edge2index[node_str] ]
+        #aggregation = sum( layer(nodes[j]) * w for layer, w in zip(self.edges[node_str], weights) ) / weights.numel()
+        aggregation = sum( layer(nodes[j]) * w for layer, w in zip(self.edges[node_str], weights) )
+        inter_nodes.append( aggregation )
+      nodes.append( sum(inter_nodes) )
+    return nodes[-1]
+
+  # uniform random sampling per iteration, SETN
+  def forward_urs(self, inputs):
+    nodes = [inputs]
+    for i in range(1, self.max_nodes):
+      while True: # to avoid select zero for all ops
+        sops, has_non_zero = [], False
+        for j in range(i):
+          node_str   = '{:}<-{:}'.format(i, j)
+          candidates = self.edges[node_str]
+          select_op  = random.choice(candidates)
+          sops.append( select_op )
+          if not hasattr(select_op, 'is_zero') or select_op.is_zero is False: has_non_zero=True
+        if has_non_zero: break
+      inter_nodes = []
+      for j, select_op in enumerate(sops):
+        inter_nodes.append( select_op(nodes[j]) )
+      nodes.append( sum(inter_nodes) )
+    return nodes[-1]
+
+  # select the argmax
+  def forward_select(self, inputs, weightss):
+    nodes = [inputs]
+    for i in range(1, self.max_nodes):
+      inter_nodes = []
+      for j in range(i):
+        node_str = '{:}<-{:}'.format(i, j)
+        weights  = weightss[ self.edge2index[node_str] ]
+        inter_nodes.append( self.edges[node_str][ weights.argmax().item() ]( nodes[j] ) )
+        #inter_nodes.append( sum( layer(nodes[j]) * w for layer, w in zip(self.edges[node_str], weights) ) )
+      nodes.append( sum(inter_nodes) )
+    return nodes[-1]
+
+  # forward with a specific structure
+  def forward_dynamic(self, inputs, structure):
+    nodes = [inputs]
+    for i in range(1, self.max_nodes):
+      cur_op_node = structure.nodes[i-1]
+      inter_nodes = []
+      for op_name, j in cur_op_node:
+        node_str = '{:}<-{:}'.format(i, j)
+        op_index = self.op_names.index( op_name )
+        inter_nodes.append( self.edges[node_str][op_index]( nodes[j] ) )
+      nodes.append( sum(inter_nodes) )
+    return nodes[-1]
+
+
+def channel_shuffle(x, groups):
+  batchsize, num_channels, height, width = x.data.size()
+  channels_per_group = num_channels // groups
+  # reshape
+  x = x.view(batchsize, groups, 
+    channels_per_group, height, width)
+  x = torch.transpose(x, 1, 2).contiguous()
+  # flatten
+  x = x.view(batchsize, -1, height, width)
+  return x
+
+
+class NAS201SearchCell_PartialChannel(NAS201SearchCell):
+
+  def __init__(self, C_in, C_out, stride, max_nodes, op_names, affine=False, track_running_stats=True, k=4):
+    super(NAS201SearchCell, self).__init__()
+
+    self.k = k
+    self.op_names  = deepcopy(op_names)
+    self.edges     = nn.ModuleDict()
+    self.max_nodes = max_nodes
+    self.in_dim    = C_in
+    self.out_dim   = C_out
+    for i in range(1, max_nodes):
+      for j in range(i):
+        node_str = '{:}<-{:}'.format(i, j)
+        if j == 0:
+          xlists = [OPS[op_name](C_in//self.k , C_out//self.k, stride, affine, track_running_stats) for op_name in op_names]
+        else:
+          xlists = [OPS[op_name](C_in//self.k , C_out//self.k,      1, affine, track_running_stats) for op_name in op_names]
+        self.edges[ node_str ] = nn.ModuleList( xlists )
+    self.edge_keys  = sorted(list(self.edges.keys()))
+    self.edge2index = {key:i for i, key in enumerate(self.edge_keys)}
+    self.num_edges  = len(self.edges)
+  
+  def MixedOp(self, x, ops, weights):
+    dim_2 = x.shape[1]
+    xtemp = x[ : , :  dim_2//self.k, :, :]
+    xtemp2 = x[ : ,  dim_2//self.k:, :, :]
+    temp1 = sum(w * op(xtemp) for w, op in zip(weights, ops))
+    ans = torch.cat([temp1,xtemp2],dim=1)
+    ans = channel_shuffle(ans,self.k)
+    return ans
+  
+  def forward(self, inputs, weightss):
+    nodes = [inputs]
+    for i in range(1, self.max_nodes):
+      inter_nodes = []
+      for j in range(i):
+        node_str = '{:}<-{:}'.format(i, j)
+        weights  = weightss[ self.edge2index[node_str] ]
+        # inter_nodes.append( sum( layer(nodes[j]) * w for layer, w in zip(self.edges[node_str], weights) ) )
+        inter_nodes.append(self.MixedOp(x=nodes[j], ops=self.edges[node_str], weights=weights))
+      nodes.append( sum(inter_nodes) )
+    return nodes[-1]
+
--- a/nasbench201/search_model.py
+++ b/nasbench201/search_model.py
@@ -0,0 +1,202 @@
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from copy import deepcopy
+from .cell_operations import ResNetBasicblock
+from .search_cells     import NAS201SearchCell as SearchCell
+from .genotypes        import Structure
+from torch.autograd import Variable
+
+class TinyNetwork(nn.Module):
+
+  def __init__(self, C, N, max_nodes, num_classes, criterion, search_space, args, affine=False, track_running_stats=True, stem_channels=3):
+    super(TinyNetwork, self).__init__()
+    self._C        = C
+    self._layerN   = N
+    self.max_nodes = max_nodes
+    self._num_classes = num_classes
+    self._criterion = criterion
+    self._args = args
+    self._affine = affine
+    self._track_running_stats = track_running_stats
+    self.stem = nn.Sequential(
+                    nn.Conv2d(stem_channels, C, kernel_size=3, padding=1, bias=False),
+                    nn.BatchNorm2d(C))
+
+    layer_channels   = [C    ] * N + [C*2 ] + [C*2  ] * N + [C*4 ] + [C*4  ] * N    
+    layer_reductions = [False] * N + [True] + [False] * N + [True] + [False] * N
+
+    C_prev, num_edge, edge2index = C, None, None
+    self.cells = nn.ModuleList()
+    for index, (C_curr, reduction) in enumerate(zip(layer_channels, layer_reductions)):
+      if reduction:
+        cell = ResNetBasicblock(C_prev, C_curr, 2)
+      else:
+        cell = SearchCell(C_prev, C_curr, 1, max_nodes, search_space, affine, track_running_stats)
+        if num_edge is None: num_edge, edge2index = cell.num_edges, cell.edge2index
+        else: assert num_edge == cell.num_edges and edge2index == cell.edge2index, 'invalid {:} vs. {:}.'.format(num_edge, cell.num_edges)
+      self.cells.append( cell )
+      C_prev = cell.out_dim
+    self.num_edge   = num_edge
+    self.num_op     = len(search_space)
+    self.op_names   = deepcopy( search_space )
+    self._Layer     = len(self.cells)
+    self.edge2index = edge2index
+    self.lastact    = nn.Sequential(nn.BatchNorm2d(C_prev), nn.ReLU(inplace=True))
+    self.global_pooling = nn.AdaptiveAvgPool2d(1)
+    self.classifier = nn.Linear(C_prev, num_classes)
+    # self._arch_parameters = nn.Parameter( 1e-3*torch.randn(num_edge, len(search_space)) )
+    self._arch_parameters = Variable(1e-3*torch.randn(num_edge, len(search_space)).cuda(), requires_grad=True)
+
+    ## optimizer
+    ## 记录的是m在内存中的地址，以示区分
+    arch_params = set(id(m) for m in self.arch_parameters())
+    self._model_params = [m for m in self.parameters() if id(m) not in arch_params]
+
+    # 模型参数优化器
+    self.optimizer = torch.optim.SGD(
+        self._model_params,
+        args.learning_rate,
+        momentum=args.momentum,
+        weight_decay=args.weight_decay,
+        nesterov= args.nesterov)
+
+
+  def entropy_y_x(self, p_logit):
+    p = F.softmax(p_logit, dim=1)
+    return - torch.sum(p * F.log_softmax(p_logit, dim=1)) / p_logit.shape[0]
+
+  def _loss(self, input, target, return_logits=False):
+    logits = self(input)
+    loss = self._criterion(logits, target)
+    
+    return (loss, logits) if return_logits else loss
+
+  def get_weights(self):
+    xlist = list( self.stem.parameters() ) + list( self.cells.parameters() )
+    xlist+= list( self.lastact.parameters() ) + list( self.global_pooling.parameters() )
+    xlist+= list( self.classifier.parameters() )
+    return xlist
+
+  def arch_parameters(self):
+    return [self._arch_parameters]
+
+  def get_theta(self):
+    return nn.functional.softmax(self._arch_parameters, dim=-1).cpu()
+
+  def get_message(self):
+    string = self.extra_repr()
+    for i, cell in enumerate(self.cells):
+      string += '\n {:02d}/{:02d} :: {:}'.format(i, len(self.cells), cell.extra_repr())
+    return string
+
+  def extra_repr(self):
+    return ('{name}(C={_C}, Max-Nodes={max_nodes}, N={_layerN}, L={_Layer})'.format(name=self.__class__.__name__, **self.__dict__))
+
+  def genotype(self):
+    genotypes = []
+    for i in range(1, self.max_nodes):
+      xlist = []
+      for j in range(i):
+        node_str = '{:}<-{:}'.format(i, j)
+        with torch.no_grad():
+          weights = self._arch_parameters[ self.edge2index[node_str] ]
+          op_name = self.op_names[ weights.argmax().item() ]
+        xlist.append((op_name, j))
+      genotypes.append( tuple(xlist) )
+    return Structure( genotypes )
+
+  def forward(self, inputs, weights=None):
+    sim_nn = []
+
+    weights = nn.functional.softmax(self._arch_parameters, dim=-1) if weights is None else weights
+    
+    if self.slim:
+      weights[1].data.fill_(0)
+      weights[3].data.fill_(0)
+      weights[4].data.fill_(0)
+
+    feature = self.stem(inputs)
+    for i, cell in enumerate(self.cells):
+      if isinstance(cell, SearchCell):
+        feature = cell(feature, weights)
+      else:
+        feature = cell(feature)
+
+    out = self.lastact(feature)
+    out = self.global_pooling( out )
+    out = out.view(out.size(0), -1)
+    logits = self.classifier(out)
+
+    return logits
+
+  def _save_arch_parameters(self):
+    self._saved_arch_parameters = [p.clone() for p in self._arch_parameters]
+
+  def project_arch(self):
+    self._save_arch_parameters()
+    for p in self.arch_parameters():
+      m, n = p.size()
+      maxIndexs = p.data.cpu().numpy().argmax(axis=1)
+      p.data = self.proximal_step(p, maxIndexs)
+
+  def proximal_step(self, var, maxIndexs=None):
+    values = var.data.cpu().numpy()
+    m, n = values.shape
+    alphas = []
+    for i in range(m):
+      for j in range(n):
+        if j == maxIndexs[i]:
+          alphas.append(values[i][j].copy())
+          values[i][j] = 1
+        else:
+          values[i][j] = 0
+    return torch.Tensor(values).cuda()
+
+  def restore_arch_parameters(self):
+    for i, p in enumerate(self._arch_parameters):
+      p.data.copy_(self._saved_arch_parameters[i])
+    del self._saved_arch_parameters
+
+  def new(self):
+    model_new = TinyNetwork(self._C, self._layerN, self.max_nodes, self._num_classes, self._criterion,
+                            self.op_names, self._args, self._affine, self._track_running_stats).cuda()
+    for x, y in zip(model_new.arch_parameters(), self.arch_parameters()):
+      x.data.copy_(y.data)
+
+    return model_new
+
+  def step(self, input, target, args, shared=None, return_grad=False):
+    Lt, logit_t = self._loss(input, target, return_logits=True)
+    Lt.backward()
+    if args.grad_clip != 0: 
+      nn.utils.clip_grad_norm_(self.get_weights(), args.grad_clip)
+    self.optimizer.step()
+
+    if return_grad:
+      grad = torch.nn.utils.parameters_to_vector([p.grad for p in self.get_weights()])
+      return logit_t, Lt, grad
+    else:
+      return logit_t, Lt
+
+  def printing(self, logging):
+    logging.info(self.get_theta())
+  
+  def set_arch_parameters(self, new_alphas):
+    for alpha, new_alpha in zip(self.arch_parameters(), new_alphas):
+        alpha.data.copy_(new_alpha.data)
+
+  def save_arch_parameters(self):
+    self._saved_arch_parameters = self._arch_parameters.clone()
+  
+  def restore_arch_parameters(self):
+    self.set_arch_parameters(self._saved_arch_parameters)
+    
+  def reset_optimizer(self, lr, momentum, weight_decay):
+    del self.optimizer
+    self.optimizer = torch.optim.SGD(
+      self.get_weights(),
+      lr,
+      momentum=momentum,
+      weight_decay=weight_decay,
+      nesterov= args.nesterov)
--- a/nasbench201/search_model_darts.py
+++ b/nasbench201/search_model_darts.py
@@ -0,0 +1,33 @@
+import torch
+import torch.nn as nn
+from .search_cells import NAS201SearchCell as SearchCell
+from .search_model import TinyNetwork as TinyNetwork
+
+
+class TinyNetworkDarts(TinyNetwork):
+  def __init__(self, C, N, max_nodes, num_classes, criterion, search_space, args,
+               affine=False, track_running_stats=True, stem_channels=3):
+    super(TinyNetworkDarts, self).__init__(C, N, max_nodes, num_classes, criterion, search_space, args,
+          affine=affine, track_running_stats=track_running_stats, stem_channels=stem_channels)
+
+    self.theta_map = lambda x: torch.softmax(x, dim=-1)
+  
+  def get_theta(self):
+    return self.theta_map(self._arch_parameters).cpu()
+
+  def forward(self, inputs):
+    weights = self.theta_map(self._arch_parameters)
+    feature = self.stem(inputs)
+
+    for i, cell in enumerate(self.cells):
+      if isinstance(cell, SearchCell):
+        feature = cell(feature, weights)
+      else:
+        feature = cell(feature)
+
+    out = self.lastact(feature)
+    out = self.global_pooling( out )
+    out = out.view(out.size(0), -1)
+    logits = self.classifier(out)
+
+    return logits
--- a/nasbench201/search_model_darts_proj.py
+++ b/nasbench201/search_model_darts_proj.py
@@ -0,0 +1,80 @@
+import torch
+from .search_cells import NAS201SearchCell as SearchCell
+from .search_model import TinyNetwork as TinyNetwork
+from .genotypes        import Structure
+from torch.autograd import Variable
+
+class TinyNetworkDartsProj(TinyNetwork):
+  def __init__(self, C, N, max_nodes, num_classes, criterion, search_space, args,
+               affine=False, track_running_stats=True, stem_channels=3):
+    super(TinyNetworkDartsProj, self).__init__(C, N, max_nodes, num_classes, criterion, search_space, args,
+          affine=affine, track_running_stats=track_running_stats, stem_channels=stem_channels)
+    self.theta_map = lambda x: torch.softmax(x, dim=-1)
+
+    #### for edgewise projection
+    self.candidate_flags = torch.tensor(len(self._arch_parameters) * [True], requires_grad=False, dtype=torch.bool).cuda()
+    self.proj_weights = torch.zeros_like(self._arch_parameters)
+
+  def project_op(self, eid, opid):
+      self.proj_weights[eid][opid] = 1 ## hard by default
+      self.candidate_flags[eid] = False
+
+  def get_projected_weights(self):
+      weights = self.theta_map(self._arch_parameters)
+
+      ## proj op
+      for eid in range(len(self._arch_parameters)):
+        if not self.candidate_flags[eid]:
+          weights[eid].data.copy_(self.proj_weights[eid])
+
+      return weights
+
+  def forward(self, inputs, weights=None):
+    with torch.autograd.set_detect_anomaly(True):
+      if weights is None:
+        weights = self.get_projected_weights()
+
+      feature = self.stem(inputs)
+      for i, cell in enumerate(self.cells):
+        if isinstance(cell, SearchCell):
+          feature = cell(feature, weights)
+        else:
+          feature = cell(feature)
+
+      out = self.lastact(feature)
+      out = self.global_pooling( out )
+      out = out.view(out.size(0), -1)
+      logits = self.classifier(out)
+
+      return logits
+
+  #### utils
+  def get_theta(self):
+    return self.get_projected_weights()
+
+  def arch_parameters(self):
+    return [self._arch_parameters]
+
+  def set_arch_parameters(self, new_alphas):
+    for eid, alpha in enumerate(self.arch_parameters()):
+      alpha.data.copy_(new_alphas[eid])
+  
+  def reset_arch_parameters(self):
+    self._arch_parameters = Variable(1e-3*torch.randn(self.num_edge, len(self.op_names)).cuda(), requires_grad=True)
+    self.candidate_flags = torch.tensor(len(self._arch_parameters) * [True], requires_grad=False, dtype=torch.bool).cuda()
+    self.proj_weights = torch.zeros_like(self._arch_parameters)
+  
+  def genotype(self):
+    proj_weights = self.get_projected_weights()
+
+    genotypes = []
+    for i in range(1, self.max_nodes):
+      xlist = []
+      for j in range(i):
+        node_str = '{:}<-{:}'.format(i, j)
+        with torch.no_grad():
+          weights = proj_weights[ self.edge2index[node_str] ]
+          op_name = self.op_names[ weights.argmax().item() ]
+        xlist.append((op_name, j))
+      genotypes.append( tuple(xlist) )
+    return Structure( genotypes )
--- a/nasbench201/utils.py
+++ b/nasbench201/utils.py
@@ -0,0 +1,494 @@
+from __future__ import print_function
+
+import numpy as np
+import os
+import os.path
+import sys
+import shutil
+import torch
+import torchvision.transforms as transforms
+
+from PIL import Image
+from torch.autograd import Variable
+from torchvision.datasets import VisionDataset
+from torchvision.datasets import utils
+
+if sys.version_info[0] == 2:
+    import cPickle as pickle
+else:
+    import pickle
+
+
+class AvgrageMeter(object):
+
+    def __init__(self):
+        self.reset()
+
+    def reset(self):
+        self.avg = 0
+        self.sum = 0
+        self.cnt = 0
+
+    def update(self, val, n=1):
+        self.sum += val * n
+        self.cnt += n
+        self.avg = self.sum / self.cnt
+
+
+def accuracy(output, target, topk=(1,)):
+    maxk = max(topk)
+    batch_size = target.size(0)
+
+    _, pred = output.topk(maxk, 1, True, True)
+    pred = pred.t()
+    correct = pred.eq(target.view(1, -1).expand_as(pred))
+
+    res = []
+    for k in topk:        
+        correct_k = correct[:k].contiguous().view(-1).float().sum(0)
+        res.append(correct_k.mul_(100.0 / batch_size))
+    return res
+
+
+class Cutout(object):
+    def __init__(self, length, prob=1.0):
+        self.length = length
+        self.prob = prob
+
+    def __call__(self, img):
+        if np.random.binomial(1, self.prob):
+            h, w = img.size(1), img.size(2)
+            mask = np.ones((h, w), np.float32)
+            y = np.random.randint(h)
+            x = np.random.randint(w)
+
+            y1 = np.clip(y - self.length // 2, 0, h)
+            y2 = np.clip(y + self.length // 2, 0, h)
+            x1 = np.clip(x - self.length // 2, 0, w)
+            x2 = np.clip(x + self.length // 2, 0, w)
+
+            mask[y1: y2, x1: x2] = 0.
+            mask = torch.from_numpy(mask)
+            mask = mask.expand_as(img)
+            img *= mask
+        return img
+
+def _data_transforms_svhn(args):
+    SVHN_MEAN = [0.4377, 0.4438, 0.4728]
+    SVHN_STD = [0.1980, 0.2010, 0.1970]
+
+    train_transform = transforms.Compose([
+        transforms.RandomCrop(32, padding=4),
+        transforms.RandomHorizontalFlip(),
+        transforms.ToTensor(),
+        transforms.Normalize(SVHN_MEAN, SVHN_STD),
+    ])
+    if args.cutout:
+        train_transform.transforms.append(Cutout(args.cutout_length,
+                                          args.cutout_prob))
+
+    valid_transform = transforms.Compose([
+        transforms.ToTensor(),
+        transforms.Normalize(SVHN_MEAN, SVHN_STD),
+        ])
+    return train_transform, valid_transform
+
+
+def _data_transforms_cifar100(args):
+    CIFAR_MEAN = [0.5071, 0.4865, 0.4409]
+    CIFAR_STD = [0.2673, 0.2564, 0.2762]
+
+    train_transform = transforms.Compose([
+        transforms.RandomCrop(32, padding=4),
+        transforms.RandomHorizontalFlip(),
+        transforms.ToTensor(),
+        transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
+    ])
+    if args.cutout:
+        train_transform.transforms.append(Cutout(args.cutout_length,
+                                          args.cutout_prob))
+
+    valid_transform = transforms.Compose([
+        transforms.ToTensor(),
+        transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
+        ])
+    return train_transform, valid_transform
+
+
+def _data_transforms_cifar10(args):
+    CIFAR_MEAN = [0.49139968, 0.48215827, 0.44653124]
+    CIFAR_STD = [0.24703233, 0.24348505, 0.26158768]
+
+    train_transform = transforms.Compose([
+        transforms.RandomCrop(32, padding=4),
+        transforms.RandomHorizontalFlip(),
+        transforms.ToTensor(),
+        transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
+    ])
+    if args.cutout:
+        train_transform.transforms.append(Cutout(args.cutout_length,
+                                                 args.cutout_prob))
+
+    valid_transform = transforms.Compose([
+        transforms.ToTensor(),
+        transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
+    ])
+    return train_transform, valid_transform
+
+
+def count_parameters_in_MB(model):
+    return np.sum(np.prod(v.size()) for name, v in model.named_parameters() if "auxiliary" not in name) / 1e6
+
+
+def count_parameters_in_Compact(model):
+    from sota.cnn.model import Network as CompactModel
+    genotype = model.genotype()
+    compact_model = CompactModel(36, model._num_classes, 20, True, genotype)
+    num_params = count_parameters_in_MB(compact_model)
+    return num_params
+
+
+def save_checkpoint(state, is_best, save, per_epoch=False, prefix=''):
+    filename = prefix
+    if per_epoch:
+        epoch = state['epoch']
+        filename += 'checkpoint_{}.pth.tar'.format(epoch)
+    else:
+        filename += 'checkpoint.pth.tar'
+    filename = os.path.join(save, filename)
+    torch.save(state, filename)
+    if is_best:
+        best_filename = os.path.join(save, 'model_best.pth.tar')
+        shutil.copyfile(filename, best_filename)
+
+
+def load_checkpoint(model, optimizer, save, epoch=None):
+    if epoch is None:
+        filename = 'checkpoint.pth.tar'
+    else:
+        filename = 'checkpoint_{}.pth.tar'.format(epoch)
+    filename = os.path.join(save, filename)
+    start_epoch = 0
+    if os.path.isfile(filename):
+        print("=> loading checkpoint '{}'".format(filename))
+        checkpoint = torch.load(filename)
+        start_epoch = checkpoint['epoch']
+        best_acc_top1 = checkpoint['best_acc_top1']
+        model.load_state_dict(checkpoint['state_dict'])
+        optimizer.load_state_dict(checkpoint['optimizer'])
+        print("=> loaded checkpoint '{}' (epoch {})"
+              .format(filename, checkpoint['epoch']))
+    else:
+        print("=> no checkpoint found at '{}'".format(filename))
+    
+    return model, optimizer, start_epoch, best_acc_top1
+
+
+def save(model, model_path):
+    torch.save(model.state_dict(), model_path)
+
+
+def load(model, model_path):
+    model.load_state_dict(torch.load(model_path))
+
+
+def drop_path(x, drop_prob):
+    if drop_prob > 0.:
+        keep_prob = 1. - drop_prob
+        mask = Variable(torch.cuda.FloatTensor(x.size(0), 1, 1, 1).bernoulli_(keep_prob))
+        x.div_(keep_prob)
+        x.mul_(mask)
+    return x
+
+
+def create_exp_dir(path, scripts_to_save=None):
+    if not os.path.exists(path):
+        os.makedirs(path)
+    print('Experiment dir : {}'.format(path))
+
+    if scripts_to_save is not None:
+        os.mkdir(os.path.join(path, 'scripts'))
+        for script in scripts_to_save:
+            dst_file = os.path.join(path, 'scripts', os.path.basename(script))
+            shutil.copyfile(script, dst_file)
+
+
+class CIFAR10(VisionDataset):
+    """`CIFAR10 <https://www.cs.toronto.edu/~kriz/cifar.html>`_ Dataset.
+
+    Args:
+        root (string): Root directory of dataset where directory
+            ``cifar-10-batches-py`` exists or will be saved to if download is set to True.
+        train (bool, optional): If True, creates dataset from training set, otherwise
+            creates from test set.
+        transform (callable, optional): A function/transform that takes in an PIL image
+            and returns a transformed version. E.g, ``transforms.RandomCrop``
+        target_transform (callable, optional): A function/transform that takes in the
+            target and transforms it.
+        download (bool, optional): If true, downloads the dataset from the internet and
+            puts it in root directory. If dataset is already downloaded, it is not
+            downloaded again.
+
+    """
+    base_folder = 'cifar-10-batches-py'
+    url = "https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz"
+    filename = "cifar-10-python.tar.gz"
+    tgz_md5 = 'c58f30108f718f92721af3b95e74349a'
+    train_list = [
+        ['data_batch_1', 'c99cafc152244af753f735de768cd75f'],
+        ['data_batch_2', 'd4bba439e000b95fd0a9bffe97cbabec'],
+        ['data_batch_3', '54ebc095f3ab1f0389bbae665268c751'],
+        ['data_batch_4', '634d18415352ddfa80567beed471001a'],
+        #['data_batch_5', '482c414d41f54cd18b22e5b47cb7c3cb'],
+    ]
+
+    test_list = [
+        ['test_batch', '40351d587109b95175f43aff81a1287e'],
+    ]
+    meta = {
+        'filename': 'batches.meta',
+        'key': 'label_names',
+        'md5': '5ff9c542aee3614f3951f8cda6e48888',
+    }
+
+    def __init__(self, root, train=True, transform=None, target_transform=None,
+                 download=False):
+
+        super(CIFAR10, self).__init__(root, transform=transform,
+                                      target_transform=target_transform)
+
+        self.train = train  # training set or test set
+
+        if download:
+            self.download()
+
+        if not self._check_integrity():
+            raise RuntimeError('Dataset not found or corrupted.' +
+                               ' You can use download=True to download it')
+
+        if self.train:
+            downloaded_list = self.train_list
+        else:
+            downloaded_list = self.test_list
+
+        self.data = []
+        self.targets = []
+
+        # now load the picked numpy arrays
+        for file_name, checksum in downloaded_list:
+            file_path = os.path.join(self.root, self.base_folder, file_name)
+            with open(file_path, 'rb') as f:
+                if sys.version_info[0] == 2:
+                    entry = pickle.load(f)
+                else:
+                    entry = pickle.load(f, encoding='latin1')
+                self.data.append(entry['data'])
+                if 'labels' in entry:
+                    self.targets.extend(entry['labels'])
+                else:
+                    self.targets.extend(entry['fine_labels'])
+
+        self.data = np.vstack(self.data).reshape(-1, 3, 32, 32)
+        self.data = self.data.transpose((0, 2, 3, 1))  # convert to HWC
+
+        self._load_meta()
+
+    def _load_meta(self):
+        path = os.path.join(self.root, self.base_folder, self.meta['filename'])
+        if not utils.check_integrity(path, self.meta['md5']):
+            raise RuntimeError('Dataset metadata file not found or corrupted.' +
+                               ' You can use download=True to download it')
+        with open(path, 'rb') as infile:
+            if sys.version_info[0] == 2:
+                data = pickle.load(infile)
+            else:
+                data = pickle.load(infile, encoding='latin1')
+            self.classes = data[self.meta['key']]
+        self.class_to_idx = {_class: i for i, _class in enumerate(self.classes)}
+
+    def __getitem__(self, index):
+        """
+        Args:
+            index (int): Index
+
+        Returns:
+            tuple: (image, target) where target is index of the target class.
+        """
+        img, target = self.data[index], self.targets[index]
+
+        # doing this so that it is consistent with all other datasets
+        # to return a PIL Image
+        img = Image.fromarray(img)
+
+        if self.transform is not None:
+            img = self.transform(img)
+
+        if self.target_transform is not None:
+            target = self.target_transform(target)
+
+        return img, target
+
+    def __len__(self):
+        return len(self.data)
+
+    def _check_integrity(self):
+        root = self.root
+        for fentry in (self.train_list + self.test_list):
+            filename, md5 = fentry[0], fentry[1]
+            fpath = os.path.join(root, self.base_folder, filename)
+            if not utils.check_integrity(fpath, md5):
+                return False
+        return True
+
+    def download(self):
+        if self._check_integrity():
+            print('Files already downloaded and verified')
+            return
+        utils.download_and_extract_archive(self.url, self.root,
+                                           filename=self.filename,
+                                           md5=self.tgz_md5)
+
+    def extra_repr(self):
+        return "Split: {}".format("Train" if self.train is True else "Test")
+
+
+def pick_gpu_lowest_memory():
+    import gpustat
+    stats = gpustat.GPUStatCollection.new_query()
+    ids = map(lambda gpu: int(gpu.entry['index']), stats)
+    ratios = map(lambda gpu: float(gpu.memory_used)/float(gpu.memory_total), stats)
+    bestGPU = min(zip(ids, ratios), key=lambda x: x[1])[0]
+    return bestGPU
+
+
+#### early stopping (from RobustNAS)
+class EVLocalAvg(object):
+    def __init__(self, window=5, ev_freq=2, total_epochs=50):
+        """ Keep track of the eigenvalues local average.
+        Args:
+            window (int): number of elements used to compute local average.
+                Default: 5
+            ev_freq (int): frequency used to compute eigenvalues. Default:
+                every 2 epochs
+            total_epochs (int): total number of epochs that DARTS runs.
+                Default: 50
+        """
+        self.window = window
+        self.ev_freq = ev_freq
+        self.epochs = total_epochs
+
+        self.stop_search = False
+        self.stop_epoch = total_epochs - 1
+        self.stop_genotype = None
+        self.stop_numparam = 0
+
+        self.ev = []
+        self.ev_local_avg = []
+        self.genotypes = {}
+        self.numparams = {}
+        self.la_epochs = {}
+
+        # start and end index of the local average window
+        self.la_start_idx = 0
+        self.la_end_idx = self.window
+
+    def reset(self):
+        self.ev = []
+        self.ev_local_avg = []
+        self.genotypes = {}
+        self.numparams = {}
+        self.la_epochs = {}
+
+    def update(self, epoch, ev, genotype, numparam=0):
+        """ Method to update the local average list.
+
+        Args:
+            epoch (int): current epoch
+            ev (float): current dominant eigenvalue
+            genotype (namedtuple): current genotype
+
+        """
+        self.ev.append(ev)
+        self.genotypes.update({epoch: genotype})
+        self.numparams.update({epoch: numparam})
+        # set the stop_genotype to the current genotype in case the early stop
+        # procedure decides not to early stop
+        self.stop_genotype = genotype
+
+        # since the local average computation starts after the dominant
+        # eigenvalue in the first epoch is already computed we have to wait
+        # at least until we have 3 eigenvalues in the list.
+        if (len(self.ev) >= int(np.ceil(self.window/2))) and (epoch <
+                                                              self.epochs - 1):
+            # start sliding the window as soon as the number of eigenvalues in
+            # the list becomes equal to the window size
+            if len(self.ev) < self.window:
+                self.ev_local_avg.append(np.mean(self.ev))
+            else:
+                assert len(self.ev[self.la_start_idx: self.la_end_idx]) == self.window
+                self.ev_local_avg.append(np.mean(self.ev[self.la_start_idx:
+                                                         self.la_end_idx]))
+                self.la_start_idx += 1
+                self.la_end_idx += 1
+
+            # keep track of the offset between the current epoch and the epoch
+            # corresponding to the local average. NOTE: in the end the size of
+            # self.ev and self.ev_local_avg should be equal
+            self.la_epochs.update({epoch: int(epoch -
+                                              int(self.ev_freq*np.floor(self.window/2)))})
+
+        elif len(self.ev) < int(np.ceil(self.window/2)):
+          self.la_epochs.update({epoch: -1})
+
+        # since there is an offset between the current epoch and the local
+        # average epoch, loop in the last epoch to compute the local average of
+        # these number of elements: window, window - 1, window - 2, ..., ceil(window/2)
+        elif epoch == self.epochs - 1:
+            for i in range(int(np.ceil(self.window/2))):
+                assert len(self.ev[self.la_start_idx: self.la_end_idx]) == self.window - i
+                self.ev_local_avg.append(np.mean(self.ev[self.la_start_idx:
+                                                         self.la_end_idx + 1]))
+                self.la_start_idx += 1
+
+    def early_stop(self, epoch, factor=1.3, es_start_epoch=10, delta=4, criteria='local_avg'):
+        """ Early stopping criterion
+
+        Args:
+            epoch (int): current epoch
+            factor (float): threshold factor for the ration between the current
+                and prefious eigenvalue. Default: 1.3
+            es_start_epoch (int): until this epoch do not consider early
+                stopping. Default: 20
+            delta (int): factor influencing which previous local average we
+                consider for early stopping. Default: 2
+        """
+        if criteria == 'local_avg':
+            if int(self.la_epochs[epoch] - self.ev_freq*delta) >= es_start_epoch:
+                if criteria == 'local_avg':
+                    current_la = self.ev_local_avg[-1]
+                    previous_la = self.ev_local_avg[-1 - delta]
+                    self.stop_search = current_la / previous_la > factor
+                    if self.stop_search:
+                        self.stop_epoch = int(self.la_epochs[epoch] - self.ev_freq*delta)
+                        self.stop_genotype = self.genotypes[self.stop_epoch]
+                        self.stop_numparam = self.numparams[self.stop_epoch]
+        elif criteria == 'exact':
+            if epoch > es_start_epoch:
+                current_la = self.ev[-1]
+                previous_la = self.ev[-1 - delta]
+                self.stop_search = current_la / previous_la > factor
+                if self.stop_search:
+                    self.stop_epoch = epoch - delta
+                    self.stop_genotype = self.genotypes[self.stop_epoch]
+                    self.stop_numparam = self.numparams[self.stop_epoch]
+        else:
+            print('ERROR IN EARLY STOP: WRONG CRITERIA:', criteria); exit(0)
+
+
+def gen_comb(eids):
+    comb = []
+    for r in range(len(eids)):
+        for c in range(r + 1, len(eids)):
+            comb.append((eids[r], eids[c]))
+
+    return comb