# !pip install torchvision==0.16.0

# !pip install gtn==0.0.0

! mkdir fonts
! curl -L https://drive.google.com/uc\?id\=\{12c-EkGHJlYA9dE7nXEEJkXxwmXarMSAk\} -o fonts/Anonymous.ttf

mkdir: fonts: File exists
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
100 60060  100 60060    0     0  37762      0  0:00:01  0:00:01 --:--:--  124k

from PIL import ImageDraw, ImageFont
import string
import random
import torch
from torch.optim import Adam
from tqdm.notebook import tqdm
import torchvision
from torchvision import transforms
from PIL import Image # PIL is a library to process images
from matplotlib import pyplot as plt
import gtn
torch.manual_seed(0)

simple_transforms = transforms.Compose([
                                    transforms.ToTensor(), 
                                ])

class SimpleWordsDataset(torch.utils.data.IterableDataset):

  def __init__(self, max_length, len=100, jitter=False, noise=False):
    self.max_length = max_length
    self.transforms = transforms.ToTensor()
    self.len = len
    self.jitter = jitter
    self.noise = noise
  
  def __len__(self):
    return self.len

  def __iter__(self):
    for _ in range(self.len):
        text = ''.join([random.choice(string.ascii_lowercase) for i in range(self.max_length)])
        img = self.draw_text(text, jitter=self.jitter, noise=self.noise)
        yield img, text
  
  def draw_text(self, text, length=None, jitter=False, noise=False):
    if length == None:
        length = 18 * len(text)
    img = Image.new('L', (length, 32))
    fnt = ImageFont.truetype("fonts/Anonymous.ttf", 20)

    d = ImageDraw.Draw(img)
    pos = (0, 5)
    if jitter:
        pos = (random.randint(0, 7), 5)
    else:
        pos = (0, 5)
    d.text(pos, text, fill=1, font=fnt)

    img = self.transforms(img)
    img[img > 0] = 1 
    
    if noise:
        img += torch.bernoulli(torch.ones_like(img) * 0.1)
        img = img.clamp(0, 1)
        

    return img[0]

sds = SimpleWordsDataset(1, jitter=True, noise=False)
img = next(iter(sds))[0]
plt.imshow(img)

<matplotlib.image.AxesImage at 0x1593c4ac0>

fig, ax = plt.subplots(3, 9, figsize=(12, 6), dpi=200)

for i, c in enumerate(string.ascii_lowercase):
    row = i // 9
    col = i % 9
    ax[row][col].imshow(sds.draw_text(c))
    ax[row][col].axis('off')
ax[2][8].axis('off')
    
plt.show()

alphabet = sds.draw_text(string.ascii_lowercase, 340)
plt.figure(dpi=200)
plt.imshow(alphabet)
plt.axis('off')

(-0.5, 339.5, 31.5, -0.5)

# constants for number of classes in total, and for the special extra character for empty space
ALPHABET_SIZE = 27
BETWEEN = 26

from torch import nn

class SimpleNet(torch.nn.Module):

    def __init__(self):
        super().__init__()
        # TODO
        self.conv=nn.Conv2d(1, 512, kernel_size=(32, 18), stride=(1, 4), padding="valid")
        self.linear=nn.Linear(512, 27)
        
    def forward(self, x):
        # TODO
        return self.linear(self.conv(x).squeeze(axis=-2).permute(0, 2, 1))

model = SimpleNet()
alphabet_energies = model(alphabet.view(1, 1, *alphabet.shape))

def plot_energies(ce):
    fig=plt.figure(dpi=200)
    ax = plt.axes()
    im = ax.imshow(ce.cpu().T)
    
    ax.set_xlabel('window locations →')
    ax.set_ylabel('← classes')
    ax.xaxis.set_label_position('top') 
    ax.set_xticks([])
    ax.set_yticks([])
    
    cax = fig.add_axes([ax.get_position().x1+0.01,ax.get_position().y0,0.02,ax.get_position().height])
    plt.colorbar(im, cax=cax) 
    
plot_energies(alphabet_energies[0].detach())

LR=1e-2
EPOCHS=15

def train_model(model, epochs, dataloader, criterion, optimizer):
    # TODO
    model.train()
    pbar=tqdm(range(epochs))
    for epoch in pbar:
        train_loss=0.0
        for images, target in dataloader:
            # images=images.unsqueeze(1).cuda()
            images=images.unsqueeze(1)
            # target=target.cuda()
            
            optimizer.zero_grad()
            
            out=model(images)
            loss=criterion(out.squeeze(), target=target)
            loss.backward()
            optimizer.step()
            train_loss+=loss.item()
        train_loss/=len(dataloader)
        pbar.set_postfix({'Train Loss': train_loss})

from tqdm.notebook import tqdm
import torch.optim as optim

def cross_entropy(energies, *args, **kwargs):
    """ We use energies, and therefore we need to use log soft arg min instead
        of log soft arg max. To do that we just multiply energies by -1. """
    return nn.functional.cross_entropy(-1 * energies, *args, **kwargs)

def simple_collate_fn(samples):
    images, annotations = zip(*samples)
    images = list(images)
    annotations = list(annotations)
    annotations = list(map(lambda c : torch.tensor(ord(c) - ord('a')), annotations))
    m_width = max(18, max([i.shape[1] for i in images]))
    for i in range(len(images)):
        images[i] = torch.nn.functional.pad(images[i], (0, m_width - images[i].shape[-1]))
        
    if len(images) == 1:
        return images[0].unsqueeze(0), torch.stack(annotations)
    else:
        return torch.stack(images), torch.stack(annotations)

sds = SimpleWordsDataset(1, len=1000, jitter=True, noise=False)
dataloader = torch.utils.data.DataLoader(sds, batch_size=16, num_workers=0, collate_fn=simple_collate_fn)

# model.cuda()
# TODO: initialize optimizer
optimizer=Adam(model.parameters(), lr=LR)
# TODO: train the model on the one-character dataset
train_model(model, EPOCHS, dataloader, cross_entropy, optimizer)

  0%|          | 0/15 [00:00<?, ?it/s]

def get_accuracy(model, dataset):
    cnt = 0
    for i, l in dataset:
        # energies = model(i.unsqueeze(0).unsqueeze(0).cuda())[0, 0]
        energies = model(i.unsqueeze(0).unsqueeze(0))[0, 0]
        x = energies.argmin(dim=-1)
        cnt += int(x == (ord(l[0]) - ord('a')))
    return cnt / len(dataset)
        
tds = SimpleWordsDataset(1, len=100)
assert get_accuracy(model, tds) == 1.0, 'Your model doesn\'t achieve 100% accuracy for 1 character'

# alphabet_energies_post_train = model(alphabet.cuda().view(1, 1, *alphabet.shape))
alphabet_energies_post_train = model(alphabet.view(1, 1, *alphabet.shape))
plot_energies(alphabet_energies_post_train[0].detach())

def build_path_matrix(energies, targets):
    # inputs: 
    #    energies, shape is BATCH_SIZE x L x 27
    #    targets, shape is BATCH_SIZE x T
    # L is \vert l \vert
    # T is \vert y \vert
    # 
    # outputs:
    #    a matrix of shape BATCH_SIZE x L x T
    #    where output[i, j, k] = energies[i, j, targets[i, k]]
    #
    # Note: you're not allowed to use for loops. The calculation has to be vectorized.
    # you may want to use repeat and repeat_interleave.
    # TODO
    batch_size=energies.shape[0]
    L=energies.shape[1]
    T=targets.shape[-1]
    targets=targets.unsqueeze(1).repeat(1, L, 1)
    # output=torch.gather(energies, 2, targets.cuda())
    output=torch.gather(energies, 2, targets)
    return output

def build_ce_matrix(energies, targets):
    # inputs: 
    #    energies, shape is BATCH_SIZE x L x 27
    #    targets, shape is BATCH_SIZE x T
    # L is \ververtt = targets.unsqueeze(1).repeat(1,energies.shape[1],1)t l \vert
    # T is \vert y \vert
    # 
    # outputs:
    #    a matrix ce of shape BATCH_SIZE x L x T
    #    where ce[i, j, k] = cross_entropy(energies[i, j], targets[i, k])
    #
    # Note: you're not allowed to use for loops. The calculation has to be vectorized.
    # you may want to use repeat and repeat_interleave.
    # TODO
    batch_size=energies.shape[0]
    L=energies.shape[1]
    T=targets.shape[-1]
    energies= energies.permute(0, 2, 1).unsqueeze(-1).repeat(1,1,1, T)
    targets = targets.unsqueeze(1).repeat(1, L, 1)
    return cross_entropy(energies, targets, reduction='none')

def transform_word(s):
    # input: a string
    # output: a tensor of shape 2*len(s)
    # TODO
    encoded_str=[]
    for c in s:
        encoded_str.append(ord(c)-ord('a'))
        encoded_str.append(26)
    return torch.tensor(encoded_str)

def plot_pm(pm, path=None):
    fig=plt.figure(dpi=200)
    ax = plt.axes()
    im = ax.imshow(pm.cpu().T)
    
    ax.set_xlabel('window locations →')
    ax.set_ylabel('← label characters')
    ax.xaxis.set_label_position('top') 
    ax.set_xticks([])
    ax.set_yticks([])
    
    if path is not None:
        for i in range(len(path) - 1):
            ax.plot(*path[i], *path[i+1], marker = 'o', markersize=0.5, linewidth=10, color='r', alpha=1)

    cax = fig.add_axes([ax.get_position().x1+0.01,ax.get_position().y0,0.02,ax.get_position().height])
    plt.colorbar(im, cax=cax) 

# energies = model(alphabet.cuda().view(1, 1, *alphabet.shape))
energies = model(alphabet.view(1, 1, *alphabet.shape))
targets = transform_word(string.ascii_lowercase).unsqueeze(0)


pm = build_path_matrix(energies, targets)
plot_pm(pm[0].detach())

def checkValidMapping(path, T):
    for i in range(1, len(path)):
        if path[i]<path[i-1]:
            return False
    return True

def path_energy(pm, path):
    # inputs:
    #   pm - a matrix of energies 
    #    L - energies length
    #    T - targets length
    #   path - list of length L that maps each energy vector to an element in T
    # returns:
    #   energy - sum of energies on the path, or 2**30 if the mapping is invalid
    # TODO
    T=pm.shape[1]
    if checkValidMapping(path, T):
        energy=0.0
        for i, c in enumerate(path):
            energy+=pm[i,c]
        return energy
    else:
        return torch.tensor(2**30)

path = torch.zeros(energies.shape[1] - 1)
path[:targets.shape[1] - 1] = 1
path = [0] + list(map(lambda x : x.int().item(), path[torch.randperm(path.shape[0])].cumsum(dim=-1)))
points = list(zip(range(energies.shape[1]), path))

plot_pm(pm[0].detach(), points)
print('energy is', path_energy(pm[0], path).item())

energy is -1444.7196044921875

# TODO
def getBadPath(pm, topk=1):
    path=[]
    for i in range(pm.shape[1]):
        path.append(torch.topk(pm.squeeze()[i], topk)[1][topk-1].item())
    return path

bad_path1 = getBadPath(pm)
bad_points1 = list(zip(range(energies.shape[1]), bad_path1))
plot_pm(pm[0].detach(), bad_points1)
print('energy is', path_energy(pm[0], bad_path1).item())

energy is 1073741824

bad_path2 = getBadPath(pm,2)
bad_points2 = list(zip(range(energies.shape[1]), bad_path2))
plot_pm(pm[0].detach(), bad_points2)
print('energy is', path_energy(pm[0], bad_path2).item())

energy is 1073741824

def find_path(pm):
    # inputs:
    #   pm - a tensor of shape LxT with energies
    #     L is length of energies array
    #     T is target sequence length
    # NOTE: this is slow because it's not vectorized to work with batches.
    #  output:
    #     a tuple of three elements:
    #         1. sum of energies on the best path,
    #         2. list of tuples - points of the best path in the pm matrix 
    #         3. the dp array

    # TODO
    L=pm.shape[0]
    T=pm.shape[1]
    dp=torch.tensor([[0.0]*T for _ in range(L)], device=pm.device)
    direction_array=[[None]*T for _ in range(L)]
    dp[0][0]=pm[0][0]
    direction_array[0][0]=(0,0)
    
    for j in range(1, T):
        dp[0][j]=2**30
        direction_array[0][j]=(0,j)
        
    for i in range(1, L):
        dp[i][0] = dp[i-1][0] + pm[i][0]
        direction_array[i][0]=(i-1,0)
        
    for i in range(1, L):
        for j in range(1, T):
            dp[i][j] = min(dp[i-1][j], dp[i-1][j-1]) + pm[i][j]
            if dp[i-1][j] < dp[i-1][j-1]:
                direction_array[i][j]=(i-1, j)
            else:
                direction_array[i][j]=(i-1, j-1)
    

    path=[]
    j=dp[L-1].min(-1)[1].item()
    for i in range(L-1, -1, -1):
        path.append(j)
        direction = direction_array[i][j]
        j=direction[1]
    
    path.reverse()
        
    points = list(zip(range(pm.shape[0]), path))
    return tuple([path_energy(pm, path), points, dp])

free_energy, path, d = find_path(pm[0])
plot_pm(pm[0].cpu().detach(), path)
print('free energy is', free_energy.item())

free energy is -10255.6416015625

plt.figure(dpi=200)
# print(d)
plt.imshow(d.cpu().detach().T.clamp(torch.min(d).item(), 200))
plt.axis('off')

(-0.5, 80.5, 51.5, -0.5)

def train_ebm_model(model, num_epochs, train_loader, criterion, optimizer):
    ''' Train EBM Model using find_path()'''
    pbar = tqdm(range(num_epochs))
    size = 0
    free_energies = []
    paths = []
    model.train()
    for epoch in pbar:
        total_train_loss = 0.0
        start_time = time.time()
        # TODO: implement the training loop
        for samples, targets in train_loader:
            optimizer.zero_grad()
            
            # samples=samples.cuda()
            # targets=targets.cuda()
            energies=model(samples.unsqueeze(1))
            pm=build_path_matrix(energies, targets)
            batch_loss=[]
            for b_index in range(pm.shape[0]):
                free_energy, best_path, _ = find_path(pm[b_index])
                target_indices=[ind[1] for ind in best_path]
                batch_loss.append(criterion(energies[b_index], targets[b_index, target_indices]))
            
            loss=sum(batch_loss)
            total_train_loss+=loss.item()
            loss.backward()
            optimizer.step()

        epoch_time = time.time() - start_time
        pbar.set_postfix({'train_loss': total_train_loss / len(sds), 'Epoch Time': epoch_time})

    return

LR=1e-3
EPOCHS=15

import copy
import time

def collate_fn(samples):
    """ A function to collate samples into batches for multi-character case"""
    images, annotations = zip(*samples)
    images = list(images)
    annotations = list(annotations)
    annotations = list(map(transform_word, annotations))
    m_width = max(18, max([i.shape[1] for i in images]))
    m_length = max(3, max([s.shape[0] for s in annotations]))
    for i in range(len(images)):
        images[i] = torch.nn.functional.pad(images[i], (0, m_width - images[i].shape[-1]))
        annotations[i] = torch.nn.functional.pad(annotations[i], (0, m_length - annotations[i].shape[0]), value=BETWEEN)
    if len(images) == 1:
        return images[0].unsqueeze(0), torch.stack(annotations)
    else:
        return torch.stack(images), torch.stack(annotations)
    
sds = SimpleWordsDataset(2, 2500) # for simplicity, we're training only on words of length two

BATCH_SIZE = 32
dataloader = torch.utils.data.DataLoader(sds, batch_size=BATCH_SIZE, num_workers=0, collate_fn=collate_fn)

# TODO: Make a copy of your model and re-initialize optimizer

# TODO: train the model using the train_ebm_model()
# note: remember that our best path finding algorithm is not batched, so you'll
# need a for loop to do loss calculation. 
# This is not ideal, as for loops are very slow, but for 
# demonstration purposes it will suffice. In practice, this will be
# unusable for any real problem unless it handles batching.
# also: remember that the loss is the sum of cross_entropies along the path, not 
# energies!
ebm_model=copy.deepcopy(model)
# ebm_model.cuda()
ebm_model.train()
optimizer=Adam(ebm_model.parameters(), lr=LR)
train_ebm_model(ebm_model, EPOCHS, dataloader, cross_entropy, optimizer)

  0%|          | 0/15 [00:00<?, ?it/s]

# energies = ebm_model(alphabet.unsqueeze(0).unsqueeze(0).cuda())
energies = ebm_model(alphabet.unsqueeze(0).unsqueeze(0))
targets = transform_word(string.ascii_lowercase)
pm = build_path_matrix(energies, targets.unsqueeze(0))

free_energy, path, _ = find_path(pm[0])
plot_pm(pm[0].detach(), path)
print('free energy is', free_energy.item())

free energy is -13971.6572265625

# alphabet_energy_post_train_viterbi = ebm_model(alphabet.cuda().view(1, 1, *alphabet.shape))
alphabet_energy_post_train_viterbi = ebm_model(alphabet.view(1, 1, *alphabet.shape))


plt.figure(dpi=200, figsize=(40, 10))
plt.imshow(alphabet_energy_post_train_viterbi.cpu().data[0].T)
plt.axis('off')

(-0.5, 80.5, 26.5, -0.5)

img = sds.draw_text('hello')
# energies = ebm_model(img.cuda().unsqueeze(0).unsqueeze(0))
energies = ebm_model(img.unsqueeze(0).unsqueeze(0))
plt.imshow(img)
plot_energies(energies[0].detach().cpu())

from collections import Counter

def indices_to_str(indices):
    # inputs: indices - a tensor of most likely class indices
    # outputs: decoded string
    
    # TODO
    out_str=[]
    for ind in indices:
        if ind==26:
            out_str.append("_")
        else:
            out_str.append(chr(ind+ord('a')))
    seperated_words="".join(out_str).split("_")
    filtered_chars=[Counter(s).most_common(1)[0][0] for s in seperated_words if s]
    return "_".join(filtered_chars)
    
min_indices = energies[0].argmin(dim=-1)
print(indices_to_str(min_indices))

h_e_l_o_i

# Credits: Adapted from https://github.com/facebookresearch/gtn_applications
import torch.nn.functional as F
import torch.nn as nn

class CTCLossFunction(torch.autograd.Function):
    @staticmethod
    def create_ctc_graph(target, blank_idx):
        g_criterion = gtn.Graph(False)
        L = len(target)
        S = 2 * L + 1
        for l in range(S):
            idx = (l - 1) // 2
            g_criterion.add_node(l == 0, l == S - 1 or l == S - 2)
            label = target[idx] if l % 2 else blank_idx
            g_criterion.add_arc(l, l, label)
            if l > 0:
                g_criterion.add_arc(l - 1, l, label)
            if l % 2 and l > 1 and label != target[idx - 1]:
                g_criterion.add_arc(l - 2, l, label)
        g_criterion.arc_sort(False)
        return g_criterion

    @staticmethod
    def forward(ctx, log_probs, targets, blank_idx=0, reduction="none"):
        B, T, C = log_probs.shape
        losses = [None] * B
        scales = [None] * B
        emissions_graphs = [None] * B

        def process(b):
            # create emission graph
            g_emissions = gtn.linear_graph(T, C, log_probs.requires_grad)
            cpu_data = log_probs[b].cpu().contiguous()
            g_emissions.set_weights(cpu_data.data_ptr())

            # create criterion graph
            g_criterion = CTCLossFunction.create_ctc_graph(targets[b], blank_idx)
            # compose the graphs
            g_loss = gtn.negate(
                gtn.forward_score(gtn.intersect(g_emissions, g_criterion))
            )

            scale = 1.0
            if reduction == "mean":
                L = len(targets[b])
                scale = 1.0 / L if L > 0 else scale
            elif reduction != "none":
                raise ValueError("invalid value for reduction '" + str(reduction) + "'")

            # Save for backward:
            losses[b] = g_loss
            scales[b] = scale
            emissions_graphs[b] = g_emissions

        gtn.parallel_for(process, range(B))

        ctx.auxiliary_data = (losses, scales, emissions_graphs, log_probs.shape)
        loss = torch.tensor([losses[b].item() * scales[b] for b in range(B)])
        return torch.mean(loss.cuda() if log_probs.is_cuda else loss)

    @staticmethod
    def backward(ctx, grad_output):
        losses, scales, emissions_graphs, in_shape = ctx.auxiliary_data
        B, T, C = in_shape
        input_grad = torch.empty((B, T, C))

        def process(b):
            gtn.backward(losses[b], False)
            emissions = emissions_graphs[b]
            grad = emissions.grad().weights_to_numpy()
            input_grad[b] = torch.from_numpy(grad).view(1, T, C) * scales[b]

        gtn.parallel_for(process, range(B))

        if grad_output.is_cuda:
            input_grad = input_grad.cuda()
        input_grad *= grad_output / B

        return (
            input_grad,
            None,  # targets
            None,  # blank_idx
            None,  # reduction
        )
    
def viterbi(energies, targets, blank_idx=0):
    outputs = -1 * energies
    B, T, C = outputs.shape
    paths = [None] * B
    scores = [None] * B
    emissions_graphs = [None] * B
    def process(b):
        L = len(targets[b])
        # create emission graph
        g_emissions = gtn.linear_graph(T, C, outputs.requires_grad)
        cpu_data = outputs[b].cpu().contiguous()
        g_emissions.set_weights(cpu_data.data_ptr())

        # create criterion graph
        g_criterion = CTCLossFunction.create_ctc_graph(targets[b], blank_idx)
        g_score = gtn.viterbi_score(gtn.intersect(g_emissions, g_criterion))
        g_path = gtn.viterbi_path(gtn.intersect(g_emissions, g_criterion))
        paths[b] = [2*p if 2*p < L else i for i, p in enumerate(g_path.labels_to_list())]
        l = 0
        paths[b] = []
        for p in g_path.labels_to_list():
            if 2*p < L:
                l = p
                paths[b].append(2*p)
            else:
                paths[b].append(2*l + 1)
        scores[b] = -1 * g_score.item()
        emissions_graphs[b] = g_emissions

    gtn.parallel_for(process, range(B))

    return (scores, paths)

CTCLoss = CTCLossFunction.apply

def train_gtn_model(model, num_epochs, train_loader, criterion, optimizer):
    ''' Train CTC Model using GTN'''
    pbar = tqdm(range(num_epochs))
    train_losses = []
    size = 0
    free_energies = []
    paths = []
    max_grad_norm = None
    if torch.cuda.is_available():
        model = model.cuda()
        device = torch.device("cuda:0")
    else:
        device = torch.device("cpu")
    for epoch in pbar:
        total_train_loss = 0.0
        start_time = time.time()
        # TODO: implement the training loop
        for samples, targets in train_loader:
            optimizer.zero_grad()
            samples=samples.to(device)
            targets=targets.to(device)
            
            outputs = model(samples.unsqueeze(1))

            log_probs = F.log_softmax(-1.0*outputs, dim=-1)
            loss=criterion(log_probs, targets)
            total_train_loss+=loss.item()
            loss.backward()
            optimizer.step()
        epoch_time = time.time() - start_time
        train_losses.append(total_train_loss)
        pbar.set_postfix({'train_loss': total_train_loss/len(sds), 'Epoch Time': epoch_time})

    return

LR=1e-3
EPOCHS=15

# Similar to what we have done earlier but instead of find_path(), we will use
# GTN's framework.
sds = SimpleWordsDataset(3, 2500) # for simplicity, we're training only on words of length two

BATCH_SIZE = 32
dataloader = torch.utils.data.DataLoader(sds, batch_size=BATCH_SIZE, num_workers=0, collate_fn=collate_fn)

# TODO: Make another copy of the single character model and re-initialize optimizer
gtn_model=copy.deepcopy(model)
optimizer=Adam(gtn_model.parameters(), lr=LR)
# TODO: train the model
# note: remember that our best path finding algorithm is not batched, so you'll
# need a for loop to do loss calculation. 
# This is not ideal, as for loops are very slow, but for 
# demonstration purposes it will suffice. In practice, this will be
# unusable for any real problem unless it handles batching.

# also: remember that the loss is the sum of cross_entropies along the path, not 
# energies!
# gtn_model.cuda()
gtn_model.train()
train_gtn_model(gtn_model, EPOCHS, dataloader, CTCLoss, optimizer)

  0%|          | 0/15 [00:00<?, ?it/s]

# energies = gtn_model(alphabet.unsqueeze(0).unsqueeze(0).cuda())
energies = gtn_model(alphabet.unsqueeze(0).unsqueeze(0))
targets = transform_word(string.ascii_lowercase)
pm = build_path_matrix(energies, targets.unsqueeze(0))

# TODO: Use the provided viterbi function to get score and path
# print(targets.shape, energies.shape)
score, path = viterbi(energies, targets.unsqueeze(0))
# print(path)
# path is obtained from the above TODO
points = list(zip(range(energies.shape[1]), path[0]))
plot_pm(pm[0].cpu().detach(), points)
print('energy is', score[0])

energy is -13924.0771484375

img = sds.draw_text('hello')
# energies = gtn_model(img.cuda().unsqueeze(0).unsqueeze(0))
energies = gtn_model(img.unsqueeze(0).unsqueeze(0))
plt.imshow(img)
plot_energies(energies[0].detach().cpu())

min_indices = energies[0].argmin(dim=-1)
print(indices_to_str(min_indices))

h_e_l_o_a

# TODO
# Training the model on Anonymous data without pretraining
LR=1e-3
EPOCHS=20
sds = SimpleWordsDataset(3, 2500)
BATCH_SIZE = 32
dataloader = torch.utils.data.DataLoader(sds, batch_size=BATCH_SIZE, num_workers=0, collate_fn=collate_fn)

gtn_no_pretrained_model=SimpleNet()
optimizer=Adam(gtn_no_pretrained_model.parameters(), lr=LR)
# gtn_no_pretrained_model.cuda()
gtn_no_pretrained_model.train()
train_gtn_model(gtn_no_pretrained_model, EPOCHS, dataloader, CTCLoss, optimizer)

  0%|          | 0/20 [00:00<?, ?it/s]

# energies = gtn_no_pretrained_model(alphabet.unsqueeze(0).unsqueeze(0).cuda())
energies = gtn_no_pretrained_model(alphabet.unsqueeze(0).unsqueeze(0))
targets = transform_word(string.ascii_lowercase)
pm = build_path_matrix(energies, targets.unsqueeze(0))

score, path = viterbi(energies, targets.unsqueeze(0))

points = list(zip(range(energies.shape[1]), path[0]))
plot_pm(pm[0].cpu().detach(), points)
print('energy is', score[0])

energy is -1631.3629150390625

img = sds.draw_text('hello')
# energies = gtn_no_pretrained_model(img.cuda().unsqueeze(0).unsqueeze(0))
energies = gtn_no_pretrained_model(img.unsqueeze(0).unsqueeze(0))
plt.imshow(img)
plot_energies(energies[0].detach().cpu())

min_indices = energies[0].argmin(dim=-1)
print(indices_to_str(min_indices))

h_e_l_d_r

#TODO
# Downloading custom data
! curl --output fonts/customFont.zip https://www.fontsquirrel.com/fonts/download/3dumb
! unzip -n fonts/customFont.zip -d fonts/3dumb

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  230k  100  230k    0     0   387k      0 --:--:-- --:--:-- --:--:--  387k
Archive:  fonts/customFont.zip

class CustomWordsDataset(torch.utils.data.IterableDataset):

  def __init__(self, max_length, len=100, jitter=False, noise=False, custom_fonts_path=None):
    self.max_length = max_length
    self.transforms = transforms.ToTensor()
    self.len = len
    self.jitter = jitter
    self.noise = noise
    self.custom_fonts_path=custom_fonts_path
  
  def __len__(self):
    return self.len

  def __iter__(self):
    for _ in range(self.len):
        text = ''.join([random.choice(string.ascii_lowercase) for i in range(self.max_length)])
        img = self.draw_text(text, jitter=self.jitter, noise=self.noise)
        yield img, text
  
  def draw_text(self, text, length=None, jitter=False, noise=False):
    if length == None:
        length = 18 * len(text)
    img = Image.new('L', (length, 32))
    fnt = ImageFont.truetype("fonts/Anonymous.ttf" if not self.custom_fonts_path else self.custom_fonts_path, 20)

    d = ImageDraw.Draw(img)
    pos = (0, 5)
    if jitter:
        pos = (random.randint(0, 7), 5)
    else:
        pos = (0, 5)
    d.text(pos, text, fill=1, font=fnt)

    img = self.transforms(img)
    img[img > 0] = 1 
    
    if noise:
        img += torch.bernoulli(torch.ones_like(img) * 0.1)
        img = img.clamp(0, 1)
        

    return img[0]

# Training model on Custom Handwritten Data from scratch
LR=1e-3
EPOCHS=20
sds = CustomWordsDataset(3, 2500, custom_fonts_path="./fonts/3dumb/2Dumb.ttf")
BATCH_SIZE = 32
dataloader = torch.utils.data.DataLoader(sds, batch_size=BATCH_SIZE, num_workers=0, collate_fn=collate_fn)

gtn_no_pretrained_model=SimpleNet()
optimizer=Adam(gtn_no_pretrained_model.parameters(), lr=LR)
# gtn_no_pretrained_model.cuda()
gtn_no_pretrained_model.train()
train_gtn_model(gtn_no_pretrained_model, EPOCHS, dataloader, CTCLoss, optimizer)

  0%|          | 0/20 [00:00<?, ?it/s]

# energies = gtn_no_pretrained_model(alphabet.unsqueeze(0).unsqueeze(0).cuda())
energies = gtn_no_pretrained_model(alphabet.unsqueeze(0).unsqueeze(0))
targets = transform_word(string.ascii_lowercase)
pm = build_path_matrix(energies, targets.unsqueeze(0))

score, path = viterbi(energies, targets.unsqueeze(0))

points = list(zip(range(energies.shape[1]), path[0]))
plot_pm(pm[0].cpu().detach(), points)
print('energy is', score[0])

energy is -648.4822998046875

img = sds.draw_text('hello')
# energies = gtn_no_pretrained_model(img.cuda().unsqueeze(0).unsqueeze(0))
energies = gtn_no_pretrained_model(img.unsqueeze(0).unsqueeze(0))
plt.imshow(img)
plot_energies(energies[0].detach().cpu())

min_indices = energies[0].argmin(dim=-1)
print(indices_to_str(min_indices))

h_e_l_o

#TODO
# Some visualizations and predictions of the model on custome dataset
img = sds.draw_text('energy based models')
# energies = gtn_no_pretrained_model(img.cuda().unsqueeze(0).unsqueeze(0))
energies = gtn_no_pretrained_model(img.unsqueeze(0).unsqueeze(0))
plt.imshow(img)
min_indices = energies[0].argmin(dim=-1)
print(indices_to_str(min_indices))

e_n_e_r_g_y_b_a_s_e_d_m_o_d_e_l_s

img = sds.draw_text('diffusion modeling')
# energies = gtn_no_pretrained_model(img.cuda().unsqueeze(0).unsqueeze(0))
energies = gtn_no_pretrained_model(img.unsqueeze(0).unsqueeze(0))
plt.imshow(img)
min_indices = energies[0].argmin(dim=-1)
print(indices_to_str(min_indices))

d_i_f_f_u_s_i_o_n_m_m_o_d_e_l_n_g

img = sds.draw_text('transformers')
# energies = gtn_no_pretrained_model(img.cuda().unsqueeze(0).unsqueeze(0))
energies = gtn_no_pretrained_model(img.unsqueeze(0).unsqueeze(0))
plt.imshow(img)
min_indices = energies[0].argmin(dim=-1)
print(indices_to_str(min_indices))

t_r_a_n_s_f_o_r_m_e_r_s

# End

Energy-Based models and structured prediction¶

Resources¶

Dataset¶

Model definition¶

Train with one character¶

Training with multiple characters¶

Part - 1: Viterbi¶

Optimal path finding¶

Training loop¶

Decoding¶

Part - 2: GTN¶

CTC Loss Function¶

Brief Explanation:¶

Part - 3: Train Model with no pretraining¶