Uma bem pequena implementação de um modelo de linguagem que usa a arquitetura Transformer, seguida da implementação de Andrej Karpathy neste vídeo
Anotações que fiz enquanto estava aprendendo sobre essa arquitetura. Fontes são dadas no fim do arquivo.
Esta seção trata da implementação do bloco de masked mult-head attention em Cuda, paralelizando a maioria das operações que são paralelizáveis. A implementação foi criada por mim, porém, seguindo os fundamentos de Cuda ensinados neste vídeo