这是Deep Learning Systems Lecture 2 - ML Refresher / Softmax Regression的学习笔记。 Three Ingredients of ML algorithm The hypothesis class也就是将输入映射到输出的程序流程。 Loss function用于衡量hypothesis…
本文内容来源于论文An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale。 本文前置:Transformer。 Vision Transformer所做的工作主要是将transformer架构引入到了计算机视觉领域(论文中是图像分类任务),给出了图像怎么转…
本文内容主要来源于Transformer原始论文、The Annotated Transformer和CMU Advanced NLP Fall 2024 (4): Attention and Transformers。 Model Architecture 大多数有竞争力的神经序列转换模型(Neural Sequence Transduction…