这是Lecture 10 - Convolutional Networks,Lecture 14 - Implementing Convolutions的笔记。 Convolutions in detail 在DL中,卷积实际上就是指在原图 $z$ 上“滑动”一个卷积核 $w$,并进行逐元素乘法。如上图所示,即$$y = z * w$$ DL中的卷…
本文是Lecture 6 - Fully connected networks, optimization, initialization、Lecture 7 - Neural Network Abstractions、Lecture 8 - Neural Network Library Implementation、Lecture 9 - Nor…
这是Lecture 4 - Automatic Differentiation和Lecture 5 - Automatic Differentiation Implementation的学习笔记。 Computational Graph 计算图是一个DAG。 Forward evaluation trace $$\begin{aligned}v_1…
这是Lecture 3 (Part I) - "Manual" Neural Networks和Lecture 3 (Part II) - "Manual" Neural Networks的笔记。 The gradients of a two-layer network two-layer network 在实际场景下,linear hypothe…
这是Deep Learning Systems Lecture 2 - ML Refresher / Softmax Regression的学习笔记。 Three Ingredients of ML algorithm The hypothesis class也就是将输入映射到输出的程序流程。 Loss function用于衡量hypothesis…
本文内容来源于论文An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale。 本文前置:Transformer。 Vision Transformer所做的工作主要是将transformer架构引入到了计算机视觉领域(论文中是图像分类任务),给出了图像怎么转…
本文内容主要来源于Transformer原始论文、The Annotated Transformer和CMU Advanced NLP Fall 2024 (4): Attention and Transformers。 Model Architecture 大多数有竞争力的神经序列转换模型(Neural Sequence Transduction…