Original softmax 对于向量 $x\in\mathbb R^{N}$,函数 $y=\text{softmax}(x)$ 的公式定义为$$y_i=\frac{\exp(x_i)}{\sum_{j=1}^N \exp(x_j)}$$但在工程上,一般还要对softmax进行一步保证数值安全的操作:$$y_i=\frac{\exp(x_i-\…
这是Lecture 10 - Convolutional Networks,Lecture 14 - Implementing Convolutions的笔记。 Convolutions in detail 在DL中,卷积实际上就是指在原图 $z$ 上“滑动”一个卷积核 $w$,并进行逐元素乘法。如上图所示,即$$y = z * w$$ DL中的卷…
本文是Lecture 6 - Fully connected networks, optimization, initialization、Lecture 7 - Neural Network Abstractions、Lecture 8 - Neural Network Library Implementation、Lecture 9 - Nor…
这是Lecture 4 - Automatic Differentiation和Lecture 5 - Automatic Differentiation Implementation的学习笔记。 Computational Graph 计算图是一个DAG。 Forward evaluation trace $$\begin{aligned}v_1…
这是Lecture 3 (Part I) - "Manual" Neural Networks和Lecture 3 (Part II) - "Manual" Neural Networks的笔记。 The gradients of a two-layer network two-layer network 在实际场景下,linear hypothe…
这是Deep Learning Systems Lecture 2 - ML Refresher / Softmax Regression的学习笔记。 Three Ingredients of ML algorithm The hypothesis class也就是将输入映射到输出的程序流程。 Loss function用于衡量hypothesis…
本文参考 Codeforces edu线段树教程 ac-library lazy segtree 本文的代码实现基于递归式线段树,下标从 $1$ 开始,维护的区间是 $[l,r]$(左闭右闭);但是引用的codeforces教程默认区间是 $[l,r)$(左闭右开)。 区间修改+单点查询 区间加+单点查询 给定一个 n 个元素的数组 a,处理以下两…
本文内容来源于论文An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale。 本文前置:Transformer。 Vision Transformer所做的工作主要是将transformer架构引入到了计算机视觉领域(论文中是图像分类任务),给出了图像怎么转…
本文内容主要来源于Transformer原始论文、The Annotated Transformer和CMU Advanced NLP Fall 2024 (4): Attention and Transformers。 Model Architecture 大多数有竞争力的神经序列转换模型(Neural Sequence Transduction…
点值表示法 对于一个 $n-1$ 阶多项式 $P(x)=a_0+a_1x+a_2x^2+\cdots+a_{n-1}x^{n-1}$,如果我们已知一个点集 $S:\{(x_0,y_0),(x_1,y_1),\cdots,(x_{n-1},y_{n-1})\}$,点集 $S$ 中的所有点都满足 $y_i=P(x_i)$,且 $x_i(i=0,1,\c…