- 自然语言处理:基于预训练模型的方法
- 车万翔 郭江 崔一鸣
- 990字
- 2021-10-15 17:06:51
数学符号
数与数组
a 标量(整数或实数)
a 向量
A 矩阵
A 张量
In n行n列的单位阵
I 单位阵,维度根据上下文确定
vw 词w的分布式向量表示
ew 词w的独热向量表示:[0,···,1,0,···,0],w下标处元素为1
diag(a) 对角阵,对角线上元素为a
索引
ai 向量a中索引i处的元素
a−i 向量a中除索引i之外的元素
wi:j 序列w中第i个元素到第j个元素组成的片段或子序列
Ai,j 矩阵A中第i行、第j列处的元素
Ai,: 矩阵A第i行
A:,j 矩阵A第j列
Ai,j,k 三维张量A中索引为(i, j, k)处的元素
A:,:,i 三维张量A的一个二维切片
集合
A 集合
R 实数集合
{0,1} 含0和1的二值集合
{0,1,···,n} 含0到n所有整数的集合
[a, b] a到b的实数闭区间
(a, b] a到b的实数左开右闭区间
线性代数
A⊤ 矩阵A的转置
A⊙B 矩阵A与矩阵B的Hardamard乘积
det(A) 矩阵A的行列式
[x;y] 向量x与y的拼接
[U;V] 矩阵U 与V 沿行向量拼接
x·y或x⊤y 向量x与y的点积
微积分
y对x的导数
y对x的偏导数
∇xy y对向量x的梯度
∇Xy y对矩阵X的梯度
∇Xy y对张量X的梯度
概率与信息论
a⊥b 随机变量a与b独立
a⊥b|c 随机变量a与b关于c条件独立
P (a) 离散变量概率分布
p(a) 连续变量概率分布
a∼P 随机变量a服从分布P
或 f (x)在分布P (x)下的期望
Var(f(x)) f (x)在分布P (x)下的方差
Cov(f(x), g(x)) f (x)与g(x)在分布P (x)下的协方差
H (x) 随机变量x的信息熵
DKL(P∥Q) 概率分布P 与Q之间的KL散度
N (µ,Σ) 均值为µ、协方差为Σ的高斯分布
数据与概率分布
数据集
x(i) 数据集中的第i个样本(输入)
y(i)或y(i) 第i个样本x(i)的标签(输出)
函数
由定义域到值域的函数(映射)f
f ◦g f 与g的复合函数
f (x;θ) 由参数θ定义的关于x的函数(也可直接写作f (x),省略θ)
log x x的自然对数
σ(x) Sigmoid函数
∥x∥p x的Lp范数
∥x∥ x的L2范数
1condition 条件指示函数:如果condition为真,则值为1;否则值为0
以下给出本书中一些常用的写法
• 序列x= x1x2··· xn中第i个词xi的独热向量和词向量,词向量的维度是d。
• 词表的大小是。
• 时间或者空间复杂度。
• 向量v和w的余弦相似度为cos(v, w)。
• 当优化损失函数时,模型的参数定义为θ。
• 一个长度为n的序列x,经过总层数为L的预训练模型编码,最终得到隐含层向量(不强调层数时可略去上标[L]),其中第l层的隐含层表示,d表示隐含层维度。