接上一篇
P14-P16
VAE
n 按苏剑林的说法: VAE 本质上就是在常规自编码器的基础上,对 encoder 的结果(对应计算均值的网络)加上了“高斯噪声”,使得结果 decoder 能够对噪声有鲁棒性; n 另一个 encoder (对应计算方差的网络)的作用是用来动态调节噪声的强度的。dVAE
用Gumbel-Softmax(Jang et al.,;Maddison et al.,)松弛法来训练模型参数。
n 首先要训练了一个 discrete variational autoencoder ( dVAE ) 。 n dVAE 的意思是“离散的 VAE ”,它和 VAE 的本质是一样的:都是把一幅图像通过一些操作得到隐变量,再把隐变量通过一个生成器重建原图。 n VAE 使用均值、方差拟合神经网络得到隐变量; 使用生成器重建原图 • dVAE 使用 Tokenizer 得到隐变量;使用 Decoder 重建原图。
BEiT
n BEIT 的目标是最小化计算预测的 token 与真实的 token 之间的差异。 n 上式的含义就是:对盖住的每个 patches , BEIT 的 Encoder 在这个位置的输出,通过线性分类器之后得到预测的 visual token 与真实 patches 对应的 visual token 越接近越好。未完,下一篇继续……