生成式对抗网络GAN

xiahuijuan
1 ℃
2020-03-05

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

非监督学习：训练集没有标注，学习的结果是数据的隐含规律，表现形式可以使数据按相似性分组、数据的分布、数据分量间的关联规则，最主要的是探讨非监督学习中的聚类问题。GAN是IanGoodfellow在2014年的经典之作，在许多地方作为非监督深度学习的代表作给予推广。GAN解决了非监督学习中的著名问题：给定一批样本，训练一个系统，能够生成(generate)类似的新样本。直白的想法是，根据训练集估计样本分布p(x)。之后对p(x)进行采样，可以生成“和训练集类似”的新样本。对于低维样本，可以使用简单的，只有少量参数的概率模型（例如高斯）拟合p(x)，但高维样本（例如图像）就不好办了。RBM(RestrictedBoltzmannMachine)：构造一个无向图，图的能量和节点取值的概率有指数关系。利用训练集设定图中节点和边的系数，用来表述样本中单个元素和相连元素的关系。DBN(DeepBeliefNetworks)：用单个RBM和若干有向层构成网络。计算复杂对抗网络：使用两个网络互相竞争，称之为对抗式(adversarial)结构随机向量随机取样生成器G：通过一个参数化概率生成模型(通常用深度神经网络进行参数化)进行概率分布的逆变换采样，得到一个生成的概率分布。判别器D：给定样本，判断(通常也是深度卷积神经网络)这个样本来自真实数据还是伪造数据。这个Loss其实就是交叉熵。对于判别器D，它的任务是最小化-L(G,D)，即如果采用零和博弈，生成器G的目标是最小化L(G,D)，而实际操作发现零和博弈训练效果并不好，G的目标一般采用最小化或一般来说，更新D是，G是固定的；更新G时，D是固定的。在原始GAN的（近似）最优判别器下，第一种生成器loss面临梯度消失问题，第二种生成器loss面临优化目标荒谬、梯度不稳定、对多样性与准确性惩罚不平衡导致缺乏多样性的问题。原始GAN问题的根源可以归结为两点，一是等价优化的距离衡量（JS散度、KL散度）不合理，二是生成器随机初始化后的生成分布很难与真实分布有不可忽略的重叠。衡量两个分部的相似程度衡量两个分部的相似程度2015年的DCGAN把类似的理念应用到人脸图像上。通过对编码（输入的随机向量）进行代数运算，控制生成人脸图像的属性。TSWasserstein距离又叫Earth-Mover（EM）距离，定义如下：Ⅱ(Pr,Pg)是Pr和Pg组合起来的所有可能的联合分布的集合，反过来说，Ⅱ(Pr,Pg)中每一个分布的边缘分布都是Pr和Pg。对于每一个可能的联合分布γ而言，可以从中采样得到一个真实样本x和一个生成样本y，并算出这对样本的距离||x-y||，所以可以计算该联合分布γ下样本对距离的期望值。在所有可能的联合分布中能够对这个期望值取到的下界，就定义为Wasserstein距离。直观上可以把理解为在γ这个“路径规划”下把Pr这堆“沙土”挪到Pg“位置”所需的“消耗”，而W(Pr,Pg)就是“最优路径规划”下的“最小消耗”，所以才叫Earth-Mover（推土机）距离。Wasserstein距离相比KL散度、JS散度的优越性在于，即便两个分布没有重叠，Wasserstein距离仍然能够反映它们的远近。Wasserstein距离定义中的没法直接求解，用了一个已有的定理把它变换为如下形式：Lipschitz连续：对于连续函数f，存在常数K大于等于0，使得：对于定义域内任意x1，x2满足：把f用一个带参数w的神经网络来表示，并对w进行限制，此时所有偏导数也不会超过某个范围使得fLipschitz连续。构造一个含参数w、最后一层不是非线性激活层的判别器网络，在限制w不超过某个范围的条件下，使得尽可能取到最大，此时L就会近似真实分布与生成分布之间的Wasserstein距离（忽略常数倍数K）原始GAN的判别器做的是真假二分类任务，所以最后一层是sigmoid，但是现在WGAN中的判别器做的是近似拟合Wasserstein距离，属于回归任务，所以要把最后一层的sigmoid拿掉生成器要近似地最小化Wasserstein距离，可以最小化L，由于Wasserstein距离的优良性质，我们不需要担心生成器梯度消失的问题。再考虑到L的第一项与生成器无关，就得到了WGAN的两个loss生成器损失函数：判别器损失函数：可以指示训练进程，其数值越小，表示真实分布与生成分布的Wasserstein距离越小，GAN训练得越好。