batchsize设置多少合适 python interpolate函数用法?
python interpolate函数用法?
最近都用到了上采样下采样操作,pytorch中可以使用interpolate可以不很轻松的能完成
definterpolate(input,sizeNone,scale_factorNone,modenearest,align_cornersNone):
r
根据给定size或scale_factor,上采样点或下样本采集再输入数据input.
当前支持temporal,spatial和volumetric输入数据的上采样,其shape各为:3-D,4-D和5-D.
输入数据的形式为:mini-batchxchannelsx[optionaldepth]x[optionalheight]xwidth.
上采样点算法有:nearest,linear(3D-only),bilinear(4D-only),trilinear(5D-only).
参数:
-input(Tensor):inputtensor
-size(int同问Tuple[int]同问Tuple[int,int]有.Tuple[int,int,int]):输出的spatial尺寸.
-scale_factor(floatorTuple[float]):spatial尺寸的缩放因子.
-mode(string):上样本采样算法:nearest,linear,bilinear,trilinear,area.系统默认为nearest.
-align_corners(bool,optional):如果不是text-align_cornersTrue,则对齐input和input的角点像素(cornerpixels),一直保持在角点像素的值.
变分自编码器(VAE)目前存在哪些问题,发展方向是什么?
变分自编码器(VAE)与生成对抗网络(GAN)一样,是无监督学习最具前景的方法之一。本文中,牛津大学统计系在读博士AdamKosiorek从原理上向我们详细介绍了VAE目前面临的挑战。另外,文中也提出来了相对于该方法的几种改进方向。
隐变量模型
假设不成立你我希望实际一个定义在x∈RD上的概率分布来对整个世界建模,其中p(x)表示x很可能处于的状态。这个世界可能会相当急切,我们根本无法明白p(x)的详细形式。目的是可以解决这个问题,我们分解重组一个变量z∈Rd来详细解释x的背景信息。的或x是一个图像,那就z就可以不记录关于图像中可以说物体的出现、数量、类型,包括画面的背景和光影条件的信息。这个新的变量让我们可以不将p(x)可以表示为一个无穷混合模型。
这是一个水配模型,因为相对于z的输入可能会取值,都化入另一个条件分布特点,并的概率通过加权,到了最后得到p(x)。
在这样的设定下,「决策变量x的观测值,隐变量z是什么」就成了一个相当很有意思的问题。
也就是说,我们如果能清楚后验分布特点p(z∣x)。但是,z和x之间也可以显现出一定高度的离散时间关系(诸如,由一个多层神经网络实现),但是,D——我们观测值的维度,和d——隐变量的维度,也很有可能的很大。而边缘分布的位置和后验广泛分布都必须对(1)式积分求值,我们怀疑它们全是无法可以计算的。
我们这个可以实际蒙特卡罗随机抽样,根据p(x)≈1M∑Mm1p(x∣z(m))p(x)≈1M∑m1Mp(x∣z(m)),z(m)~p(z)来肯定(1)式,但导致z的空间可能非常大,我们可能是需要上百万个z的样本,来能够得到一个靠谱的估计。
在训练一个概率模型的时候,我们也可以不使用参数分布-它的参数由一个参数为θ∈Θ的神经网络来可以确定。现在,我们就这个可以可以使用更大似然估记来自学得到这些参数。
这里的问题是,我们不能最大化(1)式,只不过我们不能估记它。是为解决的办法这个问题,我们可以不高分悬赏于有用抽样(importancesampling)。当我们不需要对遗留下来(名义分布)概率密度广泛分布(pdf)算上一个期望值时,IS也让我们是可以从两个完全不同的概率其分布(建议您广泛分布)中抽样,接着将这些样本对名义分布求期望。用q?(z∣x)它表示我们的建议分布-其中的参数由参数为?∈Φ的神经网络确定。我们是可以我得到:
依据重要性抽样的文献可知,最优的建议分布,与名义分布除以2某个函数成比例,其中这个函数的期望是我们期望估计的。在我们的设定下,「某个函数」那是p(x|z)。据贝叶斯定理,p(z∣x)p(x∣z)p(z)/p(x),这个时候,选择最优建议您分布与后验分布成比例,想来,后验分布特点根本无法求高人。
变分自编码器的诞生
幸运的是,当然了我们这个可以一石三鸟:一个学到的建议其分布来形状相同肯定后验分布,我们这个可以最有效的得到边缘分布特点pθ(x)的估计。在这里,我们不动声色间换取了一个三句半码的设定。就是为了怎么学习我们的模型,我们需要:
pθ(x,z)-生成模型,其中真包含:
pθ(x∣z)-一个概率形式的解码器,和
p(z)-一个定义在隐变量上的先验分布
q?(z∣x)-一个概率形式的编码器
替类似估计后验其分布,我们可以不利用建议分布和后验其分布之间的KL散度(可以不表述为两个概率分布的位置之间的距离外),并且我们这个可以游戏窗口化这个结果。
这会儿,我们遭遇的新问题就是:替可以计算KL散度,我们是需要知道后验其分布。并非是没有可能,只需依靠一点点代数乘除运算,我们就能能得到这个可以计算出的目标函数。
我在第二行展开攻击了对数项,在第三行建议使用了贝叶斯定理以及pθ(x)和z是的的的事实。后来一行中的L(xθ,?)是对数概率分布pθ(x)的下界-即常见说的的证据下界(ELBO)。我们是从整理好可以得到:
只不需要一个从我建议你分布特点中抽得的样本,我们就是可以我得到类似肯定:
我们寻找风利用最大化ELBO的?和θ(大多可以使用随机梯度下降算法)来训练模型:
是从价值最大化ELBO,我们或(1)最大化边缘分布特点,或(2)最小化KL散度,或而完成。不需要注意,ELBO的形状相同大概是f(x)1、重要性权重为w(x)pθ(x,z)q?(z∣x)的重要性抽取样本的期望的对数形式。
这个估记量什么?
如果没有你足够一遍的看重要性抽样,就能发现,对建议其分布的支撑估计比对名义分布的支撑更越来越广泛——应该是而尽量减少肯定量方差无限小和数值的不稳定性。在这里,最好是来系统优化KL(p∣∣q)的倒数——因为它有模式平均性质,而并非360优化KL(q∣∣p),来趁机是从模式q去看操作找到一个建议的模式p。这意味着我们必须从假的的后验广泛分布中进行抽样,而这是很困难的。以及其它的东西,我们这个可以不使用ELBO的IS估记,充当重要性加权自编码器(IWAE)。这里的想法很简单:我们从我建议你其分布中吸纳k个样本,并从中换算出平均概率比,这里的每一个样本也叫「粒子」。
早就其他证明,这个肯定量是在优化修正后的KL散度KL(qIS∣∣pIS),其中qIS和pIS的定义共有是:
但他和远古时期分布可那逼近,但qIS和pIS愿意q和p中修真者的存在预想以外的小的变动。各种论文中可证明,360优化这个下界也可以得到更好的生成模型。而它也提出了一个另一种后验分布的位置q的熵非常大的估计(更宽,更分与合),并最终的完全超越了遗留下来KL散度的模式匹配方法。另外个很有意思的结果,如果我们令粒子K的数量趋近无穷尽,我们就可以不不要推断模型q。
IWAE(第一行)和VAE(第二行)中z的后验分布特点。图像从IWAE论文中重现历史我得到。
IWAE有啥?
重要性加权ELBO,或IWAE,推广吧了上古时代的ELBO:是对K1,我们有LKL1L。同时有logp(x)≥Ln 1≥Ln≥L1。简而言之,我们单独大概LK的粒子就会,它的结果可能会越接近数据假的对数概率分布的位置——即「界限越紧」。这意味着和远古时期ELBO的梯度相比较,通过对IWAE求微分我得到的梯度肯定量可以帮助我们找不到一个要好的梯度方向。自余之外,不断K的增加,梯度大概量的方差会相对应收缩起来。
是对生成模型这些点更加好,但对付建议广泛分布的时候,就会再次出现问题。伴随着K的速度变大,见意分布特点中参数的梯度的大小会趋于0,但是比方差收敛得还得快。
令Δ(?)意思是我们优化的目标函数(即ELBO)在?上的梯度的小批量肯定。如果不是定义,定义参数更新完的信号-噪声比(SNR)万分感谢:
其中E和V四个可以表示期望过和方差。更说明是对pθ,SNR与此同时K增强而提高,但是对q?,SNR紧接着K增强而会增大。这里的结论很简单啊:我们可以使用的粒子一定,我们的推断模型效果是会越差。如果我们冷淡的是可以表示学,我们是会遇到问题了。
更好的估计量
如果说我们在最近的论文《Tighter Variational Bounds are Not Necessarily Better》中证明的,我们这个可以我得到比IWAE更合适的结果。思路是在推断和生成模型中使用不同的目标,这种方法,我们这个可以绝对的保证两个目标中都得到小方差非零梯度,结果能够得到更好的模型。
不同的训练目标在训练训练时期中信号-噪声比
在上图中,我们比较好了建议您分布q?的参数?z在更新完中的SNR。SNR最低的VAE最360优化L1来训练。SNR最低的IWAE则通过最优化L64。中间的三条曲线可以使用的是不同的组合:生成模型中不使用的L64,断定模型中可以使用的则是L8或L1。在当前指标下,它们效果可是没有VAE好,但训练出的建议分布和生成模型都比不使用VAE或IWAE得到的好。
这里有一个令人惊讶的副作用:不使用我们新的肯定量训练的模型比在用IWAE本身训练的模型提升了更高的L64界限。为什么会这样?实际研究最有效样本量(ESS)和数据的边缘概率分布的位置的对数,倒是是最系统优化L1,导致了性质好是的建议分布但性质最差的生成模型。如果我们将一个好的建议分布和一个是可以得出好的生成模型的目标特点在一起,我们应该可以得到这个目标的一个方差更小的估计,甚至而是可以换取更好的模型。请在这里栏里点我们论文的详情。
论文:TighterVariationalBoundsthey'reNot Necessarily Better
论文地址:
摘要:我们而在理论和经验上其他证明,可以使用更紧的信息下界(ELBO)可能并进一步影响是从下降梯度估计也量的信号-噪声比来自学推断网络的过程。我们的结果对目前都广应用的隐含假设:「更紧的ELBO是联立模型自学和猜想摊销模式中更适合的变分目标」提出来了敢质疑。依据我们的研究,我们提出来了三个新的算法:偏重要性加权自编码器(PIWAE)、多层重要性加权自编码器(MIWAE)和组织重要性加权自编码器(CIWAE);在这三个算法中,标准的重要性自编码器(IWAE)都这个可以才是一个特殊情况。我们可以证明了这三个自编码器都可以在IWAE的基础上取得效果提升——就算是我们不使用的是IWAE中的目标来测试3效果。一系列来说,和IWAE两者相比,PIWAE也可以同样提升到推断网络和生成网络的效果。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。