在格物汇之前的文章中,我们系统性的讲解了特征提取的经典算法——主成分分析PCA与线性判别分析LDA的原理、应用于场景,以及这两种算法的局限性和改良方法。今天的格物资要给大家讲解一种新的机器学习算法——流形自学。流形自学流形自学是一类糅合了流形流形概念的降维方法,与核PCA的目的一样,它想在较低维空间中尽可能维持在低维空间中的结构。
一个形象的流形降维过程如下图,我们有一块卷一起的布,我们期望将其进行到一个二维平面,我们期望进行后的布需要在局部维持布结构的特征,只不过也就是将其进行的过程,就像两个人将其冲破一样。流形自学方法有很多种,但是他们具备一些联合的特征:首先结构流形上样本点的局部邻域结构,然后用这些局部邻域结构来将样本点全局的同构到一个较低维空间。它们之间的不同之处主要是在于结构的局部邻域结构有所不同,以及利用这些局部邻域结构来结构全局的低维映射方法的有所不同。
下面我们详细讲解两种最少见的流形自学方法:Isomap和LLE。Isomap高维数据结构有可能过于过分抽象化,很难去解读。我们再行来看一个明确的实例:在上一篇文章中,我们所看见的三维空间上的数据是呈现出”S”型,假设我们想要找寻图中两点的测地距离(延曲面距离),就无法用这两点座标所计算出来的欧式距离,如下图(a)黑色线右图,因为黑色线所包含的路径延曲面不能约。而应当用于其沿着“S”形曲面所分解的距离,想象一下一只蚂蚁在数据曲面上乌龟,它无法瓦解曲面行驶,行驶的路径如下图(a)红色线右图。
右图(b)则表明的是两条线本真二维结构上所表明的路径,很显著红色的线更为现实的体现了两个数据点在三维数据上的距离。上述这种找寻数据曲面测算距离的方法称作Isomap(等度量同构),它是流形自学中的一种方法。它是如何构建的呢?它假设数据点与K个最近相邻的点可以包含一个子集,这个子集可以用普通的欧式距离来取决于,而这个子集中于顶点又与其他子集中于的点连接,这样两个目标点的距离就可以分解成若干子集的欧式距离变换来近似于获得,最后这些连接的点可以叛维到较低维空间中展现出出来。
局部线性映射(LLE)流形自学另外一个典型案例是局部线性映射(LLE)。Isomap假设邻接的测地距离可以用欧式距离来回应。而LLE则假设在邻接内可以用线性权重相互传达。
比如对于给定一个样本x0,我们都可以用他附近的几个点x1x2x3x4的线性组合回应出来,即经过LLE降维投影后,原本的点x0x1x2x3x4,投影变为了LLE降维的点子是,降维后尽可能去保有高维时的线性组合关系:如何解法呢?我们必须先求出有线性组合的权重w,对于样本x0我们必须寻找其最近的k个其他样本点,假设为x1x2x3x4,我们根据线性回应误差大于来求出有w:根据上式确认出有线性组合的w以后,我们还必须让其在较低维空间也能尽量符合线性组合的传达关系式,也就是说对于x0x1x2x3x4……的低维投影点z0z1z2z3z4……符合:两个优化目标函数类型很像,但必须具体的是第一个目标函数优化的是权重w,而第二个目标函数优化的是降维后的座标z。经过优化才可得出结论样本集在较低维空间上的投影座标。总的来说,对于不出某一个点x0邻域内的其他点A,不管A怎么变动,都会影响到点x0,这种变动局部容许的思想在很多地方都简单,此外LLE尽量的留存了局部线性信息,使得其在局部能体现出有数据原本的结构。它的流程大体如下图右图:小结LLE是普遍用于的图形图像降维方法,它构建非常简单,但是对数据的流形产于特征有严苛的拒绝。
比如无法是开口流形,无法是稠密的数据集,无法是产于不均匀分布的数据集等等,这容许了它的应用于。优点1、可以自学给定维的局部线性的较低维流形2、算法归结稠密矩阵特征分解成,计算出来复杂度比较较小,构建更容易缺点1、算法所自学的风行不能是不开口的,且样本集是密集均匀分布的2、算法对最近邻样本数的自由选择脆弱,有所不同的最近邻数对最后的降维结果有相当大影响好了,以上就是本期格物资的内容,我们下期闻。
本文来源:bob官方网站-www.oneillsgardenland.com