数据降维的方法

4、第11章降维

Remove 数据专注于数据哪个无关，哪个多余，这样既降低了计算成本又不会过度适应。需要对特征进行无损规范，数学上称为降维。广泛应用于模式识别、文本检索和机器学习等领域，主要分为两类:特征提取和特征筛选。前者是高维数据被投影到低维空间，后者是特征子集代替原有的特征集，包括特征分级和特征筛选。分级是为了找到优化的特征子集。特征提取可以分为两种方法:线性提取和非线性提取。前者是试图寻找一个最能解释数据分布变化的仿射空间，后者对于高维非线性曲线的数据分布非常有效。

该算法首先调用一个权重函数得到每个特征的权重值，权重评价指标是平均准确率的下降。类型1。除了上面使用的随机森林，还可以使用χ2、information.gain。然后得到优化的特征子集。首先，通过50%交叉验证来评估特征子集的重要性。爬山搜索算法从原始特征集中选择优化的特征子集，或者它可以选择其他算法，例如forward.search

5、第十五章降维

第二类无监督学习问题叫做降维。下面是一些你想用降维:①数据Compression数据Compression不仅可以压缩数据，还可以使数据占用更少的内存或者。还能加速学习算法②可视化数据不过先说一下降维是什么？举个例子，假设我们收集了一个数据 set，它有很多特征，我这里只画两个特征。假设，对于我们来说，这两个特征，x_1是物体的厘米长度，另一个特征x_2是同一物体的英寸长度。

对于这两个独立的特征，x1和x2，它们都代表基本长度。也许我们想做的是将数据降维。衡量一个物体的长度只有一个数字。这个例子可能有点牵强，和我在业内看到的完全不一样。如果你有成百上千的功能，你会很容易忘记你有什么功能。有时候可能会有几个不同的工程团队，可能一个工程团队会给你200个特性，第二个工程团队会给你另外300个特性，第三个工程团队会给你500个特性。

6、常用降维方法之PCA和LDA

PCA本质上是以方差最大的方向作为主要特征，数据是在各个正交方向上“解耦”的，即在不同的正交方向上不相关。方差最大的维度是主成分。PCA是一种常见的线性降维方法。高维的数据通过线性投影映射到低维的数据。期望新特征的方差在投影维度上尽可能大，方差越大，特征越有效，生成的新特征之间的相关性越小。

计算样本的协方差矩阵，然后将协方差矩阵分解成特征值，取最大n个特征值对应的特征向量构造投影矩阵。再举个栗子:我们举个简单的例子来说明PCA的过程。假设我们的数据集合有10个二维数据(2.5，2.4)，(0.5，0.7)，(2.2，2.9)，(1.9，2.2)，(3.1，3.0)。

7、PCA 降维算法

降维是机器学习中的一个重要思想。在机器学习中，我们经常会遇到一些高维的数据 sets，会占用计算机的内存和硬盘空间，降低运算速度。降维可以压缩数据数量，加快运算速度，减少存储空间，方便直观观察数据特点。PS:在降维中，我们减少的是特征类型而不是样本数量。如果样本数m保持不变，特征值数n将减少。一种常用的降维算法是PrincipalComponentAnalysis，简称PCA。

上图是包含二维特征值的样本集。黑叉代表样本，红线代表找到的低维线，绿叉是样本投影到线上的位置。而它们的投影距离就是PCA算法需要考虑的。从上图可以看出，PCA算法是找一条线，数学上是一个向量，使得其他样本到向量的距离最小。推而广之:一般来说，将特征值的维数从n降低到k就是求k个向量，使得样本在这些向量上的投影最小。

8、数据降维是什么意思

data 降维，也称降维。顾名思义就是降低数据的维度，数据降维，一方面可以解决“维度灾难”，缓解“信息丰富，知识贫乏”的现状，降低复杂度；另一方面可以更好的认识和理解数据。到现在，数据降维有很多方法，从不同的角度有不同的分类。主要的分类方法根据数据的特点可分为线性降维和非线性降维两种，根据是否考虑或使用数据的监测信息，可分为无监督降维、有监督降维和半监督降维，根据holding 数据的结构可分为全局持有。

数据降维的方法

最近更新

相关文章

知识最新文章

资讯排行榜推荐

知识排行榜精选

知识文章排行榜

热门标签