这里的特征可以用不同的方式表示,比如可以表示为文章的一个属性集(比如对于书籍,属性集包括作者、出版社、主题和关键词等。),它们也可以表示为latentfactorvector,可以通过前面提出的LatentFactorModel来学习。在本章中,我们将讨论一个重要的特征表达式:标签。
4、数据分析、数据挖掘、数据统计、OLAP之间的差异是什么?OLAP和统计学的区别在于,它的查询需求是由数据分析师自己灵活定义的,而不是由程序员编写的后台程序。OLAP的核心是维度,可以说是多维分析。它允许分析师从不同角度、不同粒度查看数据仓库中的数据,所以它的本质是查询数据,但这个查询也是有技巧的。在了解业务之后,我们需要提出相应的假设,然后通过具体维度的数据来验证假设是否正确。
方法是查询数据。OLAP的模型是指多维数据模型,用哪些维度来描述分析对象,OLAP的建模是指选取哪些维度。而数据挖掘主要不是查询,而是做更多的计算,比如分类,回归就是拟合计算,寻找标签等特征的规律,形成模型。数据挖掘算法会有很多迭代计算,比OLAP计算复杂得多。另外,数据挖掘做的更多的是探索性分析,分析之前没有任何假设。所以数据挖掘往往能发现一些被人类经验所忽略的因素。
5、数据挖掘-支持向量机supportvectormachine(SVM)是一种优秀的分类技术,也可以用于回归分析(SVR)。这项技术可以很好地应用于高维数据,避免维度灾难。SVM的一个特点是用训练集的子集来表示决策边界,称为支持向量。SVM的核心目标是找到分类中的最大边超平面,并使其成为决策边界。那么什么是最大边超平面呢?
6、数据挖掘导论是指通过算法从大量数据中搜索隐藏信息的过程。其中,机器学习是支持数据挖掘的主要手段。是指机器通过一定的策略学习历史数据后,通过建立模型做出一定的预测或识别的能力。模型中的损失是对不良预测的惩罚,损失是一个数值。如果模型预测更准确,损失会更低。训练模型就是通过标记样本学习所有权重和偏差的理想值,尽可能减少损失。
能够有意义地总结各种损失。比如MSE(均方误差):指每个样本的平均平方损失。使用数据集训练模型时,一部分用于训练,另一部分用于验证。它分为训练集和测试集。通常情况下,70%的数据集分为训练集,30%为测试集。另外需要注意的是,对于有时间序列的数据集,需要按照时间来划分。划分数据集后,需要在训练集上进行调整,在测试集上可以不断调整模型。缺点是,由于不断使用测试集来调整模型,模型可能会过拟合。
7、数据标签化王兴说我们已经进入了互联网的下半场。前半段,互联网时代初期,你永远不知道对面坐的是谁。那时候大部分人都是QQ的早期用户。到了下半年,互联网公司已经不新鲜了,大部分公司都已经互联网化了。他们已经在使用互联网来推广他们的产品,并使用电子商务来销售他们自己的商品。这两年引领下半场发展的,是那些在讲“大数据”、“赋能”的企业。他们有数据和用户。
通过消费数据的分析,告诉企业什么时候生产什么产品,最大程度的满足用户的需求。告诉我们如何通过生活大数据为餐饮企业乃至房地产企业选址,如果互联网的前半段是粗糙的运营,那么就不需要考虑细节,因为有流量红利。那么下半年,精细化运营将是一个长期的主题,有了数据和数据分析能力,用户才能获得更好的体验。所以用户是根本,是数据分析的出发点。