盘点:数据挖掘中的十大实用方法

基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。 2017-10-10 16:32:13 MBR分析数据挖掘 PB级海量数据服务平台架构设计实践 基于PB级海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,请看正文。 2017-10-10 15:20:10 架构数据存储PB级数据 用随机森林分类算法进行Iris 数据分类训练,是怎样的体验? MLlib是Spark的机器学习(ML)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。 2017-10-10 14:20:11 随机森林分类算法 一份最新的互联网行业薪资报告,你敢看么? 2017已过去大半,互联网招聘市场也在悄然发生变化,与今年年初相比,一个明显的不同是,在发出面试邀请次数上,互联网金融类企业与生活服务类企业下降了许多,这也许源于两个行业不断自我规范所造成的结果。而云计算和大数据,则几乎主宰了整个第二季度的互联网高端人才市场。 2017-10-10 09:30:43 大数据 互联网 报告 人工智能、大数据、云计算等有望成为行业下一个引擎? 移动互联网时代硝烟的逐渐散尽让人们开始寻找下一个拉动行业增长的引擎。从目前的表现情况来看,人工智能、大数据、云计算等技术有望成为推动行业增长的下一个引擎。正是因为如此,我们才看到了阿里、腾讯、百度等互联网巨头开始将布局的焦点转移到了这些新技术上面。 2017-10-09 15:14:26 大数据 行业分析 引擎 大数据分析:王者荣耀英雄背景下的分词报告 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。 2017-10-08 10:22:00 大数据王者荣耀词汇 大数据计数原理1+0=1这你都不会算(五) 从根节点开始搜索,找到其中一个子树,然后继续遍历,直到叶子节点。遍历叶子节点的所有数据,从而找到对应的数据。若需要附属数据,则直接拿卫星数据。若需要继续遍历这棵树,则使用next指针进行树的遍历。 2017-09-30 08:05:41 大数据计数原理 MySQL技能提升篇 — sqlyog高级应用 本文主要总结下mysql桌面工具 sqlyog 的一些应用吧,在总结的同时,也希望能点燃你不经意的眼睛。 2017-09-29 17:20:13 大数据MySQLsqlyog 荣之联DataZoo大数据平台:基于hadoop但不仅仅只是hadoop 近年来,数据已经成为非常重要的企业资产,通过大数据分析改善管理、提升业务、促进行业转型在业界已达成共识,在此背景下,荣之联自主研发的DataZoo大数据平台应运而生。 2017-09-28 17:20:17 荣之联DataZoohadoop 什么是数据分析的漏斗模型? 本文主要谈谈漏斗模型的本质、漏斗模型案例分析以及如何绘制漏斗模型。 2017-09-28 16:31:02 大数据数据分析漏斗模型 10道Hadoop面试真题及解题思路 本文主要介绍10道关于Hadoop的面试真题以及解题思路,希望对大家有所帮助。 2017-09-28 15:19:53 Hadoop面试题解题思路 Tier5 新标准?别闹了,亲 前两天看到网上一条新闻:有美国的公司宣称要推出新的标准取代UPTIME的Tier等级体系,并宣称自家的数据中心可以达到Tier5.今天就聊聊关于可靠性的一些看法。

基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。

1.基于历史的MBR分析

基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。

MBR中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。

[[205841]]

MBR的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据,有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现***的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。

2.购物篮分析

购物篮分析(Market Basket Analysis)最主要的目的在于找出什么样的东西应该放在一起?商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品, 找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计 吸引客户的商业套餐等等。

购物篮分析基本运作过程包含下列三点:

  • 选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。
  • 经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。
  • 克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以降低资源与时间的损耗。

购物篮分析技术可以应用在下列问题上:针对信用卡购物,能够预测未来顾客可能购买什么。对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

3.决策树

决策树(Decision Trees)在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元 树、三元树或混和的决策树型态。

4.遗传算法

遗传算法(Genetic Algorithm)学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由一连串类似产生新细胞过程的运作,利用适合函数(fitness function)决定所产生的后代是否与这个模式吻合,***仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到***解。基因算法在群集 (cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。

5.聚类分析

聚类分析(Cluster Detection)这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。

6.连接分析

连接分析(Link Analysis)是以数学中之图形理论(graph theory)为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于 企业的研究。

7.OLAP分析

严格说起来,OLAP(On-Line Analytic Processing;OLAP)分析并不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般,透过图表或图形等方式显现,对一般人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

8.神经网络

神经网络是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网络即可根据其过去学习的成果归纳后,推导出新的结果,乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。

9.判别分析

当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)时,判别分析为一非常适当之技术,通常应用在解决分类的问题上面。若因变量由两个群体所构成,称之为双群体 —判别分析 (Two-Group Discriminant Analysis);若由多个群体构成,则称之为多元判别分析(Multiple Discriminant Analysis;MDA)。

  • a. 找出预测变量的线性组合,使组间变异相对于组内变异的比值为***,而每一个线性组合与先前已经获得的线性组合均不相关。
  • b. 检定各组的重心是否有差异。
  • c. 找出哪些预测变量具有***的区别能力。
  • d. 根据新受试者的预测变量数值,将该受试者指派到某一群体。

10.逻辑回归分析

当判别分析中群体不符合正态分布假设时,逻辑回归分析是一个很好的替代方法。逻辑回归分析并非预测事件(event)是否发生,而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协 率开始减小,故机率值介于0与1之间。

©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经

(0)
打赏 微信扫码打赏 微信扫码打赏 支付宝扫码打赏 支付宝扫码打赏
清一色的头像清一色管理团队
上一篇 2023年5月6日 04:13
下一篇 2023年5月6日 04:14

相关推荐

发表评论

登录后才能评论

联系我们

在线咨询:1643011589-QQbutton

手机:13798586780

QQ/微信:1074760229

QQ群:551893940

工作时间:工作日9:00-18:00,节假日休息

关注微信