如何使大数据易于管理

麻省理工学院Andrew and Erna Viterbi电气工程与计算机科学院的教授、人工智能实验室(CSAIL)的主任Daniela Rus、博士后Mikhail Volkov和曾在Rus科研小组的博士后、以色列海法大学机器人大数据实验室主任Dan Feldman针对这个问题,提出了一个解决方案,将大数据变成可管理的数据。小编整理并分享出来,以飨读者。 2017-01-10 14:24:23 大数据管理数据集 模块化设计能给数据中心带来啥 模块化是一种处理复杂系统分解为更好的可管理模块的方式,当一个系统过于复杂,可以将其分解为多个模块,按照模块要进行管理,复杂度就大为降低了。数据中心引入模块化技术,可以构造一些模块机构,这样大幅提升设备的使用价值,使得数据中心的各个功能模块具有可扩展、可变更、可移动以及可变换的能力,同时提高了人员的学习能力,避免在运维中出错,可以预见问题,提高工作效率 2017-01-10 14:19:37 模块化数据中心MTTR 打包带走!大数据从业者不可不知的实用工具大全 作为在大数据领域摸爬滚打叱咤风云的伙计们,也应当有一些实用工具来辅助工作日常。下面是小编精心整理的一些经检测非常实用的工具及网站,呈给大家~~ 2017-01-10 14:10:16 大数据数据可视化工具 2016十大数据观 揭秘大数据产业路向何方 2016年,是我国大数据产业市场规模明显增长、技术创新与应用创新特征凸显、地方政府结合需求推动顶层设计、行业应用成为新热点的一年。接踵而来的2017年,立足于上述发展基础,大数据产业将持续发力。基于对过去一年产业发展中政府数据公开共享、应用落地、大数据与信息化分野等问题的深度思考,九次方大数据创始人王叁寿提出了十个与众不同的数据观,从中不难窥探出未来大数据产业发展的走势。 2017-01-10 14:06:06 大数据产业大数据数据中心 如何利用深度学习识别图片中的电话号码? 总结下最近做的一个项目,只提供一些技术方案,不涉及具体业务和具体实现。自动识别图片中电话号码,也可以推广到识别字符串,英文等。 2017-01-10 13:42:18 大数据深度学习识别图片 玩转Docker,必须要遵守这8条安全准则! 译文 尽管相较于其它早期解决方案,容器技术的安全性水平天然更高。然而由于其诞生时间还不长且已经得到广泛普及,因此我们必须将主动检测与响应方案纳入管理体系以保障容器安全。 2017-01-10 11:32:19 Docker安全 2017年值得关注的数据中心趋势预测 2017年,在云服务和数据中心业界将会发生什么样的变化?在本文中,我们专程就该话题采访了业内专家Lars Strong、Ian Seaton、Bruce Taylor和Vince Renaud,如下是这些专家们的预测观点。 2017-01-09 15:29:22 数据中心云服务 物联网策略与设计“七宗罪” 译文 在今天的文章中,我们将了解IBM公司物联网设计师Sam Winslet与Sophie Riche提出的物联网策略与设计“七宗罪”,并探讨如何回避这些常见误区。 2017-01-09 15:25:49 物联网策略设计 亚马逊前首席科学家:大数据价值体现在AI、BI、CI、DI 在亚马逊原首席科学家安德雷斯?韦思岸(Andreas Weigend)看来,大数据对于企业的价值,更全面地来说可以体现在AI、BI、CI和DI,即人工智能(Artificial Intelligence)、商业智能(Business Intelligence)、客户智能(Customer Intelligence)和数据智能(Digital Intelligence)这四个方面。 2017-01-09 15:22:53 亚马逊大数据AI 追求环保高效的数据中心的5大策略 这五大策略中,我认为第一点的“高度的重视”策略使所有其他的策略在某种程度上可能给我的读者们带来了一个稍老想法的新形式。而最后两种策略将为企业数据中心的绿色环保措施(环境责任和快速回报)提供简单的、可衡量的方式。 2017-01-09 10:45:17 数据中心策略 医疗健康大数据服务平台技术架构 医疗健康大数据服务平台是一个包含多个业务系统、多个自身管理软件、是一系列软、硬件和人员、政策支持的综合系统体系,统一建设医疗健康云计算服务中心,集中存储居民医疗卫生信息和居民电子健康档案等数据,满足社会大众、医务工作者、各级卫生主管部门、第三方机构的应用需求。

麻省理工学院Andrew and Erna Viterbi电气工程与计算机科学院的教授、人工智能实验室(CSAIL)的主任Daniela Rus、博士后Mikhail Volkov和曾在Rus科研小组的博士后、以色列海法大学机器人大数据实验室主任Dan Feldman针对这个问题,提出了一个解决方案,将大数据变成可管理的数据。小编整理并分享出来,以飨读者。

现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。

[[181207]]

大数据分析的困境

不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。

然而,分析大数据集可能会产生问题。首先,大数据是大规模的,有时太大,不能通过常用的分析工具有效地处理。

麻省理工学院Andrew and Erna Viterbi电气工程与计算机科学院的教授、人工智能实验室(CSAIL)的主任Daniela Rus、博士后Mikhail Volkov和曾在Rus科研小组的博士后、以色列海法大学机器人大数据实验室主任Dan Feldman针对这个问题,提出了一个解决方案,将大数据变成可管理的数据。小编整理并分享出来,以飨读者。

大数据困境破解之道

处理大数据的一种方法是缩减它。如果您可以确定大数据的一个子集,用于保留大数据最重要的数学关系,那么就可以进行有用的分析,不然对整个大数据集来说将是非常耗时,不实用。

然而,用于提取这样的“核心集”的方法根据应用程序而有所不同。研究人员提出了一种提取可由大量常用数据分析工具使用的核心集的新技术,适合自然语言处理、推荐系统、天气预报、金融和神经科学等。

“这些都是在许多应用程序中使用的非常通用的算法,”Danilla Rus表示,“它们是这么多问题的基础。通过为这些工具确定出一个巨大矩阵的核心集,人们就可以进行以前根本不可能的计算。”

例如,在他们的论文中,研究人员将他们的技术应用于矩阵(也就是表格),它将英语版维基百科上的每篇文章映射到网站上出现的每一个单词。这个矩阵,将有140万篇文章和440万列的单词。

维基百科的这个矩阵实在太大了,以至于不能使用低秩近似来进行分析,该算法可以识别自由格式文本的主题。但是一旦提取出来核心集,研究人员就能够使用低秩近似来提取维基百科上最常见的100个主题的单词集群。例如,包含“服装”、“新娘”、“伴娘”和“婚礼”的集群表示婚礼的主题;包含“枪”、“开枪”、“卡住”、“手枪”和“枪击”的集群显示指定了枪击事件的主题。

让大数据可管理的思路

研究人员的核心集新技术对于一系列工具非常有用,如奇异值分解、主成分分析、潜在语义分析。但它们共同之处是缩减:它们采用具有大量的变量数据集,并且用更少的变量找到它们的近似值。

在这里,这些工具的作用与核心集类似。但是,核心集是特定应用程序,而dimension-reduction工具是通用的。这种共性使它们的密集型计算比核心集更多:对于大型数据集的实际应用来说计算量过于庞大。

研究人员认为,他们的技术可以用于用例如从数百万变量中嗅出数据集:例如根据他们使用的词语对维基百科页面的描述——只有几千个单词。在这一点上,诸如广泛使用的主成分分析技术可以将变量的数量减少到几百个,甚至更少。

维基百科矩阵有440万列,每列代表一个不同的单词。维基百科上的任何文章只会使用几千个不同的单词。所以在任何给定的行:这意味着在任何一篇文章,只有几千个矩阵插槽中的440万将会有内容。在稀疏矩阵中,大多数值为零。

至关重要的是,这项新技术保留了稀疏性,这使得它的核心集更容易进行计算处理。如果它们涉及零的大量乘法和加法,计算将会变得更容易。

新的核心集技术使用所谓的合并和归约过程,它开始取数据集中的20个数据点,并选择其中10个作为满20个数据点的最具代表性的点。然后它对另外20个数据点执行相同的过程,合并这两个所减少的10个数据点,形成新的20个数据点的数据集,然后它进行另一个缩减的过程,从20个下降到10个。

即使该过程检查巨大数据集中的每个数据点,因为它每次只处理数据点的小集合,它仍然保持了很高的计算效率。在他们的论文中,研究人员证明,对于涉及一系列通用缩减工具的应用,他们提供的缩减方法提供了对完整数据集非常好的近似结果。

该方法取决于数据的几何解释,涉及称为超球面的概念,它是圆的多维模拟。任何一个多变量数据可以看做是多维空间中的一个点。以同样的方式,数字对(1,1)定义二维空间中的点:在X轴上的点和Y轴上的点——就是维基百科表中的一行,其440万个数字,定义了一个440万个圆的空间上每一个点。

研究人员的缩减算法从找到数据点子集的平均值开始——比如说20个,那就要进行缩减。这也定义了高维空间中的点,称之为初始点。然后将20个数据点中的每一个“投影”到以初始点为中心的超球面上。也就是说,算法在数据点方向上找到超球面上的唯一点。

该算法选择超球面上的20个数据投影之一。然后选择最远离第一个的超球面上的投影。它找到两者之间的中点,然后选择距离中点最远的数据投影;然后它再找到这两点之间的中点,并选择距离它最远的数据投影;如此循环。

研究人员能够证明通过这种方法选择的中点将非常快地收敛在超球面的中心。该方法将快速选择其平均值接近20个初始点的点的子集。这使得它们特别合适核心集中的候选者。

©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经

(0)
打赏 微信扫码打赏 微信扫码打赏 支付宝扫码打赏 支付宝扫码打赏
清一色的头像清一色管理团队
上一篇 2023年5月6日 03:26
下一篇 2023年5月6日 03:26

相关推荐

发表评论

登录后才能评论

联系我们

在线咨询:1643011589-QQbutton

手机:13798586780

QQ/微信:1074760229

QQ群:551893940

工作时间:工作日9:00-18:00,节假日休息

关注微信