Spark“变形记”——云海大数据一体机让数据处理更轻松

云海大数据一体机就是采用了业内主流的Hadoop+Spark的架构形式,搭建了国内外领先的大数据分析平台CloudCanyon,通过Spark计算框架消除了传统Map/Reduce计算框架的弊病,实现了高效的内存计算。Hadoop经过多年的发展,大家对其性能已经是耳熟能详;但是对于Spark,许许多人还觉得有些陌生。 2015-09-10 13:35:45 云海大数据一体机 大数据创业需要跨过几道坎? 现在问题来了,大数据时代,创业热潮是不是应该比移动互联网时代更加热闹呢?大数据时代如何创业?大数据创业的门槛又有哪些呢? 2015-09-10 11:10:13 大数据创业 10个热门大数据发展趋势 在你进入大数据的世界时,需要了解很多不同类型的数据库和数据管理技术。 2015-09-10 10:59:34 大数据趋势 只有大格局才有大数据 现在,发展大数据已经提到了国家战略的高度,政府手里掌握着大量的数据资源,若把这个价值释放出来,将有利于形成社会经济发展的大格局。 2015-09-10 10:06:53 格局大数据 今后,去踢“大数据足球” 9月9日,四川足球俱乐部与成都市金堂县政府签约,共同打造“互联网+中国足球小镇”,项目选址金堂县栖贤乡,预计两年建成。 2015-09-10 09:27:56 大数据足球 大数据应成为制造业强大推动力 日前,“制造业+互联网”大数据发展方向研讨会在中国工程院举行。原机械工业部副部长陆燕荪,中科院院士徐宗本、中国工程院院士卢秉恒以及高校、企业代表近百人参加会议,共同研讨大数据、云计算等在制造行业的应用前景。 2015-09-10 09:25:27 大数据制造业 流感防治和大数据 近些年来,病毒性流感一波又一波袭扰人类,这不但引起学术界的密切关注,而且还经常成为公共领域热议的话题。 2015-09-09 13:18:52 流感防治大数据 大数据变现的关键途径是——可视化 作者David Hoffer是一位出色的设计师,现在是Declara的UE部门负责人。

云海大数据一体机就是采用了业内主流的Hadoop+Spark的架构形式,搭建了国内外领先的大数据分析平台CloudCanyon,通过Spark计算框架消除了传统Map/Reduce计算框架的弊病,实现了高效的内存计算。Hadoop经过多年的发展,大家对其性能已经是耳熟能详;但是对于Spark,许许多人还觉得有些陌生。

说起Spark,熟悉大数据架构的人一定不会陌生,它已是继Hadoop之后最活跃的开源项目之一。作为发源于美国加州大学伯克利分校AMPLab的集群计算平台,Spark立足于内存计算,并以多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算形式得到了行业的肯定。作为国内IT行业领军厂商,浪潮早在2012年就推出了采用Hadoop+Spark架构的大数据一体机,如今这款产品已经应用于金融、电信、公安、交通、卫生等各个行业领域,成为用户大数据分析处理平台的理想之选。

Hadoop+Spark的数据架构模式

据了解,云海大数据一体机就是采用了业内主流的Hadoop+Spark的架构形式,搭建了国内外领先的大数据分析平台CloudCanyon,通过Spark计算框架消除了传统Map/Reduce计算框架的弊病,实现了高效的内存计算。Hadoop经过多年的发展,大家对其性能已经是耳熟能详;但是对于Spark,许许多人还觉得有些陌生。

1

其实在架构上Spark的优势更为明显——Spark是一个灵活的计算框架,适合做批处理、工作流、交互式分析、迭代式机器学习、流处理等不同类型的应用,因此Spark可以成为一个用途广泛的计算引擎,并在未来取代Map/Reduce的地位。与此同时,Spark还可以与Hadoop生态系统的很多组件互操作,可以运作在新一代资源管理框架YARN上,它还可以读取已有的存放在Hadoop上的数据,这是个非常大的优势。

经过复杂的系统调优和的改进,浪潮云海大数据一体机具有高性能、稳定性好、功能丰富、易管理等特征,采用不同的数据处理的架构来提供对不同行业应用的支撑。通过新型的数据处理架构,实现了计算随数据分布的数据本地化,保证了业务的连续性,即使三到四千个计算单元重载节点情况下,还能够实现相对比较好的扩展性。

浪潮云海大数据一体机的性能优势

Spark优化后性能可比原生快数倍

2

从技术角度来说,浪潮云海大数据一体机支持高性能Apache Spark作为缺省执行引擎,可比原生的Hadoop Map/Reduce快;其次,通过建立独立与Spark的分布式列存缓存层,可以有效防止GC的影响,消除Spark的性能波动,同时在列式缓存上实现索引机制,进一步提高了执行性能;再次,在SQL执行计划优化方面,实现了基于代价的优化器(Cost based optimizer)以及多种优化策略,性能可比原生Spark快数倍;***通过全新的方法解决数据倾斜或者数据量过大的问题,使得处理超大数据量时也游刃有余。

3大语法实现SQL支持

浪潮云海大数据一体机支持SQL99语法及PL/SQL过程语言扩展,并且可以自动识别HiveQL、SQL99和PL/SQL语法,在保持跟Hive兼容的同时提供更强大的SQL支持。由于现有的数据仓库大都基于SQL99,而且国内客户大量使用PL/SQL,因此浪潮云海大数据一体机可以支持复杂的数据仓库类的分析应用,也使得原有数据库系统迁移到Hadoop更为容易。

基于R的数据挖掘和机器学习

浪潮云海大数据一体机包含了专业用于数据挖掘的R语言执行引擎,并且扩展了R语言,支持多种分布式数据挖掘算法,包括统计算法和机器学习算法;也支持在R中调用SQL语句,通过Spark访问分布式内存数据。这些功能使得用户可以真正的在全量数据上进行机器学习或数据挖掘,而再也不用使用采样的方法,精准度得到很大提高。

3

数据处理性价比提升10倍

浪潮云海大数据一体机支持混合存储体系(内存/闪存/磁盘),分布式列存储可以存放在速度较快的闪存SSD上或者更快的内存中。经过实际测试发现,大数据一体机中采用SSD替代大容量昂贵的内存作为缓存,性能没有明显的下降,因此可以用同样的价格买到容量大10倍的SSD作为缓存,提供了极高的数据处理性价比。

浪潮云海大数据一体机集成了计算单元、存储单元、通讯单元、管理单元等核心模块,能够覆盖数据的存储、处理、展现等所有技术环节。正如浪潮集团高级副总裁王恩东所描述的那样:“云海大数据一体机正是顺应时代要求推出的,采用新型体系架构的软件一体化的产品。通过浪潮集团一体化的产品、服务,帮助用户快速实现对大数据的应用与开发,同时我们也希望以此为起点,增强产业链的应用,共同挖掘并充分释放中国大数据的潜能,将中国的大数据产业做大做强。”

©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经

(0)
打赏 微信扫码打赏 微信扫码打赏 支付宝扫码打赏 支付宝扫码打赏
清一色的头像清一色管理团队
上一篇 2023年5月6日 02:15
下一篇 2023年5月6日 02:15

相关推荐

发表评论

登录后才能评论

联系我们

在线咨询:1643011589-QQbutton

手机:13798586780

QQ/微信:1074760229

QQ群:551893940

工作时间:工作日9:00-18:00,节假日休息

关注微信