为何HDFS是大数据分析的软肋

分布式文件系统是大型分析非常重要的一环。即使你是在使用Spark,你仍然需要将大量的数据快速的存入内存,所以文件系统一定要可以是高速率的。但是,HDFS并不像它标榜的那样好,它是大数据分析的薄弱环节。 2017-02-27 16:35:00 HDFS大数据分析 一个资深数据人对数据挖掘解读 在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个问题,“互联网和金融,在数据挖掘上,究竟存在什么样的区别”。在对这个问题的摸索和理解过程中,发现数据挖掘本身包含很多层次。并且模型本身也是存在传统和时髦之分的。本文就想聊聊这些话题。 2017-02-27 16:30:07 数据人数据挖掘 新时代,大数据战略和DevOps更配 本文将来探讨一下DevOps是什么、为什么大数据项目团队不使用DevOps方法、使用DevOps的好处以及将大数据迁移到DevOps模型时可能会面临的挑战。

分布式文件系统是大型分析非常重要的一环。即使你是在使用Spark,你仍然需要将大量的数据快速的存入内存,所以文件系统一定要可以是高速率的。但是,HDFS并不像它标榜的那样好,它是大数据分析的薄弱环节。

分布式文件系统是大型分析非常重要的一环。即使你是在使用Spark,你仍然需要将大量的数据快速的存入内存,所以文件系统一定要可以是高速率的。但是,HDFS并不像它标榜的那样好,它是大数据分析的薄弱环节。

[[184262]]

什么是分布式文件系统?普通的文件系统是基于块来存储文件的。查找文件时,要去磁盘中匹配每一个块。一般是有文件分配表或多种FAT的。但是,分布式文件系统的物理存储资源是不一定直接连接在本地节点上的,而是通过计算机网络与节点相连。另外,像RAID或SAN系统,块是会复制的,因此,网络节点丢失并不会造成数据丢失。

HDFS存在的缺陷

HDFS中的文件分配表的核心是NameNode。客户端主要通过NameNode执行数据操作,DataNode会与其他DataNode进行通信并复制数据块以实现冗余,这样单一的DataNode损坏不会导致集群的数据丢失。但是NameNode一旦发生故障,后果会非常严重。虽然NameNode可以故障转移,但是需要花费大量的时间。这也意味着序列中会有更多的等待时间。HDFS的垃圾回收,尤其是Java垃圾回收是需要占用大量的内存,一般是本机有效内存的10倍。

因为HDFS的设计更多的是建立在响应"一次写入、多次读写"任务的基础上。在多数情况下,分析任务都会涉及数据集中的大部分数据,也就是说,对HDFS来说,请求读取整个数据集要比读取一条记录更加高效。所以HDFS在语言选择方面更偏向于基础语言,而不是高级语言。

传统的操作可以用更短的时间来开发部署,维护成本更低、安全性更好。业内有这样一种说法,大多数操作系统支持C语言、汇编和Java的原因是,文件系统处于一个较低的水平。

HDFS的工具和其他文件系统的工具相较是有差距的。比起你曾经处理的任何文件系统或分布式存储HDFS周围的工具是一种较差。基于Java的文件系统只能搭上IT人员最喜爱的POSIX工具的末班车。你尝试过NFS挂载HDFS吗?其它的HDFS工具的安装也是非常复杂的。相反的,如果你使用REST bridge Tool和客户端命令行就会非常容易。

HDFS支持原生代码扩展,提高了运行效率。另外,社区也为NameNode的发展做出了很多贡献。如果你想要打造一个高端的系统,那么必须打破监测和诊断工具中的NameNode瓶颈。总之,在操作系统上使用基于C或C ++的较为成熟的分布式文件系统往往是一个更好的选择。

Spark和云计算需求的变化

早期的Hadoop企业部署基本上是在本地完成的,随着Spark和云部署的崛起,使用Amazon S3作为数据源的情况渐渐多了起来。

Hadoop供应商都期望能够出现更为统一的Hadoop平台,期望HDFS能够与安全组件集成。Spark本身就因文件系统的多样性而存在很多矛盾,所以,想要和文件系统紧密集成几乎是不可能的。

MAPR FS文件系统渐渐引起了企业的兴趣。MAPR FS没有NameNode,而是采用了更标准和熟悉的集群方案方案。 MAPR的分区设计也很好的避免了瓶颈。

除了上述的分布式文件系统,还有很多的分布式文件系统可以供选择,例如Ceph、Gluster。Gluster是一种更为标准的分布式文件系统,擅长I/O操作。目前,大多数人选择使用Spark来存储文件是因为他们对于Spark更加熟悉,而并非是因为它性能好、速度快。

大型HDFS安装的迁移是不可能一蹴而就的,但是随着时间的迁移,未来我们在Spark和云项目中会越来越少的看到HDFS。也许,HDFS会脱离YARN,单独成为Hadoop的一部分。

©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经

(0)
打赏 微信扫码打赏 微信扫码打赏 支付宝扫码打赏 支付宝扫码打赏
清一色的头像清一色管理团队
上一篇 2023年5月6日 03:38
下一篇 2023年5月6日 03:38

相关推荐

发表评论

登录后才能评论

联系我们

在线咨询:1643011589-QQbutton

手机:13798586780

QQ/微信:1074760229

QQ群:551893940

工作时间:工作日9:00-18:00,节假日休息

关注微信