首页 / 大数据 / vSAN支撑大数据应用
vSAN支撑大数据应用
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了vSAN支撑大数据应用,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含3651字,纯文字阅读大概需要6分钟。
内容图文
![vSAN支撑大数据应用](/upload/InfoBanner/zyjiaocheng/1003/b65e82a577d24ae1a2eb7132ba2c1bd8.jpg)
大数据是客户获取业务洞察力的关键推动因素,在IT,营销,财务,安全性和合规性以及业务运营等关键业务领域发挥重要作用。
对于大数据平台,以熟知的Hadoop分布式框架使用并行跨多个服务器和存储实现分布式数据处理,并且形成了工具和应用的生态系统,帮助使用者了解和处理不断增长的海量数据,将多种数据源包含结构化、非结构化数据进行统一的数据展示和管理,但是现在基础设施是否能适用应用的发展?
大数据集群基于物理主机构建,空间占用大,部署速度慢,弹性、可用性和效率低下。Hadoop中的name node和Job Tracker存在单点失效问题,相关非核心Hadoop模块如Hive没有HA保障,Hadoop和非Hadoop负载不能直接共享资源。同时现在硬件服务器,2颗24核CPU,配256G内存,2T的硬盘,这种配置如果简单地放几个web应用,显然是浪费。就算是用来实现单节点的Hadoop,加上业务负载具有波动性,导致物理服务器的资源利用率不高,平均占用10-20%的CPU利用率,对计算资源和机房空间浪费也是非常高的,且物理节点扩容不够快速灵活。对于这么高性能的计算机,如何有效利用计算资源,通过超融合技术将计算、网络和存储资源整合,单个物理服务器上可以部署更多的Hadoop节点,从而提高了业务分析速度和物理服务器资源利用率,采用虚拟机方式扩容节点更加快速和灵活。
vSAN在超融合基础设施(HCI)领域发展取得了巨大成功,增长的主要原动力与大数据用户的主要需求大致相似:
vSAN的软件定义特性消除了对专有硬件的依赖,这是大多数大数据环境的基本特征;
vSAN可以部署在广泛的X86服务器上,提供大数据用户在管理和控制环境以满足其特定需求时所需的选择和灵活性;
随着需求的增长,客户可以从小规模开始搭建,并逐部扩展其HCI环境,这与大多数大数据部署所需的灵活性相一致;
将Hadoop 与vSAN相结合对IT组织很有吸引力,因为超融合解决方案可以有效地利用计算和存储资源以及通过vSphere管理Hadoop简化了基础架构管理。
![vSAN支撑大数据应用 - 文章图片](/upload/getfiles/0001/2021/5/17/20210517011145703.jpg)
利用vSAN支持大数据部署,用户可以灵活的选择部署方式,当用户需要最高的可靠性时,可以利用vSAN冗余机制,同时也利用Hadoop的HDFS分布式文件系统,当物理节点宕机时为Hadoop大数据平台提供灵活可靠的基础架构。
其次用户也可以利用vSAN的Host Affinity 特性,确保数据和Hadoop 节点保存在同一节点,数据通过Hadoop HDFS多副本得到冗余保证,这样可以在高可靠和存储空间利用率之间取得一个更好的平衡。
![vSAN支撑大数据应用 - 文章图片](/upload/getfiles/0001/2021/5/17/20210517011145954.jpg)
vSAN主机关联存储策略使您可以在VMware的本地主机上存储单个数据副本。使用此策略时,vSAN会维护数据的单个副本,该副本存储在运行VMware的本地主机上。此策略作为大数据(Hadoop,Spark),NoSQL和其他此类应用程序的部署选择提供,这些应用程序在应用程序层维护数据冗余。
使用vSAN部署大数据明显带来以下好处:
基础架构的敏捷性,vSAN分布式架构特性可以快速按需扩展节点,线性扩展基础架构的资源能力;
简化管理,整个数据中心无论关键应用,VDI,大数据,开发测试,管理容灾等全都采用统一的软件平台,根据测量调配满足不同应用需求,只用管理一种基础架构平台;
更高的资源效率,可以弹性伸缩,资源充分池化,提高资源利用;
更好的性能,vSAN 广泛的兼容各种硬件,同时利用SSD做缓存加速,提供更高的性能,提高大数据分析的效率。
为进一步提升底层物理资源利用率,保证资源高可用,某客户评测了基于Cloudera Express5.3.3版本构建大数据集群,测试将集群各节点部署在虚拟化平台上的性能表现。通过搭建VMware虚拟化,将底层物理资源池化,按需提供虚拟机资源作为Hadoop集群计算节点,按照裸设备映射(RDM)、VMFS、vSAN三种不同数据存储方式分别进行测试。
![vSAN支撑大数据应用 - 文章图片](/upload/getfiles/0001/2021/5/17/20210517011146144.jpg)
评测的模型一共有6种:
![vSAN支撑大数据应用 - 文章图片](/upload/getfiles/0001/2021/5/17/20210517011146387.jpg)
为验证Hadoop大数据平台的功能、性能,如ETL数据抽取(包括结构化和非结构化数据导入导出)、分布式存储性能(HDFS吞吐能力),分布式计算性能(如MapReduce、Spark计算)。
经过各种模型测试比较分析,vSAN1副本,HDFS 3副本性能表现最好,即上述第三种部署方式。vSAN有SSD作为缓存层,相比RDM和VMFS 的方式能获得更好的读写性能;而随着副本数量增加,虽然有可靠性提升,但同时也带来了性能和容量的损失。所以在部署方案选择上建议兼顾应用的高可用、性能和有效容量,这个客户在评估过后最终通过vSAN构建统一基础架构平台,承载大数据业务,大数据节点部署和扩展效率明显提高80%,服务器的平均利用率提升4倍,构建统一软件架构,简化了管理。最后随着大数据和HCI采用快速发展,VMware将持续创新和优化vSAN,以进一步满足用户对大数据场景的需求。
内容总结
以上是互联网集市为您收集整理的vSAN支撑大数据应用全部内容,希望文章能够帮你解决vSAN支撑大数据应用所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。