大数据平台CDP
    发布时间: 2023-02-14 15:39    

Cloudera 的企业版软件基于开源Hadoop及其生态组件构建的CDH核心,还包含了很多为支撑企业级业务的高级管理特性。 借助于Cloudera企业版成熟的整体解决方案,企业可以放心将数据整合在CDH。

大数据平台CDP

CDP是Cloudera公司大数据一站式平台管理解决方案,基于Hadoop生态的商业发行版本。CDP大大减少对Hadoop生态圈的组件兼容、版本兼容的问题,并从复杂的集群部署、安装、配置以及运维管理监控等方面提供便捷可视化操作,极大提升运维能力。同时提供企业级一对一服务,为系统稳定安全保驾护航。

CDP是Cloudera的100%开源平台产品,提供大数据一站式平台管理解决方案,基于Apache Hadoop生态发行的商业版本。CDP是Apache许可的开源软件,并且是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决方案。

CDP提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。CDP大大减少对Hadoop生态圈的组件兼容、版本兼容的问题,并从复杂的集群部署、安装、配置以及运维管理监控等方面提供便捷可视化操作,极大提升运维能力。

简单来说:CDP是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的提高了集群管理的效率。同时CDP提供企业级一对一服务,为系统稳定安全保驾护航。 

 

CDP产品特性

· 灵活性:存储任何类型的数据并使用各种不同的计算框架进行处理,包括批处理,交互式SQL,自由文本搜索,机器学习和统计计算

· 集成:在可与广泛的硬件和软件解决方案一起使用的完整Hadoop平台上快速启动并运行

· 安全性:处理和控制敏感数据

· 可扩展性:启用广泛的应用程序并进行扩展,并扩展它们以满足您的要求

· 高可用性:自信地执行关键任务、业务任务

· 兼容性:利用您现有的IT基础架构和投资

 

Hadoop生态构成

· HDFS:分布式文件系统

ZKFC:为实现NameNode高可用,在NameNode和Zookeeper之间传递信息,选举主节点工具。

NameNode:存储文件元数据

DateNode:存储具体数据

ournalNode:同步主NameNode节点数据到从节点NameNode

· MapReduce:开源的分布式批处理计算框架

· Spark:分布式基于内存的批处理框架

· Zookeeper:分布式协调管理

· Yarn:调度资源管理器

· HBase:基于HDFS的NoSql列式数据库

· Hive:将SQL转换为MapReduce进行计算

· Hue:是CDP的一个UI框架

· Impala:是Cloudra公司开发的一个查询系统,类似于Hive,可以通过SQL执行任务,但是它不基于MapReduce算法,而是直接执行分布式计算,这样就提高了效率

· oozie:是一个工作流调度引擎,负责将多个任务组合在一起按序执行

· kudu:Apache Kudu是转为hadoop平台开发的列式存储管理器。和impala结合使用,可以进行增删改查

· Sqoop:将hadoop和关系型数据库互相转移的工具

· Flume:采集日志