大数据分析模型–批处理和流处理

CDH ( Cloudera Distribution Hadoop )是 Cloudera 公司提供的包含 Apache Hadoop 及其相关项目的软件发行版本。还有一种说法是 CDH 是 Cloudera Distribution including Apache Hadoop 的缩写。

CDH 的所有组件都是 100% 开源的(Apache License),是唯一提供统一批处理、交互式 SQL、交互式搜索以及基于角色的访问控制的 Hadoop 解决方案。通过将 Hadoop 与十几个其他关键开源项目集成,Cloudera 创建了一个功能先进的系统,可以帮忙你执行端到端的大数据工作流。

CDH 特性
灵活性:存储任何类型的数据,并使用各种不同的计算框架进行操作,包括批处理、交互式SQL、文本搜索、机器学习和统计计算。
集成:在完整的 Hadoop 平台上快速启动和运行,该平台可与广泛的硬件和软件解决方案配合使用。
安全性:处理和控制敏感数据。
可扩展性:启用广泛的应用程序,并根据要求进行扩容扩展。
高可用性:能够胜任关键地方的业务任务。
兼容性:利用现有的 IT 基础设施和资产。

CDH 6.3 是 CDH 的最后一个主要版本。CDH是Apache hadoop和相关项目中最完整、最稳定、最流行的发行版。

CDH 6.3.2 对应的各组件版本号——
Apache Avro 1.8.2
Apache Flume 1.9.0
Apache Hadoop 3.0.0
Apache HBase 2.1.4
HBase Indexer 1.5
Apache Hive 2.1.1
Hue 4.3.0
Apache Impala 3.2.0
Apache Kafka 2.2.1
Kite SDK 1.0.0
Apache Kudu 1.10.0
Apache Solr 7.4.0
Apache Oozie 5.1.0
Apache Parquet 1.9.0
Parquet-format 2.4.0
Apache Pig 0.17.0
Apache Sentry 2.1.0
Apache Spark 2.4.0
Apache Sqoop 1.4.7
Apache ZooKeeper 3.4.5

HDP
HDP是Hortonworks公司的代表产品,是一个企业级的Hadoop发行版。

CDH HDP
相同点 两者都是免费版。 更易于维护,管理,且稳定性高。
不同点 文档详细,但区分免费版和企业版,企业版只有试用期 HDP版本是比较新的版本,目前最新版(HDP3.1.5)与apache基本同步,因为Hortonworks内部大部分员工都是apache代码贡献者。
其他区别:

CDH支持的存储组件更丰富
HDP支持的数据分析组件更丰富
HDP对多维分析及可视化有了支持,引入Druid和Superset
HDP的HBase数据使用Phoenix的jdbc查询;CDH的HBase数据使用映射Hive到Impala的jdbc查询,但分析数据可以存储Impala内部表,提高查询响应
多维分析Druid纳入集群,会方便管理;但可视化工具Superset可以单独安装使用
CDH没有时序数据库,HDP将Druid作为时序数据库使用
CDP
CDP(Cloudera Data Platform)是 CDH 的继任者。CDP 是面向企业的云计算平台。它提供集成的多功能自助服务工具,以分析和集中数据。它在企业层面带来了安全和治理,所有这些都托管在公共、私有和多云部署上。

如果启动一项新项目,建议从 CDP 开始,因为这是 Cloudera 最新一代的技术。根据其官方网站,CDP 可以做到:

必要时自动生成工作负载并在完成后暂停其操作,从而控制云成本
使用分析和机器学习来优化工作负载
显示所有云和瞬态集群的数据血缘关系
使用单一的管理平台来使用混合云和多云
可以扩展到 PB 级数据和成千上万多种多样的用户
使用多云和混合环境集中控制客户和操作数据
CDP 有两个版本:CDP 公共云和 CDP 私有云。
CDP私有云的部署依赖ClouderaManager。

欢迎使用66资源网
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!
7. 本站有不少源码未能详细测试(解密),不能分辨部分源码是病毒还是误报,所以没有进行任何修改,大家使用前请进行甄别!

66源码网 » 大数据分析模型–批处理和流处理

提供最优质的资源集合

立即查看 了解详情