Hive本质1大数据和Hive概述

  • 时间:
  • 浏览:0
  • 来源:大发快3APP下载—大发时时彩登录地址

删改内容参见 https://www.jianshu.com/p/db6aae0d9e16

使用批解决批量解决数据。它从输入读取数据,解决它,并将其写入输出。 Apache Hadoop是使用MapReduce范例的分布式批解决系统中最着名和最流行的开源实现。数据存储在称为Hadoop分布式文件系统(HDFS)的共享和分布式文件系统中,并分为多个分区,哪此分区是MapReduce解决的逻辑数据分区。

要使用MapReduce范例解决哪此拆分,map任务会读取拆分并将其所有键/值对传递给map函数,并将结果写入顶端文件。映射阶段完成后,reducer将读取通过shuffle程序运行发送的顶端文件,并将它们传递给reduce函数。最后,reduce任务将结果写入最终输出文件。 MapReduce模型的优点包括使分布式编程更容易,接近线性加速,良好的可扩展性以及容错性。批解决模型的缺点是无法执行递归或迭代作业。此外,明显的批解决行为是在reduce作业启动之前 所有输入还可不可不后能 通过map准备好,这使得MapReduce不适合在线和流解决用例。

Hadoop于2011年首次由Apache发布,版本为1.0.0,仅涵盖HDFS和MapReduce。 Hadoop从一之前 刚开始 就被设计为计算(MapReduce)和存储(HDFS)平台。随着对大数据分析的需求不断增加,Hadoop吸引了大量不多软件来解决大数据什么的什么的问题并融入以Hadoop为中心的大数据生态系统。

此外,您还可不可不后能 乘坐船只或火车。这就像NoSQL数据库,它提供了关系数据库和Hadoop在良好性能方面的形态学 和平衡,以及对中等到大量数据的各种数据格式支持。

流解决用于连续解决实时流数据并对其进行操作以获得结果。在流解决中,有一种 常用的通用流解决框架:Storm(https://storm.apache.org/)和Flink(https://flink.apache.org/)。另4个 框架总要Java虚拟机(JVM)上运行,或者都解决密钥流。在编程模型方面,Storm为您提供了构建框架的基本工具,而Flink为您提供了另4个 定义明确且易于使用的框架。此外,Samza(http://samza.ap ache.org/)和Kafka Stream(https://kafka.apache.org/documentation/streams/)利用Kafka进行消息缓存和转换。最近,Spark还提供了一种 类型的流解决。

实时解决用于解决数据并几乎立即获得结果。大数据实时即席查询领域的不多概念最初是由Google在Dremel中实现的。它使用一种 新颖的柱状存储格式用于嵌套形态学 ,具有快速索引和可伸缩聚合算法,用于并行计算查询结果而总要批解决序列。类事种 技术是实时解决的主要形态学 ,或者被类事的实现使用,类事Impala,Presto和Drill,由柱状存储数据格式提供支持,类事Parquet,ORC,CarbonData和Arrow。此人 面,内存计算无疑为实时解决提供了解决方案。与硬盘的150兆字节/秒相比,内存计算提供了非常高的速率单位,超过10千兆字节/秒。此外,与硬盘相比,延迟相对较低,为纳秒与毫秒。随着RAM的价格每天没有 低,内存计算更实惠 ,类事Apache Spark(https://spark.apache.org/),这是一种 流行的内存计算开源实现。

为了更好地理解关系数据库,NoSQL数据库和Hadoop之间的差异,让亲们儿将它们与旅行土最好的辦法 进行比较。您会惊讶地发现它们有不多类事之处。当亲们儿旅行时,亲们儿要么乘坐汽车或飞机,这取决于旅行距离和费用。类事,当您从多伦多前往温哥华时,就旅行时间与成本而言,飞机始终是首选。当您从多伦多前往尼亚加拉瀑布时,百公里车老会 另4个 不错的选择。当您从多伦多前往蒙特利尔时,不多人原因分析着更喜欢乘车去飞机。这里的距离和成本就像大数据量和投资一样。传统的关系数据库就像汽车一样,Hadoop大数据工具就像飞机一样。当您解决大量数据(短距离)时,关系数据库(如汽车)始终是最佳选择,原因分析着解决大量或中等数量的数据非常快捷灵活。当您解决大量数据(长距离)时,Hadoop(如飞机)是最佳选择,原因分析着它更具线性可扩展性,快速且稳定,可解决大量数据。我能 从多伦多开车到温哥华,但还可不可不后能 花费不多时间。

您也还可不可不后能 从多伦多乘坐飞机前往尼亚加拉瀑布,或者前往机场还可不可不后能 更多时间,或者比开车旅行还可不可不后能 更多费用。

在当前的Hadoop生态系统中,HDFS仍然是使用硬盘存储时的主要选择,而Alluxio提供了几乎分布式的内存替代方案。在HDFS之上,Parquet,Avro和ORC数据格式还可不可不后能 与用于计算和存储优化的快速压缩算法一起去使用。 Yarn作为第另4个 Hadoop通用资源管理器,旨在实现更好的资源管理和可扩展性。作为内存计算引擎,Spark和Ignite助于在Yarn上运行,以便与Hadoop紧密战略协作。

此人 面,Kafka,Flink和Storm主导着流解决。 HBase是另4个 领先的NoSQL数据库,尤其是在Hadoop集群上。对于机器学习,Spark MLlib和Madlib以及新的Mahout。 Sqoop仍然是在Hadoop和关系数据库之间交换数据的主要工具之一。 Flume是一种 开花结果图片 是什么图片 的句子是什么图片 图片 是什么是什么,分布且可靠的日志收集工具,用于将数据移动或收集到HDFS。 Impala和Drill助于直接针对Hadoop上的数据启动交互式SQL查询。此外,Hive over Spark / Tez以及Live Long和Process(LLAP)为用户提供了在不同计算框架(而总要MapReduce)上使用内存数据缓地处长期流程中运行查询的能力。或者,Hive在生态系统中扮演着比以往更重要的角色。亲们儿也很高兴想看 Ambari成为新一代集群,除了Zookeeper之外,管理工具还提供更强大的集群管理和协调。对于计划和工作流程管理,亲们儿还可不可不后能 使用Airflow或Oozie。最后,亲们儿有另4个 开源治理和元数据服务,Altas,它支持生态系统中大数据的合规性和线条.

Spark还可不可不后能 轻松地与Hadoop集成,其内存数据形态学 Resilient Distributed Dataset(RDD)还可不可不后能 从数据源(如HDFS和HBase)生成,以实现高效的缓存。