hive的适用场景-宇科软件

hive的适用场景

2023-03-09 05:41来源：m.sf1369.com作者：宇宇

一、hive的适用场景

Hive 构建在基于静态批处理的Hadoop 之上，Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive 并不能够在大规模数据集上实现低延迟快速的查询，例如，Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此，

Hive 并不适合那些需要低延迟的应用，例如，联机事务处理（OLTP）。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

二、hbase和hive的差别是什么，各自适用在什么场景中

hbase和hive的主要区别是：他们对于其内部的数据的存储和管理方式是不同的，hbase其主要特点是仿照bigtable的列势存储，对于大型的数据的存储，查询比传统数据库有巨大的优势，而hive其产生主要应对的数据仓库问题，其将存在在hdfs上的文件目录结构映射成表。主要关注的是对数据的统计等方面。

适合的场景：

hbase：适合大型数据存储，其作用可以类比于传统数据库的作用，主要关注的数据的存取。

hive：适合大数据的管理，统计，处理，其作用类比于传统的数据仓库，主要关注的数据的处理。

总结：应对大数据的时候，如果你偏重于数据存储查询hbase无疑是更加适合，而你关注的是对大数据的处理结果查询，比如你查询的时候有类似于count，sum等函数操作 hive就能满足你的需求，一般有些项目都输在hive里面进行数据处理，然后将结果导入mysql等数据库或者hbase中进行查询，至于mysql与hbase的选择比较倾向于你的处理之后的数据量

三、如何让hive更新hdfs里的数据

hive的数据是无法更新的，除非去更改hdfs的原始文件，更改原始文件需要生成一个新的文件，十分费事。同时hive是进行海量数据统计分析，无法实时查询。

而hbase可以进行数据更新和海量数据的快速查询，弥补hive的不足，同时hbase的语法简直蛋疼，无法友好的进行数据的统计分析，但是hive可以。

所以hive和hbase整合后，数据更新，实时查询已经统计分析都可以。大致就是这么个原因

上一篇：java xml解析，数据读取

下一篇：数据分析师40岁之后会失业吗？