hbase,HVIE和关系型数据 library有什么区别?hive是一个基于Hadoop的数据 warehouse工具,可以将结构化的数据文件映射到a 数据。Hadoop和传统的关系型数据 library(比如oraclehadoop的hdfs支持海量存储数据和mapreduce支持海量存储的分布式处理数据 \x0d\ X0aoracle可以构建一个集群,但是当数据的量达到一定极限时,查询处理速度会变得很慢,机器的性能会很高,\x0d\x0a其实这两个东西是不一样的,hadoop是分布式云处理架构,倾向于数据计算,而oracle是关系型数据。
目前主流的数据 library或者NoSQL要么选择CAP中的AP,典型的例子就是Cassandra,要么选择HBase等CP,这些都是目前广泛使用的NoSQL的实现。我们的价值观必须认为未来是分配的,我们必须尽力拥有一切。大多数情况下选择的是HA,主流顶级数据 library会选择C,分布式系统肯定逃不过P,所以A只能选择HA。
目前NewSQL代表未来(GoogleSpanner,F1,),HBase在国内有6个Committer,几乎是主流开源数据 library中最强阵容。在选择类型的时候会有一个犹豫,是应该选择HBase还是Cassandra。根据应用场景,如果需要一致性,HBase一定是你的最佳选择。我推荐HBase。它总是保持很强的一致性,我们非常喜欢一致性。当我们失去一致性的时候,有些错误会特别奇怪,很难发现。
1。数据查询方式已经确定,不容易更改,即hbase是在特定情况下使用,不能更改。2.告诉插入和大量阅读。因为分布式系统在访问大量数据时更有优势。3.尽量少被数据修改。因为hbase中的数据修改知识,后面加了新的一行数据,意味着前面的被覆盖了,大量的修改浪费了很多空间。(hbase基于hdfs的存储不支持修改)以淘宝为例:淘宝最近有一个浏览商品的功能,传统的关系型数据 library有以下困难:orderby 消耗大量性能;
你需要实时看到脚印,因为数据太大,无法满足要求。而且不能使用缓存技巧(即把一天或一个小时前对数据的处理得到的结果写入缓存表再交给客户,这是没有时效性的)。hbase,优点:有时间戳,适合看时间;基于行健康的查询速度极快(行健康可以参考hbase)尤其是最新的数据可能还在memstore中,所以没有io开销;分布式处理。