前面我们讲过,MapReduce 的出现大大简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用 MapReduce 开发大数据程序。但是对于经常需要进行大数据计算的人,比如从事研究商业智能(BI)的数据分析师来说,他们通常使用 SQL 进行大数据分析和统计,MapReduce 编程还是有 […]

2022年10月30日 56点热度 Baimi 阅读全文

我们都知道 Hive 数据仓库底层是需要依赖于 Hadoop HDFS 进行数据存储的,但 Hive 中所有真实数据都存储在 HDFS 中,元数据(metastore)存储在关系型数据库中,如 Hive 自带的 Derby,MySQL。这样更有利于对数据做分布式计算。 4.1 Hive 数据单元 为了有效地对真实数据进 […]

2022年5月30日 121点热度 Baimi 阅读全文

本章我们将学习 Hive 数据类型和文件存储格式。Hive 中的数据类型主要分为:基本数据类型 和 集合数据类型。我们先来看基本数据类型,这些数据类型和其他编程语言中的数据类型有什么区别吗?特别是 Java 语言。 3.1 基本数据类型 3.1.1 整数类型 Hive 主要有 4 种带符号的整数类型:TINYINT、S […]

2022年5月26日 77点热度 Baimi 阅读全文

这一章我们开始学习如何搭建 Hive 的3种运行模式,先从最简单的内嵌模式开始。 在开始安装 Hive 之前,我们需要提前在 CentOS 7上安装好 JDK、Hadoop完全分布式集群以及 MySQL数据库后才开始安装 Hive。 如果不知道怎么安装的同学请看本篇文章:Hadoop完全分布式集群搭建。 2.1 Hiv […]

2022年4月28日 96点热度 Baimi 阅读全文

一、安装前环境准备 1、首先先检查一下 CentOS 7 是否已经安装过 MySQL 数据库,使用如下命令进行检查: [root@master ~]# rpm -qa | grep mysql 从以上输出结果可以看出,当前系统并没有安装 MySQL。如果有则使用下面命令进行删除: [root@master ~]# rp […]

2022年4月26日 210点热度 Baimi 阅读全文

今天我们从零开始学习大数据核心技术里面的一个非常重要的技术:Hive。它是我们大数据处理过程中使用比较广泛的技术。我们将从它的产生背景、优缺点、系统架构原理、与传统关系型数据库的比较以及运行模式等方面进行学习。 在开始学习 Hive 之前,我们已经学习过了 Hadoop 相关的知识。Hive 需要以 Hadoop 作为 […]

2022年4月24日 129点热度 Baimi 阅读全文