Hive－千寻百觅

从0开始学大数据（18）如何自己开发一个大数据 SQL 引擎？

从今天开始我们就进入了专栏的第三个模块，一起来看看大数据开发实践过程中的门道。学习一样技术，如果只是作为学习者，被动接受总是困难的。但如果从开发者的视角看，很多东西就豁然开朗了，明白了原理，有时甚至不需要学习，顺着原理就可以推导出各种实现细节。各种知识从表象上看，总是杂乱无章的，如果只是学习这些繁杂的知识点，固然自己的知识面是有限的，并且遇到问题的应变能力也很难提高。所以有些高手看起来似乎无所不

Hadoop
百觅
2022-12-16
19 热度
0评论

从0开始学大数据（11）Hive 是如何让 MapReduce 实现 SQL 操作的？

前面我们讲过，MapReduce 的出现大大简化了大数据编程的难度，使得大数据计算不再是高不可攀的技术圣殿，普通工程师也能使用 MapReduce 开发大数据程序。但是对于经常需要进行大数据计算的人，比如从事研究商业智能（BI）的数据分析师来说，他们通常使用 SQL 进行大数据分析和统计，MapReduce 编程还是有一定的门槛。而且如果每次统计和分析都开发相应的 MapReduce 程序，成本也

Hadoop
百觅
2022-10-30
14 热度
0评论

从0开始学大数据（11）Hive 是如何让 MapReduce 实现 SQL 操作的？

第 4 章 Hive DDL

我们都知道 Hive 数据仓库底层是需要依赖于 Hadoop HDFS 进行数据存储的，但 Hive 中所有真实数据都存储在 HDFS 中，元数据（metastore）存储在关系型数据库中，如 Hive 自带的 Derby，MySQL。这样更有利于对数据做分布式计算。 4.1 Hive 数据单元为了有效地对真实数据进行管理，根据粒度大小，Hive 将真实数据划分为如下数据单元。 4.1.1 数据

Hive
百觅
2022-05-30
17 热度
0评论

第 3 章 Hive 数据类型和文件格式

本章我们将学习 Hive 数据类型和文件存储格式。Hive 中的数据类型主要分为：基本数据类型和集合数据类型。我们先来看基本数据类型，这些数据类型和其他编程语言中的数据类型有什么区别吗？特别是 Java 语言。 3.1 基本数据类型 3.1.1 整数类型 Hive 主要有 4 种带符号的整数类型：TINYINT、SMALINT、INT、BIGINT，它们分别对应 Java 中的 byte、sh

Hive
百觅
2022-05-26
27 热度
0评论

第 2 章 Hive 环境搭建

这一章我们开始学习如何搭建 Hive 的3种运行模式，先从最简单的内嵌模式开始。在开始安装 Hive 之前，我们需要提前在 CentOS 7上安装好 JDK、Hadoop完全分布式集群以及 MySQL数据库后才开始安装 Hive。如果不知道怎么安装的同学请看本篇文章：Hadoop完全分布式集群搭建。 2.1 Hive 安装地址 2.1.1 Hive 官方网站 https://hive.apac

Hive
百觅
2022-04-28
27 热度
0评论

Hive 附录-1：Hive 环境搭建之 CentOS 7 离线安装 MySQL 5.7数据库

一、安装前环境准备 1、首先先检查一下 CentOS 7 是否已经安装过 MySQL 数据库，使用如下命令进行检查： # rpm -qa | grep mysql 从以上输出结果可以看出，当前系统并没有安装 MySQL。如果有则使用下面命令进行删除： # rpm -e --nodeps mysql-* 2、查找所有 mysql 对应的文件

Hive
百觅
2022-04-26
49 热度
0评论

Hive 附录-1：Hive 环境搭建之 CentOS 7 离线安装 MySQL 5.7数据库

第 1 章 Hive 概述

今天我们从零开始学习大数据核心技术里面的一个非常重要的技术：Hive。它是我们大数据处理过程中使用比较广泛的技术。我们将从它的产生背景、优缺点、系统架构原理、与传统关系型数据库的比较以及运行模式等方面进行学习。在开始学习 Hive 之前，我们已经学习过了 Hadoop 相关的知识。Hive 需要以 Hadoop 作为基础，因此，没系统学习过 Hadoop 的同学可以先去学习这方面的知识。我们先

Hive
百觅
2022-04-24
24 热度
0评论