大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是 TB 级,甚至是 PB 或 EB 级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的 IT 技术。
- Linux
-
-
用户管理
-
权限管理
-
网络管理
-
SSH
-
-
- MySQL
-
-
DML
-
DQL
-
多表查询
-
分组查询
-
-
- Kettle
-
-
脚本组件
-
-
- BI 工具
-
-
常用图表
-
-
- Zookeeper
-
-
存储模型
-
ZK集群搭建
-
-
- Hadoop HDFS
-
-
Block 块存储
-
读写流程
-
NameNode
-
DataNode
-
-
- Hadoop MapReduce
-
-
执行流程
-
-
- Hadoop YARN
-
-
架构原理
-
执行流程
-
-
- Hive
-
-
数据类型
-
分区分桶
-
拉链表
-
元数据
-
数据压缩
-
存储格式
-
原理架构
-
-
- CDH
-
-
组件构建
-
-
- 数仓分层架构
-
-
DIM
-
DWS
-
DWD
-
DM
-
-
- Hive + Presto
-
-
SQL 调优
-
-
- Hive 性能调优
-
-
JOIN 调优
-
-
- 调度
-
-
Azkaban
-
-
- Python 编程
-
-
数据结构
-
函数
-
面向对象
-
异常处理
-
模块与包
-
网络编程
-
多进程
-
多线程
-
闭包
-
装饰器
-
-
- Spark
-
-
Spark RDD
-
Spark DF
-
Spark DAG
-
Spark SQL
-
内存迭代
-
性能调优
-
任务调度
-
Pandas on Spark
-
Spark on Hive
-
Spark Shuffle
-
-
- Flink Core
-
-
批流一体
-
Windows 操作
-
State 操作
-
DataStream
-
Checkpoint
-
Flink SQL
-
任务调度
-
负载均衡
-
状态管理
-
Runtime
-
执行计划
-
Flink性能监控与调优
-
Flink + Elasticsearch
-
Flink + Kafka
-
Flink + Pulsar
-
Flink + ClickHouse
-
-