2022 最新详细大数据开发学习路线图

BigData路线图封面

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是 TB 级,甚至是 PB 或 EB 级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的 IT 技术。

[dangerbox title="阶段一:大数据开发入门"]

  • Linux
    • 基本命令

    • 用户管理

    • 权限管理

    • 网络管理

    • SSH

    • VI

  • MySQL
    • DDL

    • DML

    • DQL

    • 多表查询

    • 分组查询

    • 约束

  • Kettle
    • 数据转换

    • 脚本组件

    • Job 开发

  • BI 工具
    • 基本操作

    • 常用图表

    • 仪表板

[/dangerbox]

[danger]阶段一:从传统关系型数据库入手,掌握数据迁移工具、BI 数据可视化工具、SQL,对后续学习打下坚实基础。[/danger]

[warningbox title="阶段二:大数据核心基础"]

  • Zookeeper
    • 架构原理

    • 存储模型

    • ZK集群搭建

    • 选举机制

  • Hadoop HDFS
    • HDFS 架构

    • Block 块存储

    • 读写流程

    • NameNode

    • DataNode

    • 高可用集群

  • Hadoop MapReduce
    • 核心原理

    • 执行流程

    • Shuffle 机制

  • Hadoop YARN
    • YARN 组件

    • 架构原理

    • 执行流程

    • 调度器

  • Hive
    • HQL

    • 数据类型

    • 分区分桶

    • 拉链表

    • 元数据

    • 数据压缩

    • 存储格式

    • 原理架构

    • 性能优化

[/warningbox]

[warning]阶段二:学习 Linux、Hadoop、Hive,掌握大数据基础技术,满足大数据开发行业的初级需求,可以从事 ETL 及 Hive 数仓工程师。[/warning]

[infobox title="阶段三:数据仓库技术"]

  • CDH
    • CM 架构

    • 组件构建

    • CM 实操

  • 数仓分层架构
    • ODS

    • DIM

    • DWS

    • DWD

    • DM

    • ADS

  • Hive + Presto
    • 架构原理

    • SQL 调优

    • 集群搭建

  • Hive 性能调优
    • 数据倾斜

    • JOIN 调优

    • Hive 索引

  • 调度
    • DS

    • Azkaban

    • Oozie

[/infobox]

[info]阶段三:以真实项目为驱动,学习离线数据仓库技术,可应对高级数仓工程师、中级大数据工程师的岗位。[/info]

[successbox title="阶段四:内存计算技术"]

  • Python 编程
    • 基本语法

    • 数据结构

    • 函数

    • 面向对象

    • 异常处理

    • 模块与包

    • 网络编程

    • 多进程

    • 多线程

    • 闭包

    • 装饰器

    • 迭代器

  • Spark
    • 架构原理

    • Spark RDD

    • Spark DF

    • Spark DAG

    • Spark SQL

    • 内存迭代

    • 性能调优

    • 任务调度

    • Pandas on Spark

    • Spark on Hive

    • Spark Shuffle

    • Spark 3.x 新特性

[/successbox]

阶段四:Spark官方已经在首页中将 Python 作为第一语言,在3.2版本的更新中,高亮提示内置捆绑 Pandas;课程完全顺应技术社区和招聘岗位需求的趋势,加入Python on Spark 的内容。

[dangerbox title="阶段五:实时计算"]

  • Flink Core
    • 架构原理

    • 批流一体

    • Windows 操作

    • State 操作

    • DataStream

    • Checkpoint

    • Flink SQL

    • 任务调度

    • 负载均衡

    • 状态管理

    • Runtime

    • 执行计划

    • Flink性能监控与调优

    • Flink + Elasticsearch

    • Flink + Kafka

    • Flink + Pulsar

    • Flink + ClickHouse

    • Flink + Doris

[/dangerbox]

[danger]阶段五:握时下火热的大数据实时计算技术。[/danger]

大数据学习路线图