网络知识 娱乐 大数据学习路线总结

大数据学习路线总结

背景引入

考虑到有对大数据开发感兴趣的同学,因为找资料方向上特别迷茫,不知道大数据具体需要学习什么组件。为了让大家少走弯路,我就把之前的学习笔记发一遍在自己博客,本文就是提供这个博客的链接。可以为大家学习大数据方面以及面试求职有一个很好的认知。

说明:
🌻本文是我的一个学习路线
🌻里面主要是包含大数据开发后端面试(现在大数据是后端这边发展过来的)AI数据分析
🌻数据分析这块,我打算考一个这方面的证书,后面也会更新一部分数据分析的知识点

1 Java学习阶段

⁉️为什么学习大数据也要学Java?
1️⃣Hadoop生态圈底层都是使用Java开发的,如果涉及到源码的修改需要看懂Java
2️⃣Java的生态相比于其他语言(Python、R等)发展比较成熟

第一阶段基础知识

注意:基础知识其实和大学课上讲的Java知识点差不多,但是也有很多对于课堂内容的补充。
☀️Java零基础(一)之Java发展+注释+编译
☀️Java零基础(二)之变量+运算符
☀️Java零基础(三)之运算符+逻辑循环
☀️Java零基础(四)之逻辑循环常用案例
☀️Java零基础(五)之eclipse的安装+方法定义
☀️Java零基础(六)之一维数组
☀️Java零基础(七)之数组排序+二维数组
☀️Java零基础(八)之对象那些事
☀️Java零基础(九)之面向对象三大特性
☀️Java零基础 (十)之多态+抽象类
☀️Java零基础(十一)之static和fianl关键词
☀️Java零基础(十二)之接口+内部类
☀️Java零基础(十三)之内部类与常用类方法(十分重要)
☀️Java零基础(十五)之集合
☀️Java零基础(十六)之Collections工具类+Set
☀️Java零基础(十七)之Treeset知识点+Map
☀️Java零基础(十八)之异常+多线程的创建
☀️Java零基础(十九)之多线程初级
☀️Java零基础(二十)之生产消费者模型+多线程高级
☀️Java零基础(二十一)之多线程高级(二)+IO流初级
☀️Java零基础(二十二)之字节流
☀️Java零基础(二十三)之File+Properties+网络编程
☀️Java零基础(二十四)之网络编程聊天室+反射
☀️Java零基础(二十五)之单例设计模式+枚举+Java8新特性
☀️Java零基础(二十六)之Java8新特性Stream+新日期类型

第二阶段高阶(Springboot、MyBatis、Maven系列)

第三阶段JDBC(Mysql系列)

😊纯Mysql
☀️Mysql高频面试题(后端大数据面试必备)
☀️Mysql入门学习(一)之语法
☀️Mysql入门学习(二)之子查询+关联
☀️Mysql入门学习(三)之视图
😊JDBC开发,从DML->工具类->事务回滚机制->druid
☀️JDBC入门学习(一)之DML操作
☀️JDBC入门学习(二)之封装工具类
☀️JDBC入门学习(三)之事务回滚功能的实现
☀️JDBC入门学习(四)之Druid连接池的使用

第四阶段 JAVA高频面试题系列

2 Hadoop生态组件(全部要在Linux环境进行安装)

2.1 Linux入门

Linux指令包括shell脚本都是接触服务器最基础的部分。公司的服务器都是Linux系统,就是只有终端敲linux代码,而不是图形界面哦。图形界面实在太耗磁盘空间了。

⚡️Linux指令入门+Shell脚本入门
⚡️Shell脚本各种组件一键安装

2.2 Hadoop集群入门

大数据主流的中间件(Kafka,hbase等都是Hadoop生态圈,我们先使用Hadoop相当于一个磁盘,通过分布式文件存储系统保存文件,通过副本冗余保证数据的安全性。)

⚡️Hadoop集群入门

2.3 Zookeeper学习

⚡️Zookeeper知识点

2.4 Mapreduce知识点

⚡️Mpareduce知识点

2.5 Hive知识点

⚡️Hive知识点总结
⚡️Hive相关函数

2.6 Hbase知识点

⚡️Hbase知识点

⚡️phoenix的安装与使用(Hbase的客户端)

2.7 Flume知识点

⚡️Flume的使用

2.8 Presto搜索引擎的使用

⚡️Presto使用总结

2.9 Sqoop对于Hadoop生态圈数据与其他来源数据的导入导出操作

⚡️Sqoop知识点

2.10DataX 不同数据库之间数据的导入导出操作

⚡️DataX的使用

2.11 Azkaban调度工作流的使用

⚡️Azkaban

2.12 Kylin对于多维度OLAP分析的使用

⚡️Kylin

2.13 Nginx服务器知识总结

⚡️Nginx

2.14 Superset程序进程管理工具总结

⚡️Superset

2.15 Prometheus监控知识总结

2.16 Grafana作为监控可视化页面的使用总结

2.17Clickhouse知识总结

2.18 Kafka消息队列知识总结

⚡️Kafka知识总结

2.19 Redis(Nosql)知识总结

⚡️redis知识点总结

2.20 ElasticSearch知识总结

2.21 Kettle知识总结

2.22 MangoDB知识总结

2.23 Druid知识总结

2.24 Doris知识总结

Doris的安装(一)

2.25 Maxwell知识总结(Mysql同步数据,类似于Canal)

2.26 Canal知识总结

2.27DolphinScheduler调度工具(目前比Azkaban更主流)

DolphinScheduler的安装

3 数仓理论知识

⛵️数据仓库理论知识总结

4 Scala版本的Spark开发学习

4.1 Scala学习

🍀Scala学习

4.2 SparkCore开发(开发很少使用,但是入门需要)

🍀SparkCore开发

4.3 Sparksql开发(经常使用)

🍀SparkSQL知识点总结

4.4 SparkStreaming开发(一代微批的实时流处理)

🍀SparkStreaming知识总结

4.5 SparkStructuredStreaming 开发(二代微批实时流处理)

🍀StructuredStreaming知识总结

5 Flink实时开发系列

6 Python数据分析开发知识总结

7 BI工具使用系列(数据可视化报表工具)

7.1 帆软BI工具

7.2 PowerBI工具使用

7.3 Tableau工具使用

7.4 SmartBI工具使用

8 Git的使用

9 应届毕业生求职篇

9.1 算法与数据结构

9.2 23种设计模式

9.3 计算机网络

9.4 操作系统

9.5 计算机组成原理

10 机器学习

11 AI相关