1200字范文 > php爬虫教程大数据主要学习哪些内容 – PHP基础 – 前端 php连接数据库的方式

php爬虫教程大数据主要学习哪些内容 – PHP基础 – 前端 php连接数据库的方式

时间：2021-02-12 08:13:55

偶前面是做的Java后端，后续才转的大数据，所以一些Java开发所需要的东西自己也有学习过，也都是按照正常的路线走的，JavaSE阶段，然后数据库，SSM框架，接着做了一些网上找的项目，之后发现对大数据比较感兴趣，就开始找大数据相关的资料学习，看视频，看博客，敲代码，前期大概花了3-4个月吧（公众号的这些资料就是偶当时看过的），也是一步步艰难走过来的，刚刚开始接触大数据相关的东西时，一度怀疑这么多东西自己能否学得完，是不是能用得到，学完又忘了，忘了又回头看，不过还好，坚持过来了，还好没有放弃，工作也还ok，找的大数据开发岗，待遇也还不错吧。

下面就说一下偶自己从Java开发到大数据开发的曲折学习之路（狗头保命.jpg）。因为偶现在是做大数据相关的工作了，所以Java后端涉及到的一些SSM框架等知识点偶就不介绍了，毕竟后续一段时间也没有做了。自己看过的大数据学习相关的视频+资料大概是200G-300G吧，从Linux->Hadoop->。。。->Spark->项目，还有就是一些面试文档，面经等。一些视频看了两遍或者更多，跟着学，跟着敲代码，做项目，准备面试。涉及到需要学习的东西包括：JavaSE，数据结构与算法（计算机行业必备），MySQL，Redis，ES（数据库这些可以看项目，也可以自己熟练一两个），Linux，Shell（这个可以后期补），Hadoop，Zookeeper，Hive，Flume，Kafka，HBase，Scala（Spark是Scala写的，会Scala做相关的项目会更容易入手），Spark，Flink（这个是找工作时有面试官问过几次liao不liao解，所以找完工作才开始接触学习），相关项目。

编程语言阶段学习

如果是零基础的话，建议还是从视频开始入门比较好，毕竟一上来就看教材，这样有些代码的来龙去脉可能不是很了解。如果是有一些编程语言基础的话，从视频开始也会更简单，一些for、while循环你都知道了，学起来也会快很多。 JavaSE偶是选择的某马刘意的为主，因为刚刚开始学Java看过一本从《Java从入门到精通》，没什么感觉，后续又在看了某课网的Java初级视频，还是没感觉出来啥（当时就有点怀疑自己了。。。），可能有点没进入状态。还好后续找了某马刘意老师的JavaSE视频（偶是看的版本，那时候19版还没出），觉得他讲的真的是很好很详细，每个知识点都会有例子，也都会带你敲代码，做测试，可能前面有C语言基础，然后也看过Java的一些语法，所以学起来还是比较顺利，后面的IO流、多线程等知识点时，也有看书看博客，或者看看其他老师的课程，讲解的可能自己比较容易接受就可以，反正都是多尝试（下面会给出视频链接），尽量懂一些，后续可以回头来复习。JavaSE相关的视频，先看一遍，后续有时间建议再看一遍，而且这些经典的视频，看两遍真的是享受。如果有一定基础了的，JavaSE前面七八天的视频可以加速看，但是不懂的一定要停下开仔细想想，零基础的还是尽量不要加速吧，慢慢来稳些。后面的视频建议还是跟着视频来，尽量不要加速，代码尽量都敲一敲，第一遍基本上一个月到一个半月可以结束。 JavaSE可以说是很基础也很重要的东西，主要重点包括面向对象、集合（List、Map等），IO流，String/StringBuilder/StringBuffer、反射、多线程，这些最好是都要熟悉一些，面试也是重点。 JavaSE之后，如果你是要走前端或后端开发路线的话，可以跟着一些网上的视频继续学习，这里偶就不多做介绍了。

===========分割线，Scala可以后续Spark阶段再接触学习=============

Scala的学习，Scala是一门多范式 (multi-paradigm) 的编程语言，Scala支持面向对象和函数式编程，最主要的是后续Spark的内容需要用到Scala，所以前面学习了JavaSE，到Spark学习之前，再把Scala学习一波，美滋滋，而且Scala可以和Java进行无缝对接，混合使用，更是爽歪歪。后续Spark学习时基本都是用的Scala，也可能是和Java结合使用，所以Spark之前建议还是先学一波Scala，而且Scala用起来真是很舒服（wordcount一行代码搞定），适合迭代式计算，对数据处理有很大帮助，不过Scala看代码很容易看懂，但是学起来还是挺难的，比如样例类（case class）用起来真是nice，但是隐式转换学起来就相对比较难。学习Scala的建议：1. 学习scala 特有的语法，2. 搞清楚scala和java区别，3. 了解如何规范的使用scala。Scala对学习Spark是很重要的（后面Flink也是要用），虽然现在很多公司还是用Java开发比较多，而且Spark是Scala写的，如果要读源码，会Scala还是很重要的（至少要看得懂代码）。 Scala主要重点包括：隐式转换和隐式参数、模式匹配、函数式编程。这里偶看的是某硅谷韩老师的Scala视频，韩老师讲的真的很不错，五星推荐，哈哈。也许有人会觉得Python也是需要的，但是学习阶段，可能用Java还是比较多，面试也基本都是问Java相关的内容，所以Python后续工作会用到的话，再看看Python的内容吧。

大数据框架阶段学习

大数据这方面的知识点自己可以说真的是从零开始的，刚刚开始学那会Linux基本都没用过，心里那个虚啊，而且时间也紧迫，想起来都是一把辛酸泪。刚刚开始学的时候，看了厦门大学林子雨的《大数据技术原理与应用》课程，可能这个课程是面对上课的，所以看了一些，感觉对自己帮助不是很大（并不是说课程不好，可能不太适合自己，如果是要了解理论知识，很透彻，但是俺时间紧迫啊），所以就继续在网上找视频，然后发现某硅谷的培训视频很多人去参加，而且知识点也很齐全，大数据相关组件都有讲课，还有一些项目比较好，所以就找了它相关的视频，当时看的是的，所以视频不算旧。来一张推荐系统架构的图，先看看

一般来说，Flume+Kafka对数据进行采集聚合传输，一方面Spark对实时数据进行处理，传输给相应的数据处理模块（比如实时数据处理的算法模块，Spark也有提供常见的机器学习算法的程序库），另一方面采集的数据也可以放入数据库（HBase、MongoDB等）中，后续MapReduce对离线数据进行离线处理，数据处理完毕用于后续的使用，数据采集处理的流程大概就是这样。如果是推荐系统，实时推荐会给用户产生实时的推荐结果，让用户进行查阅选择，比如你在界面浏览了或者看了新的物品，然后刷新下界面，可能给你展示的东西就有一些变成跟你刚刚浏览的相关了。离线推荐的话主要是对离线数据进行处理，为物品或种类做出相似的推荐，如果后续用户搜索相应的物品时，给用户展示相应的产品。

大数据学习路线：Linux -> Hadoop -> Zookeeper -> Hive -> Flume -> Kafka -> HBase -> Scala -> Spark -> 项目 – > Flink（如果需要学习Storm，在Spark前面学习）

一、Linux（基本操作）

一般大家使用的都是虚拟机来进行操作，所以要安装VM（ Virtual Machine），偶使用的是CentOS，所以VM和CentOS都要跟着安装好，跟着视频操作，一定要动手实践，将一些Linux基本命令熟练掌握，一些VIM编辑器的命令也要会用，做相应的一些配置，使用SecureCRT来做远程登录操作（也可以使用其他的，自己顺手就行）。再强调一遍，基本操作命令尽量熟练一点，如果一下记不住，打印一些常用的，自己看看，多用多实践，慢慢就会用了。还有一些软件包的下载安装卸载等，跟着操作一遍，熟悉下，后续都会使用，Shell编程可以后续补。

二、Hadoop（重点中的重点）

Hadoop是一个分布式系统基础框架，用于主要解决海量数据的存储和海量数据的分析计算问题，也可以说Hadoop是后续整个集群环境的基础，很多框架的使用都是会依赖于Hadoop。主要是由HDFS、MapReduce、YARN组成。这个部分安装Hadoop，Hadoop的三个主要组成部分是重点，对他们的概念要理解出来，知道他们是做什么的，搭建集群环境，伪分布式模式和完全分布式模式的搭建，重要的是完全分布式的搭建，这些部分一定要自己动手实践，自己搭建集群，仔细仔细再仔细，Hadoop的NameNode，DataNode，YARN的启动关闭命令一定要知道，以及他们的启动关闭顺序要记住，不要搞混。后续视频会有一些案例操作，跟着写代码，做测试，把基本环境都配置好，后续这个集群（完全分布式需要三台虚拟机）要一直使用。

三、Zookeeper

Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。分布式安装ZK，对ZK有一定的了解就可以了，了解它的应用场景，以及内部原理，跟着做一些操作，基本上有一些了解即可。

四、Hive（重点）

Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive的安装，它的数据类型，以及它的数据定义、数据操作有较好的了解，怎么操作表（创建表、删除表，创建什么类型的表，他们有什么不同），怎么操作数据（加载数据，下载数据，对不同的表进行数据操作），对数据的查询一定要进行实践操作，以及对压缩方式和存储格式要有一些了解，用到时不懂也可以去查，最好是能理解清楚。这部分有什么面试可能会问，所以视频后续的面试讲解可以看看，理解清楚。

五、Flume

Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。对于Flume，对它的组成架构，以及对Flume Agent的内部原理要理解清楚，Source、Channel、Sink一定要知道它们的各种类型以及作用，有哪些拓扑结构是常见常用的，例如一对一，单Source、多Channel、多Sink等，它们有什么作用，要理解清楚。还有一个重点，就是对Flume的配置文件一定要了解清楚，不懂的可以上官网查看案例，对于不同的情况，它的配置文件要做相应的修改，才能对数据进行采集处理，视频中的实践案例一定要跟着做。

六、Kafka（重点）

Kafka是一个分布式消息队列，用来缓存数据的。比如说实时计算中可以通过Flume+Kafka对数据进行采集处理之后，Spark Streaming再使用Kafka相应的Topic中的数据，用于后续的计算使用。对于Kafka，要理解Kafka的架构，什么是Kafka，为什么需要Kafka，应用场景。基本的命令行操作要掌握，比如怎么创建删除Topic，怎么通过生产者生成数据，消费者怎么消费数据等基本操作，官网也是有一些案例可以查阅的。

七、HBase（重点）

HBase是一个分布式的、基于列存储的开源数据库。HBase适合存储PB级别的海量数据，也可以说HBase是很适合大数据的存储的，它是基于列式存储数据的，列族下面可以有非常多的列，列族在创建表的时候就必须指定。所以对HBase的数据结构要有一定的理解，特别是RowKey的设计部分（因为面试被问到过，咳咳，所以点一下），对于它的原理要了解，一些基本操作也要都会，比如创建表，对表的操作，基本的API使用等。

八、Spark（重点中的重点）

Spark是快速、易用、通用的大数据分析引擎。一说到Spark，就有一种哪哪都是重点感觉，哈哈。 Spark的组成可以看下图

Spark是基于内存计算的，对于数据的处理速度要比MapReduce快很多很多，而且数据挖掘这些都是要对数据做迭代式计算，MapReduce对数据的处理方式也不适合，而Spark是可以进行迭代式计算，很适合数据挖掘等场景。Spark的Spark SQL能够对结构化数据进行处理，Spark SQL的DataFrame或DataSet可以作为分布式SQL查询引擎的作用，可以直接使用Hive上的表，对数据进行处理。Spark Streaming主要用于对应用场景中的实时流数据进行处理，支持多种数据源，DStream是Spark Streaming的基础抽象，由一系列RDD组成，每个RDD中存放着一定时间段的数据，再对数据进行处理，而且是基于内存计算，速度快，所以很适合实时数据的处理。Spark MLlib提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。对Spark的核心组件、部署模式（主要是Standalone模式和YARN模式）、通讯架构、任务调度要有一定了解（面试问到了可以说一波），Spark Shuffle要好好理解，还有内存管理要知道，对Spark的内核原理一定要好好理解，不仅面试可能要用，以后工作也是有帮助的。

九、Flink（重点中的重点）

Flink是一个框架和分布式处理引擎，用于对无界（有开始无结束）和有界（有开始有结束）数据流进行有状态计算。现在主要是阿里系公司使用的比较多，很多公司使用的还是Spark居多，而且Flink基本上都是和Spark很多功能大体上一样的，但是以后Flink和Spark孰强孰弱还有待时间的考验，不过Flink近几年越来越火了这是事实，所以如果有时间有精力的话，可以学一学Flink相关的内容也是很不错的。Spark和Flink主要都是在数据处理方面应用，在数据处理方面的话，离线数据处理：Flink暂时比不上Spark，Spark SQL优点在于可以和Hive进行无缝连接，Spark SQL可以直接使用Hive中的表；Flink暂时做不到这一步，因为官方不支持这一操作，Flink只能将数据读取成自己的表，不能直接使用Hive中的表。对于实时数据的处理：Flink和Spark可以说是平分秋色吧，而且Flink是以事件为驱动对数据进行处理，而Spark是以时间为驱动对数据进行处理，在一些应用场景中，也许Flink的效果比Spark的效果还要好些，因为Flink对数据更加的敏感。比如一秒钟如果触发了成千上万个事件，那么时间驱动型就很难对数据做细致的计算，而事件驱动型可以以事件为单位，一个个事件进行处理，相比而言延迟更低，处理效果更好。现在使用Flink的公司越来越多，有时间学习下，也算是有个准备。

项目阶段

其实某硅谷的视频里面有很多大数据相关的项目，而且都是文档配代码的，B站上也有视频，学习期间可以跟着视频做两到三个项目，自己理清思路，把项目理解透彻，还是可以学到很多东西的。根据自己情况，选择两到三个项目重点跟着做，理解透彻一点

大数据项目实战

某硅谷的视频里面有很多大数据相关的项目，而且都是文档配代码的，学习期间可以跟着视频做两到三个项目，自己理清思路，把项目理解透彻，还是可以学到很多东西的。根据自己情况，选择两到三个项目重点跟着做，理解透彻一点。相关项目文档资料偶已经放到网盘，GongZhongHao回复相应关键字获取领取方式。相关项目、涉及技术框架及其B站链接（B站链接主要是为了有些小伙伴网盘速度限制，这样就下载文档资料即可）

书籍

书籍部分直接云盘链接保存即可，这里偶放两张Java开发和大数据开发偶自己的书单（很多，路漫漫，吾将上下而求索~） Java后端书架：

大数据书架：

大概就这些，看完就需要很久了，大部分偶也是需要的时候看相应的部分，所以有时间可以好好看下，不然就需要哪一部分看哪一部分，有助于学习即可。

最后

大数据开发也是需要编程基础的，并不是学会使用这些框架怎么样就可以了，所以对于编程语言，数据结构与算法，计算机网络这些基础也是要的，这些基础知识也有助于自己以后的发展，如果是应届生校招的话，面试基本上都是JavaSE和数据结构与算法等的知识点，还有大数据组件相关的知识点，以及对项目的理解，这些都是要自己面试前准备好的，多看面经，多找面试题看，面几次，心里有谱了，后续面试就好了。不管是从事什么样的计算机相关的岗位，编程都是很重要的，数据结构与算法特别重要，还有就是leetcode等编程网站刷题，提升自己的编程思维，后续笔试面试都要要的。要将一行行代码看做一叠叠rmb，但是一行行代码能不能转换成一叠叠rmb，自己就一定要：坚持，多敲代码；多敲代码，坚持；坚持。

@ PHP是什么？

PHP是编程语言之一，主要用于web开发。

以下是百科内容介绍：

PHP（外文名:PHP: Hypertext Preprocessor，中文名：“超文本预处理器”）是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点，利于学习，使用广泛，主要适用于Web开发领域。PHP 独特的语法混合了C、Java、Perl以及PHP自创的语法。它可以比CGI或者Perl更快速地执行动态网页。用PHP做出的动态页面与其他的编程语言相比，PHP是将程序嵌入到HTML（标准通用标记语言下的一个应用）文档中去执行，执行效率比完全生成HTML标记的CGI要高许多；PHP还可以执行编译后代码，编译可以达到加密和优化代码运行，使代码运行更快。它可嵌入到 HTML中，尤其适合 web 开发。

只要企业还在，PHP就是主角

目前全球5000万互联网网站中有60%以上使用PHP技术

AlexaTOP500中国网站排名有394家使用了PHP技术，占整理比例的78.8%

国内80%以上的动态网站使用PHP进行开发

在国内PHP人才供求比为1:14，会H5的PHP高端人才尤其稀缺

作为老牌web后端语言，PHP全球市场占有率为83.2

PHP如何学习？

这是偶给出的学习线路图，你可以按照学习线路图来学习，如果看不清楚，可以后台回复偶，偶告诉你那里可以看。

另外每个阶段对应了不同的薪资水平及能力！

基础阶段：

可掌握的核心能力：

熟练掌握html5/css3页面布局排版、样式美化。

可解决的现实问题：

能够根据UI的设计实现HTML的静态布局。

市场价值：

熟练掌握之后，可以满足市场静态页面布局，但是市场就业工资相对较低。

第二阶段：

可掌握的核心能力：1、可以清晰划分项目开发模块；2、根据开发任务编写详细设计文档；3、根据文档对功能模块进行编码；4、根据测试信息修复模块功能缺陷；5、能对现有产品进行升级和维护。

可解决的现实问题：能解决常规业务逻辑，PHP操作mysql增删改查，动态网站数据展示，能够手写mvc框架，能够使用ThinkPHP5.0框架实现商城系统开发。

可拥有的市场价值：

可满足企业动态网站开发的需求，根据市场反馈数据看，薪资普遍在 7000元/月以上。

第三阶段：

可掌握的核心能力：(1) 具备解决复杂问题和技术难点的能力；(2)丰富的调试技能和组件开发能力；(3)能够独立设计开发复杂的功能模块。

可解决的现实问题：(1)能够实现功能的同时，考虑代码的优雅性，注重代码的性能和重用性；(2)针对项目中的bug和技术难点，能够提供解决办法；(3)深入理解前端框架实现原理，能够开发和重构通用的前端组件。

可拥有的市场价值：

熟练掌握和学习后，可满足前端与移动开发行业的中级需求，根据市场反馈数据看，薪资普遍在 10000元/月。

第四阶段：

可掌握的核心能力：

(1)从全栈的全局角度认识相关的框架；(2)深刻理解移动端的开发模式和技术选型；(3)了解主流的后台技术和前后端协作方式，从全局角度理解项目的整个生命周期。

可解决的现实问题：

(1)能够熟练使用EasyWechat/微擎等框架实现微信公众平台开发；(2)熟悉微信小程序的开发模式，能够基于PHP或NodeJS等技术实现小程序项目开发；(3)熟悉软件开发中整个项目的生命周期，了解主流的后台开发技术以及相应的前后端协作方式。

可拥有的市场价值：

熟练掌握和学习后，可满足移动端开发的高级需求，薪资普遍在14000元/月。

第五阶段：

可掌握的核心能力：(1)能够对系统架构进行分析和设计；(2)控制开发产品质量，参与制定开发规范；(3)能对现有项目进行性能调优；(4)参与网站项目需求分析，根据项目需求设计提供优化技术方案；(5)改进公司现有框架，提高产品质量。

可解决的现实问题：服务器高级部署优化，互联网常用技术。MySQL优化、读写分离、Nginx服务器集群、Laravel框架、在线视频直播项目开发。

可拥有的市场价值：

真正掌握互联网系统架构设计思想，可实现对门户网站、商城系统、办公系统等项目进行系统性能调优，根据市场反馈数据看，薪资普遍在 20000元/月以上

拓展阶段：

可掌握的核心能力：行业前沿技术

可解决的现实问题：React框架；微服务Docker；Swoole框架；爬虫技术；

可拥有的市场价值：

掌握行业市场未来流行趋势，实现对大型系统的架构与设计，根据市场反馈数据看，薪资普遍在 25000元/月以上。

@ Python和nodeJS哪个更适合做爬虫？

个人认为python更合适做爬虫，其实用什么语言写爬虫都可以，就看谁的效率高，算法写的好！别的其实都没所谓！偶用delphi写过爬虫，一样的把58，51job，赶集，阿里巴巴，上面的电话，客户，公司信息都抓下来了！还有人认为java写也比较方便，资料多。c写也效率高。其实都是一样的，都受限于网络速度。google公司里用的语言就更多了java,c,python,nodejs,php,go…等，就偶知道的不下10种。其实你用什么最熟，就用什么写，这个最好了。