python爬虫解析，Python爬虫原理解析

不管你是待业还是失业，在这个被互联网围绕的时代里，选择python爬虫解析，就多了一项技能，还怕找不到工作？，还怕不好找工作？小编就来告诉你这个专业的优势到底体现在哪里：Python爬虫|Python爬虫入门（三）：解析，Python爬虫原理解析，Python爬虫解析网页的4种方式值得收藏，Python面试数据分析，爬虫和深度学习一般都问什么问题，笔试题目考哪些？，python各类爬虫经典案例，爬到你手软！??。

1.Python爬虫|Python爬虫入门（三）：解析

系列专栏目录：*讲：Python爬虫|Python爬虫入门（一）：爬虫基本结构&简单实例第二讲：Python爬虫|Python爬虫入门（二）：请求第三讲：Python爬虫|Python爬虫入门（三）：解析第四讲：Python爬虫|Python爬虫入门（四）：储存------------------------萌萌哒的分割线------------------------本篇我们主要讲一下*篇教程（知乎专栏）提到的解析。这次我们换一个更复杂的例子，主要教一下大家如何使用审查元素找到我们需要的数据。这只是一个初步的对于HTML解析的方法，更多奇怪的问题，我们会在之后的教程通过实例一个一个深入探讨。今天我们的示例网页是：巨潮资讯网，我们的目标是获取所有的股票代码和对应的公司名称。一、HTML简介HTML是一种**标记语言**。作为“标记语言”，需要有标记符号去标记。我们简单介绍一下一些标记。为了和爬虫更好地结合一下，我们教一下大家使用审查元素。我们打开示例网页，然后点击右键，选择“审查元素”或者“检查元素”，然后把标签都收起来，收到这样：首先我们看到最基本的几个标签：, , , "html"定义了这个文件是个HTML，"head"定义了标题，就是这个："body"里面的就是网页里面的正文。后面一个斜杠加一个同样名字的标签代表这部分结束。好的，我们继续往下。对着某一个我们需要的数据，比如点击“审查元素”，我们会看到：开发者工具很好地显示了HTML的层层逻辑。我们在这里列举一下我们经常见到的一些标签。（关于标签详细含义的介绍，请戳本节结束的参考资料。）

; ;

;

; ;

; ;我们再观察一下我们需要的数据的那段HTML：
2.Python爬虫原理解析
笔者公众号：技术杂学铺笔者网站：mwhitelab.com本文将从何为爬虫、网页结构、python代码实现等方面逐步解析网络爬虫。1. 何为爬虫如今互联网上存储着大量的信息。作为普通网民，我们常常使用浏览器来访问互联网上的内容。但若是想要批量下载散布在互联网上的某一方面的信息（如某网站的所有图片，某新闻网站的所有新闻，又或者豆瓣上所有电影的评分），人为的使用浏览器挨个打开网站搜查则过于费时费力。人为统计过于耗时耗力因此，编写程序来自动抓取互联网上我们想要的特定内容的信息则变得尤为重要。网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。我们通过程序，模拟浏览器向服务器发送请求、获取信息、分析信息并储存我们想要的内容。百度/google等搜索网站就是用采用爬虫的方式，定期搜索互联网上的链接并更新其服务器，这样我们才能通过搜索引擎搜到我们想要的信息。2. 网页结构访问网页远非我们输入地址后就看到网页这么简单。在浏览器中按“F12”，或者右键网页，选择“检查”。即可看到网页背后的代码。这里以谷歌的Chrome浏览器为例，在任意一个网站，我们按下F12，会出现一个浏览器的检查窗口。默认的Elements窗口为当前界面的HTML代码。网页和Elements界面Sources界面会显示浏览器从各服务器下载的所有文件。Sources界面Network界面，在“Record Network log”状态下（按Ctrl+E可切换该状态）可以记录浏览器在各个时间段依次收到的文件和文件的相关数据。Network界面我们这里要实现的选取特定信息的爬虫，需要我们先到对应网站去分析其网页的结构。根据网页结构对症下药，编写对应的程序，才能获取我们想要的信息。3. python代码实现我们将会以爬取豆瓣上《流浪地球》电影的影评为例，逐步讲解python爬虫的实现方法（使用python3）。以下代码可在github下载。3.1 基础介绍本节我们会用到的python的库有：requests：用于向服务器发送请求并获取数据json：用于分析json格式的数据bs4：用于分析html数据（pip install 安装）pandas：用于分析数据除此之外，本节中我们没有讲到，但是平常使用爬虫时可能会用到的库还有：sqlite3：轻量级数据库re：用于进行正则表达式匹配上述python库，bs4可用”pip install ″指令安装，其他库可用”pip install 库名词”来直接安装。我们先新建一个jupyter文件，导入必要的python库。导入必要python库3.2 requests的使用使用requests上述代码让我们以程序的方式访问了 “requests.get( .find(“标签名”) 网页地址)” 即是以get的方式去访问网页。访问网页地址分为get和post两种。get和post的区别可见下图（来自w3school）。二者区别简单了解即可，无需深究。关于get、post、使用requests传参更操作，我们会在以后的高级爬虫教程中逐一讲述。我们已经使用”response = requests.get(url)”将获得到的信息传入到”response”中。但是如果我们输出response，得到的不是网站的代码，而是响应状态码。响应状态码响应状态码表示我们之前requests请求的结果。常见的有200，代表成功；403，无权限访问；404文件不存在；502，服务器错误。想要看到我们之前使用”requests.get(url)”得到的网页内容。我们需要先进行”response.enconding = ‘utf-8’ “，该步骤是将得到的网页内容进行utf-8编码，否则我们看不到网页中的中文。对得到的内容进行utf-8编码之后输入response.text，我们就能看到网页的代码了。3.3 的使用使用之前，建议读者对html有一定的了解。若没有，也无妨。HTML是一种标记语言，有很强的结构要求。html代码示例我们使用对HTML网页的结构进行分析，从而选出我们想要的内容。我们使用(response.text, “lxml”)即可对我们之前得到的网页代码进行自动分析。分析结果保存在等号左边的变量soup中。对html内容信息分析的使用方法有很多。比如 .find(“标签名”) 返回找到的*个该标签的内容。.find(“标签名”)值得注意的是，我们找到的*个div标签里面还有div标签。不过不会注意到这些，.find(“div”)只会返回*个找到的div标签，以及该标签内的所有内容。.find_all(“标签名”)则是返回找到的全部标签。.find_all(“标签名”).find_all(“标签名”, class_=”类名”, id=”id名”) 可找到指定类别，指定id的标签。（注意是使用class_而非class）.find_all(“标签名”, class_=”类名”, id=”id名”)除此之外，我们还可以对.find()，.find_all()的结果继续进行.find()，.find_all()的查询。3.4 json的使用除了html格式的文件，我们还常常需要爬取一些json格式的文件。json是一种轻量级的数据交换格式。html与json格式文件的区别如下图。（严格来讲，左侧应该为XML格式文件。但大体上也可以认为是HTML）html与json格式文件的区别（该图来自于网络）于是，有的时候，我们对json格式的数据进行解析。使用 text = json.loads(字符串格式的json数据)即可将字符串格式的json数据转换为python的字典格式。3.5 综合使用我们之前提到：“根据网页结构对症下药，编写对应的程序，才能获取我们想要的信息。”现在，我们前往豆瓣影评中《流浪地球》的短评界面。( 后可查看页面中各元素的位置具体效果如下：结合我们之前所讲的requests、的相应知识。读者可以自己尝试写一个爬虫，来获取当前网页的所有短评信息。笔者这里爬取的是” 最终结果*，为了最终结果美观一点，笔者这里使用了pandas的DataFrame使用pandas的DataFrame爬取的数据结果如下爬取的数据3.7 拓展以上的内容仅仅是基础的python爬虫。若是读者细心，会发现在未登录豆瓣的情况下无法访问” “没有权限这里url链接中start=220，也就是说在未登录的情况下我们无法查看第220条评论以后的内容。在以后的高级爬虫教程中，我们会介绍如何使用爬虫来进行登录、保存cookie等操作。除此之外，有些网站可能会使用js进行网站动态渲染、代码加密等等，光光爬取html和json文件是不够的。同时，我们还可以使用多进程来加快爬虫的速度……敬请期待之后的高级爬虫教程。文章会*时间在公众号内更新
3.Python爬虫解析网页的4种方式值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情，每个人都希望能够写一段程序去互联网上扒一点资料下来，用于数据分析或者干点别的事情。我们知道，爬虫的原理无非是把目标网址的内容下载下来存储到内存中，这个时候它的内容其实是一堆HTML，然后再对这些HTML内容进行解析，按照自己的想法提取出想要的数据，所以今天我们主要来讲四种在Python中解析网页HTML内容的方法，各有千秋，适合在不同的场合下使用。首先我们随意找到一个网址，这时我脑子里闪过了豆瓣这个网站。嗯，毕竟是用Python构建的网站，那就拿它来做示范吧。我们找到了豆瓣的Python爬虫小组主页，看起来长成下面这样。让我们用浏览器开发者工具看看HTML代码，定位到想要的内容上，我们想要把讨论组里的帖子标题和链接都给扒出来。通过分析，我们发现实际上我们想要的内容在整个HTML代码的

;

这个区域里，那我们只需要想办法把这个区域内的内容拿出来就差不多了。现在开始写代码。1: 正则表达式大法正则表达式通常被用来检索、替换那些符合某个模式的文本，所以我们可以利用这个原理来提取我们想要的信息。参考以下代码。在代码第6行和第7行，需要手动指定一下header的内容，装作自己这个请求是浏览器请求，否则豆瓣会视为我们不是正常请求会返回HTTP 418错误。在第7行我们直接用requests这个库的get方法进行请求，获取到内容后需要进行一下编码格式转换，同样是因为豆瓣的页面渲染机制的问题，正常情况下，直接获取requests content的内容即可。Python模拟浏览器发起请求并解析内容代码:url = ' headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:71.0) Gecko/20100101 Firefox/71.0"} response = requests.get(url=url,headers=headers).content.decode('utf-8')正则的好处是编写麻烦，理解不容易，但是匹配效率很高，不过时至今日有太多现成的HTMl内容解析库之后，我个人不太建议再手动用正则来对内容进行匹配了，费时费力。主要解析代码:re_div = r'[\W|\w]+

' pattern = re.compile(re_div) content = re.findall(pattern, str(response)) re_link = r'(.*?)' mm = re.findall(re_link, str(content), re.S|re.M) urls=re.findall(r"", str(content), re.I|re.S|re.M)2: requests-html这个库其实是我个人最喜欢的库，作则是编写requests库的网红程序员 Kenneth Reitz，他在requests的基础上加上了对html内容的解析，就变成了requests-html这个库了。下面我们来看看范例：我喜欢用requests-html来解析内容的原因是因为作者依据帮我高度封装过了，连请求返回内容的编码格式转换也自动做了，完全可以让我的代码逻辑简单直接，更专注于解析工作本身。主要解析代码:links = response.html.find('table.olt', first=True).find('a')安装途径: pip install requests-html3: 大名鼎鼎的库，出来有些年头了，在Pyhton的HTML解析库里属于重量级的库，其实我评价它的重量是指比较臃肿，大而全。还是来先看看代码。soup = (response, 'html.parser') links = soup.findAll("table", {"class": "olt"})[0].findAll('a')解析内容同样需要将请求和解析分开，从代码清晰程度来讲还将就，不过在做复杂的解析时代码略显繁琐，总体来讲可以用，看个人喜好吧。安装途径: pip install : lxml的XPathlxml这个库同时支持HTML和XML的解析，支持XPath解析方式，解析效率挺高，不过我们需要熟悉它的一些规则语法才能使用，例如下图这些规则。来看看如何用XPath解析内容。主要解析代码:content = doc.xpath("//table[@class='olt']/tr/td/a")如上图，XPath的解析语法稍显复杂，不过熟悉了语法的话也不失为一种优秀的解析手段，因为。安装途径: pip install lxml四种方式总结正则表达式匹配不推荐，因为已经有很多现成的库可以直接用，不需要我们去大量定义正则表达式，还没法复用，在此仅作参考了解。是基于DOM的方式，简单的说就是会在解析时把整个网页内容加载到DOM树里，内存开销和耗时都比较高，处理海量内容时不建议使用。不过不需要结构清晰的网页内容，因为它可以直接find到我们想要的标签，如果对于一些HTML结构不清晰的网页，它比较适合。XPath是基于SAX的机制来解析，不会像去加载整个内容到DOM里，而是基于事件驱动的方式来解析内容，更加轻巧。不过XPath要求网页结构需要清晰，而且开发难度比DOM解析的方式高一点，推荐在需要解析效率时使用。requests-html 是比较新的一个库，高度封装且源码清晰，它直接整合了大量解析时繁琐复杂的操作，同时支持DOM解析和XPath解析两种方式，灵活方便，这是我目前用得较多的一个库。除了以上介绍到几种网页内容解析方式之外还有很多解析手段，在此不一一进行介绍了。写一个爬虫，最重要的两点就是如何抓取数据，如何解析数据，我们要活学活用，在不同的时候利用最有效的工具去完成我们的目的。因篇幅有限，以上四种方式的代码就不贴在文章里了，欢迎给我私信获取。欢迎关注我 “纸飞机编程”，获取更多有趣的python教程信息。Python爬虫解析网页的4种方式值得收藏

4.Python面试数据分析，爬虫和深度学习一般都问什么问题，笔试题目考哪些？

一面: 技术面试面试官是一个比较老练的技术总监，貌似80后：你先简单做个自我介绍吧。答：恩，好的，面试官你好，很高兴能来到贵公司面试爬虫工程师一职。我叫XXX，来自于***，毕业于*****，**学历。（如果专业不是计算机专业，就不要介绍自己的专业，如果是大专以下学历，也不要说自己学历，扬长避短这个道理大家应该都懂得）有2年多爬虫工作经验（如果真实是1年多，就说2年，如果真实是2年多就说3年），工作过2家公司（公司尽量不要说太多，如果2-3年经验说2家就好，以免说的过多让人觉得这人太容易干一段不干，说的太少，可能在一个公司技术积累比较单一），*家是从实习开始工作的。我就主要介绍下我上家公司的情况吧。我上家公司是****，是一家外包公司（如果是培训班毕业的尽可能说外包，因为在外包公司，任何项目都可能做，方便后面很多问题的解释），我在这家公司做了一年多，这家公司在****。我们这家公司是共有50多人。我在里面负责公司的数据采集爬取，数据处理，绘图分析等（爬虫爬下来的数据很多都会进行一些清洗，可以把自己数据处理，绘图的经验说出来，增加优势，如果没有的话，就业余花时间去学习这方面，常规的方法都不难）。期间主要负责了集团对一些招聘网站、电商网站、金融网站、汽车网站（如果是单一业务的公司，你可能就说不了这么多种类了，一般采集的数据都会比较单一，这就体现了说外包的好处）。我之所以在上家公司离职是因为上家的公司项目基本都已经做完上线了，后面又接的项目感觉挑战性不大，希望寻找一个平台做更多的项目（这个离职原因因人而异，如果换城市的话也可以简单粗暴说我家人、朋友在这边，如果还是同一个城市的话也可以按照我的那样说，也可以其他方式，但是建议不要说公司经营不好之类的，不喜欢这家公司等等，经营不好可能跟公司员工也有关系，如果回答不喜欢上家公司，面试官会接着问，为什么不喜欢，如果我们公司也是这种情况，你会不喜欢吗，面试offer几率就会大大减少）。因为来之前了解过贵公司，现在主要做金融数据采集的任务，后面也会进行一些大数据分析的工作，觉得项目规划很有远见就过来了。（面试前先查下公司底细，知己知彼）因为我在之前公司做过爬虫、分析方面的工作，贵公司的这个项目也刚好是处于初期阶段，我非常喜欢贵公司的这些项目。并且我认为我有能力将贵公司的项目做好，能胜任贵公司爬虫工程师一职，我的情况大概就是这样，您看您们这边还需了解其他什么吗？2.你主要采集的产业领域有哪些？接触过金融行业吗？答：我之前主要接触过汽车行业，招聘行业，电商行业，金融行业，金融行业也接触过，但是说实话项目并不是很多，但是技术是相通的，可能刚开始不是很熟悉，只要适应一俩个星期都不是问题。3.介绍爬虫用到的技术答：requests、scrapy：爬虫框架和分布式爬虫xpath：网页数据提取re：正则匹配numpy、pandas：处理数据:绘图mysql:数据存储redis：爬虫数据去重和url去重云打：处理常规验证码复杂验证码：用selenium模拟登陆、处理滑块验证码等（滑块验证码有方法，之前破解过滑块验证码，有空我会出个基本使用教程，进行滑块验证码破解，但不一定通用，因为每个网站反爬措施设置都不一样）4.处理过的最难的验证码？答：12306点击图片验证码。原理：图片发送给打码平台，平台返回图片位置数值，通过计算返回数字和图片坐标的关系，进行模拟登陆5.当开发遇到甩锅问题怎么解决？答：如果是小问题自己感觉影响不大，背锅就背了，毕竟如果是刚入公司很多不懂，可能会犯一些错误，如果是大问题，就找责任人（虚心点，不卑不亢）二面：人事面试主要问题:1.你为什么要从上家公司离职？答：上家公司离职是因为上家的公司项目基本都已经做完上线了，后面又接的项目感觉挑战性不大，希望寻找一个平台做更多的项目2.来之前了解过我们公司吗？答：来之前了解过贵公司，现在主要做金融数据采集的任务，后面也会进行一些大数据分析的工作3.简单介绍一下你*的缺点跟优点？答：我的优点是对工作认真负责，团队协作能力好，缺点是言辞表达需要提高，还有对一些细节的把握（我*的缺点就是对细节过分追求，有多少人想这样说的，能把自己的缺点说成这么好听的优点，也是666了，这样说面试成绩减10分缺点就老老实实说一点模棱两可的缺点就好了，不要过于滑头，也不要太实在）4.你怎么理解你应聘的职位，针对你应聘的职位你最擅长的是什么？答：这份职位不仅仅是爬虫方面的技术岗位，更是学习新知识，探索新领域的一条路，希望能有机会给公司贡献一份力量。最擅长数据采集、处理分析5.你对加班有什么看法？除了工资，你希望在公司得到什么？答：1，适当的加班可以接受，过度的加班不能，因为要考虑个人，家庭等因素，同时我也会尽量在规定的时间内完成分配给我的任务，当然加班也希望获得相应的加班费。2，希望这份工作能让我发挥我的技能专长，这会给我带来一种满足感，我还希望我所做的工作能够对我目前的技能水平形成一个挑战，从而能促使我提升着急。6.你的期望薪资是多少？答：我的期望薪资是13K，因为上家公司已经是10k，而且自己也会的东西比较多，前端、后端、爬虫都会，跳槽希望有一定的增长。7.你什么时候能到岗上班？答：因为我已经从上家公司离职，可以随时到岗。（想早上班就别托，先答应越早越好）8.你还有什么要问我的吗？答：问了公司的福利待遇，上班时间，培养计划。（上班时间是5天制，没有培养计划，项目初创时期）*结束面试，说这2天会电话通知，因为后面还好几个竞争对手面试。结论：面试是个概率事件，同时也跟运气有关，在我的话术之上多进行面试总结，多面一些公司，相信大家都能找到理想工作

5.python各类爬虫经典案例，爬到你手软！

小编整理了一些爬虫的案例，代码都整理出来了~先来看看有哪些项目呢：python爬虫小工具（文件下载助手）爬虫实战（笔趣看小说下载）爬虫实战（VIP视频下载）爬虫实战（百度文库文章下载）爬虫实战（《帅啊》网帅哥图片下载）爬虫实战（构建代理IP池）爬虫实战（《火影忍者》漫画下载）爬虫实战（财务报表下载小助手）爬虫实战（抖音App视频下载）爬虫实战（GEETEST验证码破解）爬虫实战（12306抢票小助手）爬虫实战（百万英雄答题辅助系统）爬虫实战（网易云音乐批量下载）爬虫实战（B站视频和弹幕批量下载）爬虫实战（京东商品晒单图下载）爬虫实战（正方教务管理系统爬虫）怎么样？是不是迫不及待的想自己动手试试了呢？在学习中有迷茫不知如何学习的朋友小编推荐一个学Python的学习q u n 227 -435- 450可以来了解一起进步一起学习！免费分享视频资料爬虫小工具文件下载小助手一个可以用于下载图片、视频、文件的小工具，有下载进度显示功能。稍加修改即可添加到自己的爬虫中。代码展示：爬虫实战《笔趣看》盗版小说网站，爬取小说工具第三方依赖库安装：pip3 install 使用方法：python biqukan.py代码展示：爱奇艺等主流视频网站的VIP视频破解助手(暂只支持PC和手机在线观看VIP视频！)运行源码需要搭建Python3环境，并安装相应第三方依赖库：pip3 install -r .txt使用方法：python movie_.py运行环境：Windows, , , Python3代码展示：百度文库word文章爬取代码不完善，没有进行打包，不具通用性，纯属娱乐，以后有时间会完善。代码展示：爬取《帅啊》网，帅哥图片运行平台：版本： Python3.xIDE： Sublime text3为了也能够学习到新知识，本次爬虫教程使用requests第三方库，这个库可不是Python3内置的urllib.request库，而是一个强大的基于urllib3的第三方库。代码展示：构建代理IP池代码展示：使用Scrapy爬取《火影忍者》漫画代码可以爬取整个《火影忍者》漫画所有章节的内容，保存到本地。更改地址，可以爬取其他漫画。保存地址可以在代码中修改。代码展示：《王者荣耀》推荐出装查询小助手网页爬取已经会了，想过爬取手机APP里的内容吗？代码展示：财务报表下载小助手爬取的数据存入数据库会吗？《跟股神巴菲特学习炒股之财务报表入库(MySQL)》也许能给你一些思路。代码展示：抖音App视频下载抖音App的视频下载，就是普通的App爬取。代码展示：GEETEST验证码破解爬虫*的敌人之一是什么？没错，验证码！Geetest作为提供验证码服务的行家，市场占有率还是蛮高的。遇到Geetest提供的滑动验证码怎么破？授人予鱼不如授人予渔，接下来就为大家呈现本教程的精彩内容。代码展示：用Python抢火车票简单代码可以自己慢慢丰富，蛮简单，有爬虫基础很好操作。代码展示：baiwan:百万英雄辅助答题看了网上很多的教程都是通过OCR识别的，这种方法的优点在于通用性强。不同的答题活动都可以参加，但是缺点也明显，速度有限，并且如果通过调用第三方OCR，有次数限制。但是使用本教程提到的数据接口。我们能很容易的获取数据，速度快，但是接口是变化的，需要及时更新。代码展示：功能介绍：服务器端，使用Python（baiwan.py）通过抓包获得的接口获取答题数据，解析之后通过百度知道搜索接口匹配答案，将最终匹配的结果写入文件（file.txt)。Node.js（app.js）每隔1s读取一次file.txt文件，并将读取结果通过 bilibili.py -d 猫 -k 猫 -p 10三个参数：-d保存视频的文件夹名-kB站搜索的关键字-p下载搜索结果前多少页京东商品晒单图下载使用说明：python jd.py -k 芒果三个参数：-d保存图片的路径，默认为fd.py文件所在文件夹-k搜索关键词-n 下载商品的晒单图个数，即n个商店的晒单图代码展示：对正方教务管理系统个人课表，学生成绩，绩点等简单爬取依赖环境python 3.6python库http请求：requests，urllib数据提取：re，lxml，bs4存储相关：os，sys验证码处理：PIL下载安装在终端输入如下命令：git clone git@github.com:Jack-Cherish/python-spider.git使用方法安装依赖包pip install -r .txt运行在当前目录下输入：cd zhengfang_system_ spider.py运行爬虫，按提示输入学校教务网，学号，密码，输入验证码稍等几秒钟，当前ZhengFang_System_Spider文件夹下就会生成zhengfang.txt个人课表，成绩绩点均已保存到该文本文件中代码展示：

就拿大数据说话，优势一目了然，从事IT行业，打开IT行业的新大门，找到适合自己的培训机构，进行专业和系统的学习。

课程介绍

更多培训课程，学习资讯，课程优惠，课程开班，学校地址等学校信息，请进入 全国python学习中心网站详细了解
咨询电话：400-850-8622

python爬虫解析，Python爬虫原理解析

1.Python爬虫|Python爬虫入门（三）：解析

2.Python爬虫原理解析

3.Python爬虫解析网页的4种方式 值得收藏

4.Python面试数据分析，爬虫和深度学习一般都问什么问题，笔试题目考哪些？

5.python各类爬虫经典案例，爬到你手软！

课程介绍

3.Python爬虫解析网页的4种方式值得收藏