爬虫编写流程

首先明确 Python 爬虫代码编写的流程：先直接打开网页，找到你想要的数据，就是走一遍流程。比如这个项目我要爬取历史某一天所有比赛的赔率数据、每场比赛的比赛结果等。

那么我就先打开这个网址：https://live.leisu.com/wanchang?date=20190606 然后点击“竞彩”，再点击“指数”，跳转到另一个网址：https://live.leisu.com/3in1-2674547，然后就看到了想要的数据：各公司主队获胜赔率1.61、1.65等。

到此为止，开始动手通过代码实现这个过程。

解析“爬虫主程序.py” ：（主程序包括四个函数）

## -*- coding: utf-8 -*-nls_url = 'https://live.leisu.com/wanchang?date='#ls历史https://live.leisu.com/wanchang?date=20190606nclass LiveJiangSpider(scrapy.Spider):n name = 'FBP'n allowed_domains = ['leisu.com']n def start_requests(self):n d1='20190606' #历史的比赛n request = scrapy.http.FormRequest(ls_url + d1,callback=self.parseLs, meta={'d1': d1}) #历史的比赛n # request = scrapy.http.FormRequest(wl_url + d1,callback=self.parseWl, meta={'d1': d1})#未来的比赛n yield requestn def parseLs(self,response):n d2=response.meta['d1']n sel=response.xpathn racelist=[e5.split("'") for e5 in sel('//li[@data-status="8"]/@data-id').extract()]n for raceid in racelist:#raceid=['2674547'];raceid[0]=2674547n item = PeilvItem()n sel_div=sel('//li[@data-id='+str(raceid[0])+']/div[@class="find-table layout-grid-tbody hide"]/div[@class="clearfix-row"]')n if str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()) == "[]":n item['cc']=""n else:n item['cc']=str(d2) + str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()[0])n if "周" in item['cc']:#取竞彩-周一001等n plurl='https://live.leisu.com/3in1-'+raceid[0]n request = scrapy.http.FormRequest(plurl,callback=self.parse,meta={'item':item})n yield request #并非return，yield压队列，parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果，并没有直接执行parse，循环完成后，再执行parsen def parse(self, response):n print('--------------into parse----------------------')n item = response.meta['item']n pv=response.xpathn pl_str = '/td[@class="bd-left"]/div[@class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8"]/span[@class="float-left col-3"]/text()'n if str(pv('//*[@data-id="5"]'+pl_str).extract())=="[]":n item['li'] = ''n else:n item['li']=pv('//*[@data-id="5"]' + pl_str).extract()[0]n if str(pv('//*[@data-id="2"]'+pl_str).extract())=="[]":n item['b5'] = ''n else:n item['b5']=pv('//*[@data-id="2"]' + pl_str).extract()[0]n yield item#程序在取得各个页面的items前，会先处理完之前所有的request队列里的请求，然后再提取items

首先导入我们需要的包:

import datetimenimport sysnimport requestsnimport scrapynimport timenimport jsonnimport scrapy.httpnfrom peilv.items import PeilvItemnfrom lxml import etree

name = ‘FBP’是定义爬取项目名称，以便通过命令scrapy crawl FBP -o BaseData.csv获取数据。

start_requests

向 https://live.leisu.com/wanchang?date=20190606 发送请求。（你可以打开这个网址，里边是爬虫程序爬取数据的最外层网站） scrapy.http.FormRequest 方法：第一个参数是请求的具体网址；第二个参数是下一步调用的函数；第三个参数 meta 是向调用函数传递的参数。

parseLs （parseWl 同理，不再重复讲解）

主要用于解析次外层网页数据。这里用 XPath 解析，也是比较容易掌握的解析方式。网页结构如下：（通过 Google 浏览器打开https://live.leisu.com/wanchang?date=20190606 然后右键点击网页空白处点击“查看网页源代码”，找到你需要爬取的核心数据部分，这里我要找每场比赛的信息，那么拷贝下来，然后以易于查看的规整方式列出，如下：）

<li class="list-item list-item-2674547 list-day-6-6 finished " data-id="2674547" data-status="8" data-eventid="2906" data-status-name="finished" data-nowtime="1559760300" data-realtime="1559764089" data-eventlevels="1" data-halftime="45,15" data-lottery="周三001,北单018," data-asian-name="name-0.25" data-daxiao-name="name-2.5" data-asian="1.125,0.25,0.78,0" data-daxiao="0.99,2.5,0.91,0" data-home-icon="8863b9e186e3580aa6dec29f19155d3a.png" data-away-icon="f84be480c54f0ff871b91fab14a36b36.png" style="height:41px;">n<div class="find-table layout-grid-tbody hide">n<div class="clearfix-row">n...n<span class="lab-round"> 0</span> n<span class="lab-lottery"> n<span class="text-jc">周三001</span> n<span class="text-bd">北单018</span> n<span class="text-zc"></span>n</span> n......

parseLS函数里的下边代码，用sel代表response.xpath，结合上表中 xml 中的元素：获取了比赛场次，存储到item[‘cc’]。

def parseLs(self,response):ntsel=response.xpathntsel_div=sel('//li[@data-id='+str(raceid[0])+']/div[@class="find-table layout-grid-tbody hide"]/div[@class="clearfix-row"]')ntif str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()) == "[]":nt item['cc']=""ntelse:nt item['cc']=str(d2) + str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()[0])

此外，还要获取比赛的赔率信息，但并不在当前这个网页，而在更内层的网页中，需要从当前网页跳转。存储赔率的内层网页为 https://live.leisu.com/3in1-2674547，不同场次的比赛只有-后边的数字是变化的，那么程序中只要循环构造对应的数字2674547就好了。发现这个数字刚好是 data-id。通过以下代码实现获取：

racelist=[e5.split("'") for e5 in sel('//li[@data-status="8"]/@data-id').extract()]nfor raceid in racelist:n plurl='https://live.leisu.com/3in1-'+raceid[0]n request = scrapy.http.FormRequest(plurl,callback=self.parse,meta={'item':item})n yield request

在Request中加入meta，即可将meta传递给response。再提交该网页请求到下一个函数parse。这里需要注意：parse中既返回item又生成新的request。

平时在parse中return item即可返回item，return request则生成新的request请求。如果我们将return换为yield的话即可既返回item又生成新的request。注意一旦使用了yield，那么parse方法中就不能有return了。

parse

网页结构如下：（通过Google浏览器打开https://live.leisu.com/3in1-2674547 然后右键点击网页空白处点击“查看网页源代码”，拷贝需要赔率的部分到文本文档，换行操作后如下：

<tr class="td-data td-pd-8 f-s-12 color-666 bd-top " data-id="4">n<td> n......n<td class="bd-left">n<div class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8">n<span class="float-left col-3"> 1.620 </span>n<span class="float-left col-3"> 3.600 </span> n<span class="float-left col-3"> 5.250 </span>n</div>n......

通过以下代码获取赔率，首先由上一个函数parseLs通过scrapy.http.FormRequest(plurl,callback=self.parse,meta={‘item’:item})调用到下边的parse方法，传入plurl链接对应的网页内容response，同样用response.xpath取出td中class为”bd-left”下边div中class为”begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8”再下边span中class为”float-left col-3”的值。

def parse(self, response):n print('--------------into parse----------------------')n item = response.meta['item']n pv=response.xpathn pl_str = '/td[@class="bd-left"]/div[@class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8"]/span[@class="float-left col-3"]/text()'n if str(pv('//*[@data-id="5"]'+pl_str).extract())=="[]":n item['li'] = ''n else:n item['li']=pv('//*[@data-id="5"]' + pl_str).extract()[0]n if str(pv('//*[@data-id="2"]'+pl_str).extract())=="[]":n item['b5'] = ''n else:n item['b5']=pv('//*[@data-id="2"]' + pl_str).extract()[0]n yield item#程序在取得各个页面的items前，会先处理完之前所有的request队列里的请求，然后再提取items

再通过//*判断所有data-id为5下边的pl_str是否为空，若不为空则将其赋值给item[‘li’]，其他的item赋值同理。

这里重点讲一下parse方法工作机制：因为使用的yield，而不是return。parse函数将会被当做一个生成器使用。

scrapy会逐一获取parse方法中生成的结果，如果是request则加入爬取队列，如果是item类型则使用pipeline处理，其他类型则返回错误信息。

scrapy取到第一部分的request不会立马就去发送这个request，只是把这个request放到队列里，然后接着从生成器里获取；

取尽第一部分的request，然后再获取第二部分的item，取到item了，就会放到对应的pipeline里处理；

parse()方法作为回调函数(callback)赋值给了Request，指定parse()方法来处理这些请求 scrapy.Request(url, callback=self.parse)；

Request对象经过调度，执行生成 scrapy.http.response()的响应对象，并送回给parse()方法，直到调度器中没有Request（递归的思路）；

程序在取得各个页面的items前，会先处理完之前所有的request队列里的请求，然后再提取items。

以上过程Scrapy引擎和调度器将负责到底。

网络知识

Python Scrapy 项目实战

爬虫编写流程

解析“爬虫主程序.py” ：（主程序包括四个函数）

start_requests

parseLs （parseWl 同理，不再重复讲解）

parse

总结

爬虫编写流程

解析“爬虫主程序.py” ：（主程序包括四个函数）

start_requests

parseLs （parseWl 同理，不再重复讲解）

parse

总结

相关文章

央媒谈“文盲演员”引发饭圈甩锅大战

野生大熊猫深夜遛达 镜头前呆萌打卡

张萌谈演员到底需不需要有文化

情人节多地迎领证高峰

婚房烂尾10年业主住进毛坯房

多地首套房贷利率降至4%以下 为什么急于提前还贷

野生大熊猫深夜遛达镜头前呆萌打卡

多地首套房贷利率降至4%以下为什么急于提前还贷