博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Scrapy 爬虫模板--SitemapSpider
阅读量:2020 次
发布时间:2019-04-28

本文共 1289 字,大约阅读时间需要 4 分钟。

SitemapSiper 允许我们通过网站的 Sitemap 文件中的 URL 来爬取一个网站。Sitemap 文件包含整个网站的每个网址链接,其中包含了上次更新时间、更新频率以及网址的权重(重要程度)。常见的 Sitemap 文件格式有 TXT 、 XML 和 HTML 格式,大部分网站是以 XML 格式来显示的。下面我们来看一下 CSDN 网站的 Sitemap 文件格式。

CSDN 网站 Sitemap 文件
我们来讲解一下上图中各个节点的意思:

  1. loc:完整的网址;
  2. lastmod:最后修改时间;
  3. changefreq:更新频率;
  4. priority:链接的权重。

下面我们来讲解一下 SitemapSiper 中常用的属性:

  1. sitemap_urls:包含待爬取 url 的 Sitemap 列表;
  2. sitemap_rules:元组列表,包含正则表达式和回调函数,格式是这样的 (regex,callback)。regex 可以是正则表达式,也可以是一个字符串。 callback 用于处理 url 的回调函数;
  3. sitemap_follow:指定需要跟进 Sitemap 的正则表达式列表;
  4. sitemap_alternate_link:当指定的 url 有可选的链接时是否跟进,默认不跟进。这里所谓的可选链接指的是备用网址,一般的格式如下:
http://aaa.com

零、例子

下面我们通过爬取 CSDN 的 Sitemap 来看一下怎么使用 SitemapSiper 。

from scrapy.spiders import SitemapSpiderfrom ..items import CsdnItemclass csdnspider(SitemapSpider):    name = 'csdn_spider'    sitemap_urls = ['https://www.csdn.net/sitemap.xml']    sitemap_rules = [        ('beautifulsoup4', 'parse')    ]    def parse(self, response):        docs = response.css('.local-toc li')        for doc in docs:            item = CsdnItem()            item["title"] = doc.css(".reference::text").extract_first()            item["url"] = doc.css(".reference::attr(href)").extract_first()            yield item
import scrapyclass CsdnItem(scrapy.Item):    title = scrapy.Field()    url = scrapy.Field()

转载地址:http://xwqxf.baihongyu.com/

你可能感兴趣的文章
马原:叫座比叫好更重要
查看>>
互联网产品设计的“马化腾法则”
查看>>
[CTO札记]‘找茬’功能分析
查看>>
[CTO札记]雅虎主页改版使用户停留时间增加20%
查看>>
[CTO札记]Twitter运维经验,原始文档
查看>>
[CTO札记]‘信息/行为外播’--与开放SNS平台的互动
查看>>
[CTO札记]FaceBook的获利方式
查看>>
[CTO札记]从文章->图->关键词,谈传播的有效形式
查看>>
电子书格式,ePub将是趋势
查看>>
阅读:漫画与文本的互相促进
查看>>
一个Excel技巧,及其蕴含的编程规范思想
查看>>
张亚勤:领导者的3种能力
查看>>
小说阅读网站的‘作者’为何不用实名制?
查看>>
【干货】数据分析师的真实写照
查看>>
生活全方面资源共享(不断更新)
查看>>
MySQL语法复习--触发器与事件
查看>>
linux下安装selenium
查看>>
selenium的进阶1
查看>>
selenium进阶2
查看>>
MySQL逗号分割字段的行列转换技巧
查看>>