Scrapy

Scrapy 是一个开源的网络爬虫框架。

简介

Scrapy支持使用XPath或CSS进行选择。其中CSS选择器底层也转为XPath来实现。可以使用scrapy shell来进行交互式测试选取。

选择器可以嵌套使用。

名称	描述	示例
response.selector.xpath()	简写`response.xpath()`	`response.xpath("//span/text()")` `response.css("img").xpath("@src")`选择所有含有src属性的img
response.selector.css()	简写`response.css()`	`response.css("span::text")`

名称	描述	示例
get()	提取匹配第一个的数据，没有返回None，等同于之前版本的`extract_first()`。	`response.xpath("//title/text()").get()`返回标题，没有返回None。 `response.xpath("//title/text()").get().get(default="默认值")`返回标题，没有返回“默认值”。
getall()	返回列表，所有匹配元素的数据。等同于之前版本的`extract()`。	`response.css("img").xpath("@src").getall()`
attrib	返回匹配元素的属性，当用于列表上，返回第一个元素的属性。	`response.css("img").attrib["src"]` `response.css("img").attrib["src"]`

当蜘蛛抓取到item后，会发送到项目管道（Item Pipeline），按项目管道设置的值，按从小到大依次进入不同管道处理。项目管道的典型用途包括：