知行迭代
导航
首页
最近更改
随机页面
常用
分类目录
Linux命令
Mediawiki常用
电脑技巧
工具
链入页面
相关更改
特殊页面
页面信息
登录
查看“Scrapy”的源代码
←
Scrapy
页面
讨论
阅读
查看源代码
查看历史
因为以下原因,您没有权限编辑本页:
您请求的操作仅限属于该用户组的用户执行:[
[1]
]
您可以查看和复制此页面的源代码。
Scrapy 是一个开源的[[网络爬虫]]框架。 ==简介== ===时间轴=== ==快速入门== ===架构=== {{#drawio:Scrapy架构}} {{了解更多 |[https://docs.scrapy.org/en/latest/topics/architecture.html Scrapy 文档:Architecture overview] }} ==选择器== Scrapy支持使用[[XPath]]或[[CSS]]进行选择。其中CSS选择器底层也转为XPath来实现。可以使用<code>scrapy shell</code>来进行交互式测试选取。 {{了解更多 |[https://docs.scrapy.org/en/latest/topics/selectors.html Scrapy 文档:selectors ] }} === 选择器生成 === 选择器可以嵌套使用。 {| class="wikitable" ! 名称 ! 描述 ! 示例 |- | response.selector.xpath() | 简写<code>response.xpath()</code> | <code>response.xpath("//span/text()")</code> <br /><code>response.css("img").xpath("@src")</code>选择所有含有src属性的img |- | response.selector.css() | 简写<code>response.css()</code> |<code>response.css("span::text")</code> |} === 选择器属性方法 === {| class="wikitable" ! 名称 ! 描述 ! 示例 |- | get() | 提取匹配第一个的数据,没有返回None,等同于之前版本的<code>extract_first()</code>。 | <code>response.xpath("//title/text()").get()</code>返回标题,没有返回None。 <br /><code>response.xpath("//title/text()").get().get(default="默认值")</code>返回标题,没有返回“默认值”。 |- | getall() | 返回列表,所有匹配元素的数据。等同于之前版本的<code>extract()</code>。 | <code>response.css("img").xpath("@src").getall()</code> |- |attrib | 返回匹配元素的属性,当用于列表上,返回第一个元素的属性。 | <code>response.css("img").attrib["src"]</code> <br /><code>response.css("img").attrib["src"]</code> |} {{了解更多 |[https://docs.scrapy.org/en/latest/topics/selectors.html Scrapy 文档:selectors ] }} ==蜘蛛== ==项目管道== 当蜘蛛抓取到item后,会发送到项目管道(Item Pipeline),按项目管道设置的值,按从小到大依次进入不同管道处理。项目管道的典型用途包括: * 清理 HTML 数据 * 验证抓取的数据(检查项目是否包含某些字段) * 检查重复项(并删除它们) * 将抓取的项目存储在数据库中 {{了解更多 |[https://docs.scrapy.org/en/latest/topics/item-pipeline.html Scrapy 文档: Item Pipeline] }} ==下载器== ==资源== ===官网=== *Scrapy 官网:https://scrapy.org/ *Scrapy 文档:https://docs.scrapy.org/ *Scrapy 源代码:https://github.com/scrapy/scrapy ===网站===
本页使用的模板:
模板:了解更多
(
查看源代码
)
返回至“
Scrapy
”。