scrapy基本用法

一、测试目标
目标测试网站:http://quotes.toscrape.com/
二、流程框架
  • 抓取第一页
  • 获取内容和下一页链接
  • 保存爬取结果
  • 翻页爬取
三、一个小例子
1、创建scrapy项目

2、创建第一个爬虫
先进入到项目中
然后使用genspider创建爬虫
这里quotes是爬虫的名字
quotes.toscrape.com是爬取的域名
  • name是指定的唯一的名字
  • allowed_domains是允许爬取的域名范围
  • start_urls是起始开始爬的URL地址
  • parse是解析操作的一个函数
3、爬虫目录中各文件作用
  • items.py:要保存数据的数据结构谢在这里
  • middlewares.py:爬取过程中定义的中间件,可以处理request,response等操作。
  • pipelines.py:管道,用来输出一些items
  • settings.py:定义一些设置
  • spiders文件夹:运行的代码都写在这里
4、定义需要存储信息的数据结构
在items.py中我们定义存储信息的数据结构
这里我们定义三个text、author、tags

 

5、开始解析页面
首先分析页面,可以看到一个class位quote的代表一个区块
Image.png
而一个quote中又有三个部分分别是text,author和tags,与我们想要存储的信息一致
Image [2].png
回到quotes.py中,我们改写parse函数
首先我们先完成单页面解析和存储

 

实现不断翻页抓取解析

Image [3].png

6、保存成json格式

Image [4].png