Scrapy入门
creating a project
run scrapy startproject tutorial
1 | ---scrapy.cfg |
items.py
Items are containers that will be loaded with the scraped data;like simple python dicts.
1 | class DmozItem(scrapy.Item): |
第一个spider
四个步骤:
1.创建一个Scrapy项目
2.定义Item容器
3.编写爬虫
4.存储内容
创建一个Spider,必须继承scrapy.Spider类。且自定义一些属性:
1.name:用于区别Spider,必须是唯一的。
2.start_urls:
3.parse():个初始URL完成下载后生成的Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的Request对象。
