creating a project

run scrapy startproject tutorial

1
2
3
4
5
6
7
8
---scrapy.cfg
---tutorial/
-------__init__.py
-------items.py
-------pipelines.py
-------settring.py
-------spiders/
-----------__init__.py

items.py

Items are containers that will be loaded with the scraped data;like simple python dicts.

1
2
3
4
class DmozItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()

第一个spider

四个步骤:
1.创建一个Scrapy项目
2.定义Item容器
3.编写爬虫
4.存储内容

创建一个Spider,必须继承scrapy.Spider类。且自定义一些属性:
1.name:用于区别Spider,必须是唯一的。
2.start_urls:
3.parse():个初始URL完成下载后生成的Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的Request对象。