进入你的目标目录,输入以下指令,创建项目intern。
$ scrapy startproject intern
目录结构如下:
.
├── scrapy.cfg
└── intern
├── __init__.py
├── items.py
├── pipelines.py
├── settings.py
└── spiders
└── __init__.py
这个目录结构要熟记于心。
定义item的字段如下:
import scrapy
class InternItem(scrapy.Item):
title = scrapy.Field()
href = scrapy.Field()
author = scrapy.Field()
time = scrapy.Field()
content = scrapy.Field()
is_dev = scrapy.Field()
is_alg = scrapy.Field()
is_fin = scrapy.Field()
base_url_index = scrapy.Field()
定义的方法很简单,每个字段都=scrapy.Field()即可。 使用:比如要使用某item的title,就像python中的dict一样,item['title']即可。
3.3 编写爬虫。好了终于到了编写爬虫了。以爬取水木社区的爬虫为例。在spiders目录下,创建smSpider.py。