新建一个Scrapy工程

python
0 1074

新建一个Scrapy工程

进入你的目标目录,输入以下指令,创建项目intern。

$ scrapy startproject intern

目录结构如下:

.
├── scrapy.cfg
└── intern
  ├── __init__.py
  ├── items.py
  ├── pipelines.py
  ├── settings.py
  └── spiders
    └── __init__.py

这个目录结构要熟记于心。

  • scrapy.cfg: 全局配置文件
  • intern/: 项目python模块
  • intern/items.py: 项目items文件,定义爬取的数据保存结构
  • intern/pipelines.py: 项目管道文件,对爬取来的数据进行清洗、筛选、保存等操作
  • intern/settings.py: 项目配置文件
  • intern/spiders: 放置spider的目录
3.2 编写items.py文件。

定义item的字段如下:

import scrapy
class InternItem(scrapy.Item):
  title = scrapy.Field()
  href = scrapy.Field()
  author = scrapy.Field()
  time = scrapy.Field()
  content = scrapy.Field()
  is_dev = scrapy.Field()
  is_alg = scrapy.Field()
  is_fin = scrapy.Field()
  base_url_index = scrapy.Field()

定义的方法很简单,每个字段都=scrapy.Field()即可。 使用:比如要使用某item的title,就像python中的dict一样,item['title']即可。

3.3 编写爬虫。

好了终于到了编写爬虫了。以爬取水木社区的爬虫为例。在spiders目录下,创建smSpider.py。