新建一个Scrapy工程

python

 0  1402

2019-08-05

【新用户专享特惠，上云优惠聚集地】云大使专享 • 阿里云轻量服务器108元/年 [链接]
阿里云云服务器 99元/1年

新建一个Scrapy工程

进入你的目标目录，输入以下指令，创建项目intern。

$ scrapy startproject intern

目录结构如下：

.
├── scrapy.cfg
└── intern
  ├── __init__.py
  ├── items.py
  ├── pipelines.py
  ├── settings.py
  └── spiders
    └── __init__.py

这个目录结构要熟记于心。

scrapy.cfg: 全局配置文件
intern/: 项目python模块
intern/items.py: 项目items文件，定义爬取的数据保存结构
intern/pipelines.py: 项目管道文件，对爬取来的数据进行清洗、筛选、保存等操作
intern/settings.py: 项目配置文件
intern/spiders: 放置spider的目录

3.2 编写items.py文件。

定义item的字段如下：

import scrapy
class InternItem(scrapy.Item):
  title = scrapy.Field()
  href = scrapy.Field()
  author = scrapy.Field()
  time = scrapy.Field()
  content = scrapy.Field()
  is_dev = scrapy.Field()
  is_alg = scrapy.Field()
  is_fin = scrapy.Field()
  base_url_index = scrapy.Field()

定义的方法很简单，每个字段都=scrapy.Field()即可。使用：比如要使用某item的title，就像python中的dict一样，item['title']即可。

3.3 编写爬虫。

好了终于到了编写爬虫了。以爬取水木社区的爬虫为例。在spiders目录下，创建smSpider.py。

新建一个Scrapy工程

备忘帖