对于Pyspider爬虫框架你知道多少？

python

 0  1420

csroad 看网云空间提供免费测试学习站点

2019-07-24

Pyspider 是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。

主要功能需求：

1、抓取，更新调度多站点的特定的页面

2、需要对页面进行结果化信息的提取

3、灵活可扩展，稳定可监控

Pyspider设计基础：

1、通过python脚本进行结构化信息的提取，follow链接调度抓取控制，实现最大的灵活性

2、通过web化的脚本编写，调试环境.。web展现调度状态

3、抓取环境成熟稳定，模块间相互独立，通过消息队列链接，从单进程到多机分布式灵活拓展

优势：

1、基于多线程异步的任务调度方式；可以实现爬虫的高并发爬取，注意使用代理；

2、它提供了一个WedUI的爬虫任务管理界面，可以实现爬虫的停止，启动，调试，支持定时爬取任务；

3、代码简洁；

4、支持动态网站的爬取；requests/urllib只能爬取静态网站。

劣势：

可扩展性不强；

整体上来说：一些订制性高的，需要自己定义一些功能的时候可以使用Scrapy，而一些定制性不高，不需要太多自定义功能时使用pyspider

装饰器的使用

不管是什么爬虫框架，在爬虫采集数据的过程中都会面临IP被封、爬取受限、违法操作等多种问题，所以在爬取数据之前，一定要了解好预爬网站是否涉及违法操作，找到合适的代理IP访问网站等一系列问题。

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/31561225/viewspace-2375028/，如需转载，请注明出处，否则将追究法律责任。