第八課3 爬蟲Scrapy 框架
06-08
第八課3 爬蟲Scrapy 框架
來自專欄 3個月python學習筆記
Scrapy 框架
- Scrapy是用純Python實現一個為了爬取網站數據、提取結構性數據而編寫的應用框架,用途非常廣泛。
- 框架的力量,用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便。
- Scrapy 使用了 Twisted
[tw?st?d](其主要對手是Tornado)非同步網路框架來處理網路通訊,可以加快我們的下載速度,不用自己去實現非同步框架,並且包含了各種中間件介面,可以靈活的完成各種需求。
Scrapy架構圖(綠線是數據流向)

製作 Scrapy 爬蟲 一共需要4步:
- 新建項目 (scrapy startproject xxx):新建一個新的爬蟲項目
- 明確目標 (編寫items.py):明確你想要抓取的目標
- 製作爬蟲 (spiders/xxspider.py):製作爬蟲開始爬取網頁
- 存儲內容 (pipelines.py):設計管道存儲爬取內容
一. 新建項目(scrapy startproject)
scrapy startproject mySpider
生成項目各個主要文件的作用:
scrapy.cfg :項目的配置文件
mySpider/ :項目的Python模塊,將會從這裡引用代碼
mySpider/items.py :項目的目標文件mySpider/pipelines.py :項目的管道文件mySpider/settings.py :項目的設置文件mySpider/spiders/ :存儲爬蟲代碼目錄
二、明確目標(mySpider/items.py)
三、製作爬蟲 (spiders/itcastSpider.py)
推薦閱讀:
※Python爬蟲之Scrapy學習(基礎篇)
※【記錄】Scrapy模擬登錄cookie失效問題
※2.Scrapy Tutorial(下) Scrapy 教程(下)
※Scrapy cookies淺析
※Scrapy中xpath如何提取細節標籤
TAG:scrapy |
