標籤:

第八課3 爬蟲Scrapy 框架

第八課3 爬蟲Scrapy 框架

來自專欄 3個月python學習筆記

Scrapy 框架

  • Scrapy是用純Python實現一個為了爬取網站數據、提取結構性數據而編寫的應用框架,用途非常廣泛。
  • 框架的力量,用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便。
  • Scrapy 使用了 Twisted[tw?st?d](其主要對手是Tornado)非同步網路框架來處理網路通訊,可以加快我們的下載速度,不用自己去實現非同步框架,並且包含了各種中間件介面,可以靈活的完成各種需求。

Scrapy架構圖(綠線是數據流向)

製作 Scrapy 爬蟲 一共需要4步:

  • 新建項目 (scrapy startproject xxx):新建一個新的爬蟲項目
  • 明確目標 (編寫items.py):明確你想要抓取的目標
  • 製作爬蟲 (spiders/xxspider.py):製作爬蟲開始爬取網頁
  • 存儲內容 (pipelines.py):設計管道存儲爬取內容

一. 新建項目(scrapy startproject)

scrapy startproject mySpider

生成項目各個主要文件的作用:

scrapy.cfg :項目的配置文件

mySpider/ :項目的Python模塊,將會從這裡引用代碼

mySpider/items.py :項目的目標文件

mySpider/pipelines.py :項目的管道文件

mySpider/settings.py :項目的設置文件

mySpider/spiders/ :存儲爬蟲代碼目錄

二、明確目標(mySpider/items.py)

三、製作爬蟲 (spiders/itcastSpider.py)

推薦閱讀:

Python爬蟲之Scrapy學習(基礎篇)
【記錄】Scrapy模擬登錄cookie失效問題
2.Scrapy Tutorial(下) Scrapy 教程(下)
Scrapy cookies淺析
Scrapy中xpath如何提取細節標籤

TAG:scrapy |