第八課3 爬蟲Scrapy 框架

06-08

第八課3 爬蟲Scrapy 框架

來自專欄 3個月python學習筆記

Scrapy 框架

Scrapy是用純Python實現一個為了爬取網站數據、提取結構性數據而編寫的應用框架，用途非常廣泛。
框架的力量，用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。
Scrapy 使用了 Twisted[tw?st?d](其主要對手是Tornado)非同步網路框架來處理網路通訊，可以加快我們的下載速度，不用自己去實現非同步框架，並且包含了各種中間件介面，可以靈活的完成各種需求。

Scrapy架構圖(綠線是數據流向)

製作 Scrapy 爬蟲一共需要4步：

新建項目 (scrapy startproject xxx)：新建一個新的爬蟲項目
明確目標（編寫items.py）：明確你想要抓取的目標
製作爬蟲（spiders/xxspider.py）：製作爬蟲開始爬取網頁
存儲內容（pipelines.py）：設計管道存儲爬取內容

一. 新建項目(scrapy startproject)

scrapy startproject mySpider

生成項目各個主要文件的作用：

scrapy.cfg ：項目的配置文件

mySpider/ ：項目的Python模塊，將會從這裡引用代碼
mySpider/items.py ：項目的目標文件
mySpider/pipelines.py ：項目的管道文件
mySpider/settings.py ：項目的設置文件

mySpider/spiders/ ：存儲爬蟲代碼目錄

第八課3 爬蟲Scrapy 框架

Scrapy 框架

Scrapy架構圖(綠線是數據流向)

製作 Scrapy 爬蟲一共需要4步：

一. 新建項目(scrapy startproject)

二、明確目標(mySpider/items.py)

三、製作爬蟲（spiders/itcastSpider.py）

第八課3 爬蟲Scrapy 框架

Scrapy 框架

Scrapy架構圖(綠線是數據流向)

製作 Scrapy 爬蟲 一共需要4步：

一. 新建項目(scrapy startproject)

二、明確目標(mySpider/items.py)

三、製作爬蟲 （spiders/itcastSpider.py）

製作 Scrapy 爬蟲一共需要4步：

三、製作爬蟲（spiders/itcastSpider.py）