Python小白想爬取網路數據?

本人是統計學的,有R軟體打底,並且有C語言的基礎,想知道如果僅僅想用python爬取網路數據應該從哪方面入手,或者在這方面有什麼參考書?


你有 R 語言基礎就先從 R 的 package 開始學唄,對整個爬取的流程有個大致了解了再學 Python 會容易一點,不然光是 Python 和 R 的語法差異就要踩好多坑了。

和 web 有關的 R package 都在CRAN Task View: Web Technologies and Services。

學會 httr,curl,rvest,XML就足以應付小型需求了。

高效、自動、並行的爬蟲還是需要 Python。


完全不需要書,利用搜索引擎學習。

簡單爬蟲不難,無非發起http訪問,取得網頁的源代碼文本,從源代碼文本中抽取信息。

首先要自己會寫代碼。

學習爬蟲可以從下面一些知識點入手學習。

1、http相關知識。

2、瀏覽器攔截、抓包。

3、python2 中編碼知識,python3 中bytes 和str類型轉換。

4、抓取javascript 動態生成的內容。

5、模擬post、get,header等

6、cookie處理,登錄。

7、代理訪問。

8、多線程訪問、python 3 asyncio 非同步。

9、正則表達式、xpath等

等等。。。。

還有scrapy requests等第三方庫的使用。

請看看

Python爬蟲聯想詞視頻和代碼

知乎專欄

跟黃哥學Python爬蟲抓取代理IP和驗證。

知乎專欄

跟黃哥學Python爬蟲抓取代理IP

知乎專欄


Python的基礎語法在網上找個視頻或者博客看看就行,語法不是很難,就是語法糖有點多。

http好好看看,那個《http權威指南》不錯。

網頁的結構要學學,比如css選擇器,這個網上看看視頻就行了。

正則表達式要學學,語法也不用背,用的時候查查就行。

對性能有要求的話,學學多線程。《流暢的python》裡面有兩個章節講這方面講的不錯。

學個主流的資料庫比如MySQL,不用學多深,會點SQL就行,你會R,估計這個不是問題。

其他的就是Python裡面調用各種庫就行了!比如requests,scapy,selenium等。

具體再有什麼問題可以私信我。


深入了解http協議,熟悉一點javascript和html


html的結構

http請求的方式


推薦閱讀:

「男友讓我打十萬個「對不起」,漢字標上多少遍。」這個問題用 R 如何實現?
你為什麼使用 jupyter ,進行分析,而不是用 python 腳本或僅僅利用 excel ?
python有大量機器學習庫,但是不能結合hadoop,該如何實現大規模的機器學習?
從零到搭建一個能提供API介面的網站,過程是怎樣的?
定位後端開發,有哪些書籍值得推薦?

TAG:Python | 數據挖掘 | Python入門 | R編程語言 |