1.2 數據化運營所需的Python相關工具和組件
說明:本文是《Python數據分析與數據化運營》中的「1.2 數據化運營所需的Python相關工具和組件」。
-----------------------------下面是正文內容--------------------------
1.2 數據化運營所需的Python相關工具和組件
本書將以Python為主要數據工作工具,本節將重點介紹Python相關工具,包括Python程序、IDE、Python第三方庫、資料庫和客戶端、SSH遠程客戶端、OCR工具和機器學習框架等。
1.2.1 Python程序
關於Python2還是Python3的爭議
目前,Python仍然是兩個系列的版本並存,一個是Python 2(最新版本是2.7.13),另一個是Python3(最新版本是3.7.1)。這兩個版本的語法不完全兼容,因此兩個版本的程序調用對方的執行腳本將很可能報錯。
從現在來看,Python2和Python3都已經非常成熟,因此大多數支持Python2並且仍然開發和維護的庫也開始支持Python3。
從長遠來看,Python2終究是要被拋棄的,所以「遲早」是要升級到Python3去應用的。
但是,Python2如此成熟並且被廣泛應用,即使被拋棄也不是短時間內的事情;同時,為了解決Python遷移的問題,官方提供了Python2到Python3的編碼轉化工具,具體查閱 https://docs.python.org/3/library/2to3.html#to3-reference;另外,熟悉Python2的工作者再對Python3進行了解會非常容易,畢竟二者只是在編碼、語法、字元串和位元組串、數據類型等方面做了一些變動,而不是全新的語法和程序規範的變更,這些內容只佔到整個程序規範和知識的很少一部分。有關Python3的新功能介紹,具體查閱https://docs.python.org/3/whatsnew/3.0.html
因此,如何選擇Python版本不應該是一個過多糾結的問題,因為不論選擇哪個版本對現在和未來工作的影響都微乎其微。但結合特定場景,筆者還是給出具體建議:
- 如果想要成熟、可靠且穩定的程序,選擇Python2。
- 如果只是學習或了解一下Python,Python2和Python3都可以。
- 如果是企業內部應用,具體看企業用的是哪個版本。
- 如果你的工作中需要大量的第三方庫,那麼使用Python2會讓你會更多選擇。
- 如果你的程序需要在Linux伺服器上跑,那麼去看看你的Linux伺服器自帶的Python版本(通常Linux伺服器上自帶Python2的居多)。
- 如果上述沒有任何一個場景滿足你的需求,那麼就從Python2開始吧。由於歷史原因,Python2有更多的應用案例、專業書籍和知識討論分享社區。
關於32位還是64位的問題
相對於Python2還是Python3的差異,選擇32位還是64位的版本倒是影響更大一些,因為這個涉及到了與系統平台和第三方應用的兼容和集成。大多數情況下,建議選擇32位的Python版本,原因是很多軟體以及Python的第三方庫,默認都是32位版本(尤其是一些比較早期的庫)。
當確定了Python的具體版本之後,就可以到Python官網下載對應平台和版本的程序了https://www.python.org/downloads/。
本書的案例基於32位Python實現的,版本是Python 2.7.12。
1.2.2 Python IDE
Python自帶有IDE,可以滿足一定的數據開發和測試需求;同時,在交互型的開發和學習上,也有IPython可供選擇。但這裡建議大家選擇另外一個Python IDE工具—PyCharm。
PyCharm帶有一整套可以幫助用戶在使用Python語言開發時提高其效率的工具,比如調試、語法高亮、項目管理、代碼跳轉、智能提示、自動完成、單元測試、版本控制並可集成IPython、系統終端命令行等,在PyCharm里幾乎就可以實現所有有關Python工作的全部過程。如圖1-2是PyCharm工具界面截圖。

圖1-2 PyCharm工具界面截圖
有關PyCharm的更多信息,具體查閱http://www.jetbrains.com/pycharm/download/#section=windows查閱,並下載對應操作系統的版本。對於版本的選擇,出於學習的目的,選擇免費的社區版本即可。本書中用到的PyCharm版本是2016.3.2社區版。
1.2.3 Python第三方庫
Python第三方庫包括交互開發庫、科學計算庫、機器學習庫、自然語言庫、資料庫連接庫、圖像處理庫、網路爬蟲庫、圖像展示庫等,本節介紹的第三方庫都是書中用到的,其他未用到的庫暫時不做介紹,會在附錄裡面提供完整列表。
對於Python第三方庫的安裝,除了使用setup命令外,大多數都可以通過pip和easy_install命令安裝的。這裡推薦使用pip進行本地或在線安裝,該命令會在安裝2.7.*(準確講是Python 2 >=2.7.9或者Python 3 >=3.4)版本時默認安裝。
使用setup命令從源碼安裝
每個第三方庫都有一個源碼文件壓縮包,格式為.tar.gz或.zip,例如pandas-0.19.2.tar.gz、numpy-1.12.1.zip,將壓縮包從pypi(或其他官方資源)中下載到要安裝的伺服器或本機並解壓(這些步驟都非常簡單),然後在系統終端的命令行窗口執行setup命令即可。以「pandas-0.19.2.tar.gz」文件為例說明整個過程:
下載源碼壓縮包文件
不同的系統下載方法不同,最簡單的方法是直接打開https://pypi.python.org/pypi/pandas/0.19.2並下載名為「pandas-0.19.2.tar.gz」文件到本地,然後使用客戶端工具拷貝到伺服器。
解壓文件
打開系統終端的命令行窗口,進入該文件的下載路徑(或拷貝路徑)並解壓,執行如下命令:
cd [壓縮包文件路徑]tar -zxvf pandas-0.19.2.tar.gz [解壓後的路徑]
上述命令執行後,會在制定的[解壓後的路徑]中解壓當前壓縮包的內容。
執行setup命令
在系統終端的命令行窗口中,進入解壓後的包含了setup.py的路徑(通常是[解壓後的路徑]/pandas-0.19.2),執行如下命令:
cd [解壓後的包含了setup.py的路徑]python setup.py install
上述代碼會默認執行完成命令,如果環境配置正確會有成功安裝提示。
注意 離線安裝第三方庫/包時,不同的庫/包可能存在依賴關係,如果在安裝之前沒有安裝和配置好相應的包,那麼可能報錯。例如安裝statsmodels 0.8時,依賴Python >= 2.6、NumPy >= 1.6、SciPy >= 0.11、Pandas >= 0.12、Patsy >= 0.2.1等。因此,大多數情況下,不建議手動離線安裝。
使用pip命令從whl文件安裝
使用pip安裝Python第三方庫更加簡單,只需先將符合要安裝庫的系統環境的whl文件下載到伺服器或本地,然後在系統終端的命令行窗口輸入:pip
install [PackageName.whl] 。仍然以上述pandas安裝為例說明整個過程:下載whl文件
不同的系統所需要的whl文件不同,根據實際系統版本和Python程序版本而定。以筆者的Windows環境下32位的Python2版本為例,筆者在https://pypi.python.org/pypi/pandas/0.19.2並下載名為「pandas-0.19.2-cp27-cp27m-win32.whl」文件到本地。
安裝whl文件
在系統終端的命令行窗口中,進入下載路徑(筆者路徑為桌面),執行如下命令:
cd C:UsersAdministratorDesktoppip install pandas-0.19.2-cp27-cp27m-win32.whl
命令執行完成之後,也會提示安裝成功。
注意 使用pip命令安裝包時,需要在系統終端的命令行窗口而非Python或IPython工作界面中執行。進入Windows終端的命令行窗口的方法是:組合件Win+R,在彈出的窗口中輸入cmd,點擊確定。
使用pip進行在線安裝
大多數清下,都建議採用pip在線的安裝方式,通過pip在線安裝可以解決不同包之間的依賴關係(自動下載依賴包)。
在線安裝的方法非常簡單,只需在系統終端打開命令行窗口,然後輸入如下命令:
pip install [PackageName]
以上述pandas安裝為例,在聯網的前提下,只需直接在系統終端命令行輸入:pip install pandas即可完成安裝。
pip本身是一個非常強大的第三方包/庫管理工具,包括下載、安裝、升級、卸載、搜索、查看過期和版本等功能。有關pip的更多信息,具體查閱https://pip.pypa.io/en/stable/。
考慮到「1.2數據化運營所需的Python相關工具和組件」的URL比較多,筆者會在附件的lib文件夾中將所有URL整理為一個名為「lib_url.txt」的文件;同時,本書所用到的Windows下32位Python2的第三方安裝庫(whl文件),也會在該文件夾下,讀者有需要可以使用pip命令安裝。
1. 交互開發庫
IPython
IPython 是一個基於Python 的互動式shell,比默認的Python shell 好用得多,支持變數自動補全、自動縮進、互動式幫助、魔法命令、系統命令等,內置了許多很有用的功能和函數。在「Python第三方庫」中,若無特殊說明,默認使用IPython作為交互和測試工具。
IPython的安裝可直接在系統終端的命令行窗口使用pip install ipython完成。安裝成功之後,進入系統終端命令行窗口,輸入ipython,回車後進入交互開發界面,如圖1-3:

圖1-3 IPython交互開發界面
本書中用到的IPython版本是5.3.0。有關IPython的安裝和更多信息,具體查閱http://ipython.org/。
2. 科學計算庫
Numpy
NumPy(Numeric Python的簡稱)是Python科學計算的基礎工具包,它提供的功能包括:
- 快速高效的多維數組ndarray,大多數Python的多維數據組都是基於Numpy進行處理。
- 基於數組整體或元素級別進行科學計算的能力,需要迭代循環。
- 比較成熟的(廣播)函數庫。
- 提供用於整合C、C++和Fortran代碼到Python的工具包。
- 實用的線性代數、傅里葉變換和隨機數生成函數。
- NumPy和稀疏矩陣運算包Scipy配合使用更加方便。
- 多種庫和演算法間進行數據交互的「數據容器」,由低級語言(例如C)編寫的庫可直接讀取Numpy的數據而不必經過轉換。
默認情況下,我們可以使用pip install
numpy命令進行安裝,但考慮到我們即將要使用的scipy 0.19.0中需要依賴於numpy+mkl,因此我們選擇一次性將這兩個包一起安裝,方法如下:第一步 從http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy中下載numpy?1.11.3+mkl?cp27?cp27m?win32.whl。
第二步 打開命令行窗口,使用cd [路徑]命令進入上述whl文件的下載路徑。筆者的下載路徑為Windows桌面,路徑為C:UsersAdministratorDesktop。
C:UsersAdministrator>cdC:UsersAdministratorDesktop
第三步 使用pip install [本地PackageName].whl命令安裝本地下載的包。
C:UsersAdministratorDesktop>pipinstall numpy-1.11.3+mkl-cp27-cp27m-win32.whl
安裝成功之後,在IPython中輸入import
numpy時,不出現報錯則說明該庫已經成功安裝並導入。本書中用到的Numpy版本是1.11.3。相關知識點:查看庫的版本信息
查看Numpy(以及其他庫)的版本常用的有兩種方式:
一種是在Python或IPython中導入庫後通過__version__屬性查看:
In [1]: import numpyIn [2]: print (numpy.__version__)1.12.1
一種是在命令行窗口(非Python或IPython工作窗口)輸入pip list,系統會返回所有安裝的第三方庫以及版本列表信息,從中找到numpy即可:
C:UsersAdministrator>pip listDEPRECATION: The default format will switchto columns in the future. You can use --format=(legacy|columns) (or define aformat=(legacy|columns) in your pip.conf under the [list] section) to disable thiswarning.appdirs (1.4.3)asn1crypto (0.22.0)backports.shutil-get-terminal-size (1.0.0)beautifulsoup4 (4.5.3)cffi (1.9.1)matplotlib (1.5.3)mysql-connector-python (2.1.5)nose (1.3.7)numpy (1.11.3)pandas (0.19.2)
有關Numpy的安裝和更多信息,請查閱http://www.numpy.org/
Scipy
Scipy(Scientific Computing Tools for Python的簡稱)是一組專門解決科學和工程計算不同場景的主題工具包,主要功能包括:
- 數值積分和微分方程求解器。
- 擴展了有numpy.linal的線性代數歷程和矩陣分解功能。
- 函數優化其(最小化器)以及跟查找方法。
- 信號處理工具。
- 係數矩陣和係數線性系統求解器。
在其他環境下,安裝Scipy時直接使用pip
install scipy即可;但在Windows 32位Python環境下該命令會報錯,原因是在http://pypi.python.org庫(也就是pip引用的伺服器資源庫)中找不到32位下的Python2對應的Scipy安裝包。除了可以源碼安裝外,還可通過如下方法進行安裝。第一步 從http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy中下載scipy?0.19.0?cp27?cp27m?win32.whl第二步 打開命令行窗口,使用cd [路徑]命令進入上述whl文件的下載路徑。筆者的下載路徑為Windows桌面,路徑為C:UsersAdministratorDesktop。
C:UsersAdministrator>cdC:UsersAdministratorDesktop
第三步 使用pip install [本地PackageName].whl命令安裝本地下載的包。
C:UsersAdministratorDesktop>pipinstall scipy-0.19.0-cp27-cp27m-win32.whl
安裝成功之後,在IPython中輸入import
scipy時,不出現報錯則說明該庫已經成功安裝並導入。本書中用到的Scipy版本是0.19.0。有關Scipy的安裝和更多信息,請查閱https://www.scipy.org/install.html。
Pandas
Pandas(Python Data Analysis Library的簡稱)是一個用於Python數據分析的庫,它的主要作用是進行數據分析。Pandas提供用於進行結構化數據分析的二維的表格型數據結構DataFrame,類似於R中的數據框,能提供類似於資料庫中的切片、切塊、聚合、選擇子集等精細化操作,為數據分析提供了便捷。另外,Pandas還提供了時間序列的功能,用於金融行業的數據分析。
Pandas的安裝直接使用pip install pandas命令即可。安裝成功之後,在IPython中輸入import pandas時,不出現報錯則說明該庫已經成功安裝並導入。
本書中用到的Pandas版本是0.19.2。有關Pandas的安裝和更多信息,具體查閱http://pandas.pydata.org/
Statsmodels
Statsmodels是Python的統計建模和計量經濟學工具包,包括一些描述性統計、統計模型估計和統計測試,集成了多種線性回歸模型、廣義線性回歸模型、離散數據分布模型、時間序列分析模型、非參數估計、生存分析、主成分分析、核密度估計以及廣泛的統計測試和繪圖等功能。
Statsmodels的安裝則直接使用pip install statsmodels即可。安裝成功之後,在IPython中輸入import statsmodels時,不出現報錯則說明該庫已經成功安裝並導入。
本書中用到的Statsmodels版本是0.8.0。有關Statsmodels的安裝和更多信息,具體查閱http://statsmodels.sourceforge.net/index.html
3. 機器學習庫
scikit-learn
scikit-learn(有時也稱為SKlearn)是一個基於Python的機器學習綜合庫,內置監督式學習和非監督式學習兩類機器學習方法,包括各種回歸、K近鄰、貝葉斯、決策樹、混合高斯模型、聚類、分類、流式學習、人工神經網路、集成方法等主流演算法,同時支持預置數據集、數據預處理、模型選擇和評估等方法,是一個非常完整的機器學習工具庫。scikit-learn是Python數據挖掘和機器學習的主要庫之一。
提示 scikit-learn缺少了某些常用演算法,例如關聯規則演算法、時間序列演算法等。不過結合Pandas和Statsmodels可以實現時間序列演算法;關聯規則相對簡單,pipy上也有很多開源庫,當然如果你動手能力強,使用Python自行編寫難度也不大。在後續的模型和案例中,我們會重點介紹。
scikit-learn的安裝則直接使用pip install sklearn即可(注意庫名稱為sklearn)。安裝成功之後,在IPython中輸入import sklearn時,不出現報錯則說明該庫已經成功安裝並導入。
本書中用到的scikit-learn版本是0.18.1。有關scikit-learn的安裝和更多信息,具體查閱http://scikit-learn.org/stable/index.html
注意 在安裝scikit-learn之前一定要確保Numpy(含mkl)、Scipy、Matplotlib按順序安裝,這樣才能保證不同庫的依賴關係正確建立,否則可能會導致scikit-learn安裝或導入報錯。
4. 自然語言處理庫
結巴分詞
由於NLTK本身不支持中文分詞,因此在針對中文的處理過程中,我們會引入其他分詞工具,例如結巴分詞。結巴分詞是國內的Python文本處理工具包,分詞模式分為三種模式:精確模式、全模式和搜索引擎模式,支持繁體分詞、自定義詞典等,是非常好的Python中文分詞解決方案,可以實現分詞、詞典管理、關鍵字抽取、詞性標註等。
結巴分詞的安裝直接使用pip install
jieba命令即可。安裝成功之後,在IPython中輸入import jieba時,不出現報錯則說明該庫已經成功安裝並導入。本書用到的結巴分詞的版本是0.38。有關結巴分詞的安裝和更多信息,具體查閱https://github.com/fxsjy/jieba/
Gensim
Gensim是一個專業的主題模型(主題模型發掘文字中隱含主題的一種統計建模方法)Python工具包,用來提供可擴展統計語義、分析純文本語義結構以及檢索語義上類似的文檔。
Gensim的安裝直接使用pip install gensim命令即可。安裝成功之後,在IPython中輸入import gensim時,不出現報錯則說明該庫已經成功安裝並導入。
本書中用到的Gensim版本是1.0.1。具體查閱http://radimrehurek.com/gensim/
5. 資料庫連接庫
資料庫存儲是企業數據存儲的基本方式,資料庫類型包括MySQL、Oracle、SQL Server、DB2、Sybase等,基於大數據場景下還會包括Hive、Hbase、MongoDB、Redis等的數據存儲。
MySQL連接庫
為了方便本書讀者練習和應用,本書使用MySQL資料庫進行數據存儲、查詢等操作。要使Python連接MySql,既可以通過MySQL官方連接程序,也可以使用第三方庫來實現。
使用MySQL官方程序
到https://dev.mysql.com/downloads/connector/python/直接下載對應版本Python的程序,筆者下載的是mysql-connector-python-2.1.5-py2.7-win32.msi。然後直接安裝即可,中間沒有任何配置。安裝成功之後,在IPython中輸入import mysql.connector時,不出現報錯則說明該庫已經成功安裝並導入。
注意 在選擇32位還是64位時,需要注意的是這裡指的是Python的版本,而不是操作系統版本。例如筆者的電腦為64位Windows,但安裝的是32位的Python,因此,選擇的是mysql-connector-python-2.1.5-py2.7-win32.msi
使用第三方庫MySQL-python
登錄https://pypi.python.org/pypi/MySQL-python/下載對應版本的安裝包即可。目前該庫已經很長時間沒有更新,並且只支持32位的Python2。安裝成功之後,在IPython中輸入import MySQLdb(注意大小寫)時,不出現報錯則說明該庫已經成功安裝並導入。
兩種連接方式選擇任意一個都沒有使用問題,但考慮到官方連接程序支持的平台和版本更多,因此,這裡推薦使用官方連接。
MongoDB連接庫
由於不同企業的大數據平台的數據存儲不同,並且即使是同一種存儲方案,也會由於系統環境和存儲組件的版本不同導致適配和連接的差異,本節僅以MongoDB連接包為例進行說明。
MongoDB是由C++語言編寫的分散式文件存儲的資料庫,它是以Key-Value(鍵值對)形式面向文檔存儲的非關係型資料庫。
Python連接MongoDB可以使用PyMongo(MongoDB官方驅動程序),通過pip install pymongo進行安裝,安裝成功之後,在IPython中輸入import pymongo時,不出現報錯則說明該庫已經成功安裝並導入。
本書中用到的PyMongo版本是3.4.0。有關PyMongo的安裝和更多信息,具體查閱http://api.mongodb.com/python/current/tutorial.html
6. HTML處理庫
網路是企業重要的外部數據來源,因此獲取和處理HTML的信息是Python數據接入和處理的重要能力。
Beautiful Soup
Beautiful Soup是網頁數據解析和格式化處理工具,它嚴格意義上來講不是一個純抓取類的工具,因為它不具備抓取能力,通常配合Python的urllib、urllib2等庫一起使用。
Beautiful Soup的安裝直接使用pip install
beautifulsoup4(注意後面有個4)命令即可。安裝成功之後,在IPython中輸入import bs4(注意導入的庫名跟安裝的庫名不一致)時,不出現報錯則說明該庫已經成功安裝並導入。本書中用到的Beautiful
Soup版本是4.5.3。有關BeautifulSoup的安裝和更多信息,具體查閱https://www.crummy.com/software/BeautifulSoup/7. 圖形展示庫
圖形展示是數據可視化的必要內容,在Python中,通常使用Matplotlib實現圖形展示。
Matplotlib
Matplotlib是Python的2D繪圖庫,它以各種硬拷貝格式和跨平台的互動式環境生成出版質量級別的圖形,開發者可以僅需要幾行代碼,便可以生成繪圖、直方圖、功率譜、條形圖、錯誤圖、散點圖等。
Matplotlib的安裝直接使用pip install matplotlib命令即可。安裝成功之後,在IPython中輸入import matplotlib時,不出現報錯則說明該庫已經成功安裝並導入。
本書中用到的Matplotlib版本是4.5.3。具體查閱http://matplotlib.org/
8. 圖像處理庫
圖像處理提供針對視頻和圖像數據的輸入、分析、處理和挖掘的功能,Python最常用的圖像和視頻處理庫是PIL和OpenCV。
PIL
PIL(Python Imaging Library的簡稱)是一個常用的圖像輸入、處理和分析的庫,提供了多種數據處理、變換的操作方法和屬性。
PIL的安裝直接使用pip install PIL(注意大小寫)命令即可。安裝成功之後,在IPython中輸入import PIL(注意大小寫)時,不出現報錯則說明該庫已經成功安裝並導入。
本書中用到的PIL版本是1.1.7。PIL的安裝依賴於Python(= 2.7.*),不支持Python3,有關PIL的安裝和更多信息,具體查閱http://www.pythonware.com/products/pil/
OpenCV
OpenCV是一個強大的圖像和視頻工作庫。它提供了Python、C、C++、和Java介面,支持Windows、Linux、Mac OS、IOS和Android。OpenCV的設計效率很高,它以優化的C / C ++編寫,庫可以利用多核處理。除了對圖像進行基本處理外,還支持圖像數據建模,並預製了多種圖像識別引擎。
OpenCV的安裝無法直接使用pip命令實現,需要手動下載OpenCV源文件,然後將特定文件複製到Python第三方庫目錄下。下面以Windows為例介紹具體過程。
第一步 進入http://opencv.org/opencv-3-2.html,點擊「Windows self-extracting archive: sourceforge」,會打開一個新的頁面並自動下載一個名為「opencv-3.2.0-vc14.exe」的文件。
第二步 下載完成後,雙擊該文件,按照提示將OpenCV的源碼解壓到任意目錄。

圖1-4解壓OpenCV代碼到任意目錄
第三步 找到解壓文件中路徑為* opencvuildpython2.7x86中的「cv2.pyd」文件,然後複製到Python的第三方庫路徑,路徑地址為*Python27Libsite-packages。
上述操作完成後,在IPython中輸入import
cv2(注意庫名)時,不出現報錯則說明該庫已經成功安裝並導入。本書中用到的OpenCV版本是3.2.0。有關OpenCV的安裝和更多信息,請查閱http://opencv.org
9. 其他庫
本書中根據實際案例,還會安裝不同的第三方庫/包,具體會在場景中說明,在此不一一列出。
1.2.4 資料庫和客戶端
在本書中,大多數案例數據都會直接從資料庫中讀取,這是因為實際應用中的運營數據基本也是在資料庫中直接獲取並進行初步的數據探查工作,因此資料庫是開展數據工作的基礎工具。為了提高資料庫的操作和使用效率,並能使更多讀者開始入門資料庫應用,我們會使用客戶端工具,通過界面化的方式降低資料庫的應用難度。資料庫我們選擇MySQL,客戶端使用Navicat。
關於MySQL和Navicat軟體的下載,網路資源非常豐富,請讀者自行尋找並下載安裝,筆者的MySQL版本為32位版本5.0.51b。以下是有關MySQL配置過程中的關鍵過程:
設置模式

選擇Detailed
Configuration,目的是自己配置所有信息。伺服器實例配置

圖1-6配置伺服器實例
如果本地電腦是多用途的,那麼建議選擇Server Machine,兼顧效率和其他應用;如果要保證其他大型應用對資源的佔用,那麼選擇Developer Machine;如果要優先保障資料庫資源,那麼選擇Dedicated MySQL Server Machine。
設置字符集

圖1-7設置字符集
這裡選擇手動設置,資料庫字符集為gb2312,目的是兼容中文字符集並不至於使字型檔容量過大。
資料庫安裝並配置完成之後,通過Navicat客戶端進行連接。方法是:點擊頂部菜單「文件-新建連接-MySQL」,在彈出的對象框中如下信息:
- 連接名:用來識別不同連接的名稱。
- 主機名/IP地址:本地使用127.0.0.1,遠程伺服器填寫實際IP地址。
- 埠:在配置MySQL時設置的埠,默認為3306(具體取決於配置MySQL時的設置)。
- 用戶名和密碼:在配置MySQL時創建的用戶名和密碼。

圖1-8新建資料庫連接
輸入完成後,點擊「連接測試」,如果信息配置正確並且MySQL服務可用,那麼會返回「連接成功」字樣。
有關使用客戶端以及Python直接操作資料庫的具體應用會在後續案例中陸續介紹。
1.2.5 SSH遠程客戶端
對於數據工作而言,如果只是在本機上做數據分析處理和建模工作,通常只能利用有限的個人電腦性能實現有限規模的數據計算能力。當數據計算量或數據規模很大時,通常會選擇在本地進行數據測試,然後到伺服器上運行Python程序。此時,我們需要一個能在本機和伺服器之間進行數據、信息和指令交互的SSH遠程客戶端工具。
對大多數數據工作者而言,本地電腦以Windows居多,而伺服器以Linux系統居多,因此SSH遠程客戶端工具的主要作用就是連接Windows和Linux。此類工具很多,包括XShell、SecureCRT等,筆者使用的是SecureCRT。
推薦閱讀:
※python3 調試筆記
※遲來的第一篇文章。
※Jinja2動態生成周報
※python 括弧檢測是否匹配?
※Python特點及應用
