前言
之前一直做大數據方向的工作,用spark、flink、hive等等處理數據居多,語言方面一般使用scala、java很少用到python,但是不得不說如果想要從事算法方向的工作還是必須得把python用熟練了。下面整理一下學習的流程。
Python基礎
這個很簡單,但很重要,推薦看一下這本書的基礎部分
主要掌握知識點:
- 常用的數據結構及對應方法
- 三種控制流的使用
- 字符串的常用處理方法
- 正則表達式的使用
- 函數的編寫
Python數值計算工具Numpy
盡管在python基礎中學了有關存儲數據的列表對象,但是其無法直接參與數值運算(雖然可以使用加法和乘法,但分別代表列表元素的增加和重復)。所以必須得熟練掌握另一種非常有用的數據結構,那就是數組,通過數組可以
實現各種常見的數學運算
,而且基于數組的運算,也是非常高效的。
主要掌握知識點:
- 數組的創建與操作
- 數組的基本數學運算
- 常用數學和統計函數
- 線性代數求解
Python數據處理工具Pandas
通過numpy模塊可以非常方便地調用各種常用的數學和統計函數。而數據處理模塊Pandas可以幫助數據分析師輕松地解決
數據的預處理問題
,如數據類型的轉換、缺失值的處理、描述性統計分析、數據的匯總等。
主要掌握知識點
- 兩種重要的數據結構,即序列和數據框
- 如何讀取外部數據(如文本文件、電子表格或數據庫中的數據)
- 數據類型轉換及描述性統計分析; 字符型與日期型數據的處理
- 常見的數據清洗方法
- 如何應用iloc、loc、與ix完成數據子集的生成
- 實現Excel中的透視表操作
- 多表之間的合并與連接
- 數據集的分組聚合操作
Python數據可視化
利用Python繪制常見的統計圖形,例如條形圖、餅圖、直方圖、折線圖、散點圖等,通過這些常用圖形的展現,將復雜的數據簡單化。這些圖形的繪制可以通過matplotlib模塊、pandas模塊或者seaborn模塊實現。
主要掌握知識點:
- 離散型數據都有哪些可用的可視化方法
- 數值型的單變量可用哪些圖形展現
- 多維數值之間的關系表達
- 如何將多個圖形繪制到一個畫框內
上面的知識墻裂推薦利用Python進行數據分析(第二版)這本書
機器學習、深度學習
- 機器學習(周志華)
- 統計學習方法(李航)
- 深度學習( 【美】伊恩·古德費洛 【加】約書亞·本吉奧 【加】亞倫·庫維爾)
后記
按理來說學習是一件值得興奮和快樂的事情,但是對于我們大部分人來說學習是為了帶來更好的生活條件,這個時候學習可能就并不那么快樂,有時候甚至有些痛苦,不過凡是堅持下來的人,一定能笑到最后。
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
