開班時間:滾動式授課
適合人群:對數據敏感的0基礎學院
校區(qū):成都高新校區(qū)
18210289671
加米谷數據分析與挖掘課程明細
第一階段(python基礎)
python入門 1、Python版本特性介紹 2、Python應用場景及趨勢發(fā)展 3、Python開發(fā)環(huán)境搭建 4、Python開發(fā)工具及運行環(huán)境 5、標識符與關鍵字,注釋 6、Python在各系統(tǒng)中的安裝 7、應用場景及數據存儲設計 8、Python程序開發(fā)基礎指南 9、如何運行python代碼
python基本語法 1、Python選擇與循環(huán) 2、Python字符串處理 3、可視化python編程 4、數據及類型操作 5、Python對象、數字、序列 6、Python映射和集合類型 7、Python條件和循環(huán) 8、Python文件和輸入輸出 9、python錯誤和異常
python高級語法 1、函數和函數式編程 2、Python面向對象編程 3、Python正則表達式 4、Python函數編程 5、Python多線程編程 6、Python圖形界面編程 7、Python數據庫編程創(chuàng)建 8、Python擴展
Python編程開發(fā) 1、PYQT實現GUI工具 2、如何運行python代碼 3、Python在Linux中的開發(fā) 4、GitHub的使用 5、python程序開發(fā) 6、Python api使用及二次開發(fā)
第二階段(關系型數據庫MySQL)
數據庫設計 1、數據庫設計及運行管理 2、數據庫設計過程講解 3、概念結構設計與ER圖 4、邏輯結構設計與ER轉換規(guī)則 5、數據流圖與數據字典 6、數據庫設計物理模型 7、數據庫事務與隔離級別
數據庫范式及ACID特性 1、數據庫的范式的實例 2、數據庫設計三大范式應用 3、數據庫管理系統(tǒng)事務 4、數據庫ACID的四大特性 5、數據庫四大特性應用 6、分庫分表大數據解決方案 7、分庫分表實施與分析
數據庫基礎 1、數據庫概念介紹 2、MySQL安裝與登錄 3、數據庫創(chuàng)建與刪除 4、表結構創(chuàng)建/查看 5、字段類型與數據類型 6、字段增加,重命名,刪除
視圖及索引 1、記錄的增加,修改,刪除 2、表查詢 3、條件查詢 4、模糊查詢 5、視圖創(chuàng)建與操作 6、索引創(chuàng)建與操作
第三階段(文檔數據庫MongoDB)
Mongodb初識與部署 1、Mongodb介紹 2、Mongodb應用場景 3、Mongodb快速部署 4、Mongodb配置指南
Mongodb基本操作 1、Mongodb數據庫操作 2、Mongodb collection操作 3、Mongodb文檔操作
Mongodb高級操作 1、Mongodb存儲過程 2、Mongodb聚合管道 3、Mongodb批量寫 4、Mongodb MapReduce
Mongodb運維與編程 1、Mongodb數據導入/導出/備份/恢復 2、Mongodb安全 3、Mongodb權限控制 4、Mongodb包引入 5、Mongodb Python API
第四階段(內存數據庫Redis)
Redis精講 1、REDIS分布式緩存介紹 2、REDIS網絡模型與內存管理 3、REDIS的數據一致性問題 4、REDIS支持的KEY類型 5、REDIS水平動態(tài)擴展 6、REDIS數據淘汰策略
Redis操作 1、REDIS訪問工具 2、REDIS shell api
Redis編程 1、REDIS包引入 2、REDIS Python API
第五階段(網絡爬蟲)
urllib.lib庫 1、Python urllib認識 2、urllib庫的基本操作 3、urllib基本get請求 4、urllib基本post請求 5、代理與API 6、超時配置與會話對象
requests庫 1、通過pip安裝requests 2、發(fā)送請求與傳遞參數 3、Response對象與文件上傳 4、身份驗證 5、Cookies與會話對象 6、超時與異常 7、CSS選擇器與bs4 8、BeautifulSoup基本介紹,安裝與基本語法 9、BeautifulSoup的基本運算符與語法定位
css選擇器與Xpath 1、CSS選擇器基本使用 2、Xpath基本介紹 3、Xpath基本語法 4、XPath 軸與表達式 5、Xpath的基本運算符 6、Xpath語法定位 7、常用的反爬蟲技術
爬蟲高級技術 1、多線程與多進程爬蟲 2、代理設置與Cookie操作 3、動態(tài)網頁內容的抓取 4、Selenium與PhantomJS 5、模擬表單登錄
第六階段(數據分析)
數據分析工具講解 1、numpy基本講解 2、scipy基礎認識 3、pandas基本講解 4、jupyter基本認識 5、matplotlib認識 6、其他數據分析工具
數值計算包學習 1、數值計算包工具介紹 2、Numpy多維數組 3、數組的屬性與操作 4、基本的數組運算 5、Scipy工作原理介紹 6、SciPy交互工作
數據處理包Pandas 1、本地環(huán)境安裝 2、加載工具庫 3、Pandas創(chuàng)建對象 4、操作行和塊 5、窺視數據 6、運算符與表達式 7、缺失值處理、合并于分組
Pandas與數據庫 1、與SQL/Excel 對比 2、數據體量與工具選擇 3、范式中的切片與分組 4、Pandas索引與排序 5、Pandas數據回歸 6、文本轉化為虛擬變量
第七階段(數據處理)
數據清洗和準備 1、數據質量要求與來源 2、數據清洗原理 3、缺失數據處理 4、相似重復數據檢測 5、異常數據處理與邏輯錯誤檢測 6、數據清洗的模型 7、數據清洗框架和模型
數據處理:合并和重塑 1、合并數據集 2、數據DataFrame合并 3、數據軸向連接 4、重塑層次化索引 5、字符串對象方法 6、正則表達式運用
數據匯總和組操作 1、數據樣本分位數 2、數據聚合運算 3、面向列的多函數應用 4、定義不同列的函數 5、通過函數進行分組 6、分組運算和轉換 7、透視表和交叉表
第八階段(數據分析處理進階)
Matplotlib實踐 1、Matplotlib基本介紹 2、Matplotlib可視化包認識 3、2D與3D圖表圖表使用 4、Matplotlib圖像顯示 5、Matplotlib應用 6、從網絡加載數據
繪圖與可視化 1、圖例、標題和標簽 2、條形圖和直方圖 3、散點圖與堆疊圖 4、因子變量繪圖 5、各類復雜圖形繪制 6、多變量的可視化 7、多變圖形分析
統(tǒng)計學基礎 1、統(tǒng)計和統(tǒng)計數據 2、數據的圖表展示 3、數據的概括性度量 4、總量指標和相對指標 5、平均指標和變異指標 6、抽樣估計與假設檢驗 7、相關與回歸
時間序列分析基礎 1、時間序列及分析指標 2、平穩(wěn)序列預測 3、趨勢性序列預測 4、復合序列因素分析 5、主要統(tǒng)計量 6、ARIMA模型 7、模型識別余參數估計
第九階段(項目實戰(zhàn))
個人用戶信用評估 針對脫敏的幾十個維度的用戶數據,以及銀行提供的黑名單,建立個人用戶的信用評估模型;在建模過程中涉及到用戶數據缺失值處理,特征篩選,特征量化,類別不平衡策略,模型參數調優(yōu);涉及到SPSS數據分析,pandas,sklearn工具的使用;通過該項目的學習,完整掌握各類數據分析軟件,分析流程以及相關算法。
運營商數據統(tǒng)計分析 對運營商用戶真實瀏覽記錄,利用瀏覽數據分類,以及爬蟲抓取數據擴充標簽,統(tǒng)計用戶瀏覽行為,給用戶貼上對應標簽,針對個人用戶以及群體用戶的特征,進行相關數據推薦;涉及到數據全量與增量統(tǒng)計,實時計算,協同過濾等技術與算法,分布式爬蟲部署,以及反爬蟲策略;通過該項目學習,完整掌握數據抓取技術,海量數據實時計算,以及主流用戶推薦算法。
電商網站評價情感分析 針對某互聯網電商平臺上的商品數據,抓取其評論數據,進行情感分析,并抽取評論關鍵詞,分析用戶最關心的商品問題;涉及到爬蟲知識,數據篩選,清洗,去重以及貝葉斯,LDA算法等;通過該項目的學習,加深對數據處理流程的理解以及對自然語言處理知識的認識。
股票數據擬合與推薦 針對網上獲取的實時股票數據,利用多種方法對數據進行短期擬合,評估擬合效果,并在擬合多支股票的基礎上,進行有價值股票的推薦;涉及到時間序列數據擬合,預警等技術;通過該項目的學習,加深對時間序列分析與理解。