數據清洗
-
【作 者】黃源 劉智楊 孫大松
【I S B N 】978-7-5226-0382-7
【責任編輯】周春元
【適用讀者群】本專通用
【出版時間】2022-02-15
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】192
【千字數】300
【印 張】12
【定 價】¥38
【叢 書】普通高等教育數據科學與大數據技術專業教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
內 容 提 要
本書編寫目的是向讀者介紹大數據清洗的基本概念和相應的技術應用,共分8章:數據清洗簡介、數據清洗中的理論基礎、文件格式及其轉換、Excel數據清洗、Kettle數據清洗、Kettle與數據倉庫、Python數據清洗、數據清洗綜合實訓。
本書將理論與實踐操作相結合,通過大量的案例幫助讀者快速了解和應用數據清洗相關技術,并對重要的核心知識點加大練習比例,以達到熟練應用的目的。
本書適用于高校人工智能、大數據技術相關專業的學生,也可供大數據技術愛好者自學使用。
內容實用——理論與實踐結合,重點突出應用
體系完善——構建完整的大數據專業解決方案
產教融合——高校企業共參與,對標行業標準
資源豐富——微課、課件、教案、源碼、答案
前 言
近年來,隨著數字經濟的快速發展,數據成為繼土地、勞動力、資本、技術之后的第五大生產要素,在國家治理、社會發展和人民生活中的作用日益突出。而大數據是現代社會高科技發展的產物,是第四次工業革命最主要的內容之一,也是數字經濟發展重要的推動力量。
當前,發展大數據已經成為國家戰略,大數據在引領經濟社會發展中的新引擎作用更加明顯。2015年,國家印發《關于促進大數據發展的行動綱要》,第一次將大數據上升到國家戰略高度,提出了我國大數據的頂層設計。此后,隨著大數據底層設施逐漸成熟,大數據分析開始結合具體行業,向下游垂直行業應用延伸。
大數據必須經過清洗、分析、建模、可視化才能體現其潛在的價值。例如政府、銀行和保險公司等內部存在海量的非結構化、不規則的數據,而只有將這些數據采集并清洗為結構化、規則的數據,才能提高公司決策支撐能力和政府決策服務水平,使之發揮應有的作用。
本書以理論與實踐操作相結合的方式深入講解了數據清洗的基本知識和實現的基本技術,在內容設計上既有上課時老師講述的部分(包括詳細的理論與典型的案例),又有大量的實訓環節,雙管齊下,極大地激發了學生的學習積極性和主動創造性,讓學生在課堂上跟上老師的思維,從而學到更多的知識和技能。
本書特色如下:
(1)采用“理實一體化”教學方式:課堂上既有老師講述的內容又有學生獨立思考、上機操作的內容。
(2)豐富的教學案例:包含教學課件、習題答案等多種教學資源。
(3)緊跟時代潮流,注重技術變化:書中包含最新的大數據分析知識及一些開源庫的使用。建議讀者在閱讀本書時使用3.7以上的Python程序版本,且需要安裝MySQL和Kettle等軟件。
(4)編寫本書的老師都具有多年教學經驗,做到重難點突出,能夠激發學生的學習熱情。
(5)配有微課視頻:對本書中的重難點進行細致講解,方便學生課后學習。
本書可作為大數據專業、人工智能專業、軟件技術專業、云計算專業、計算機網絡專業的教材,也可作為大數據愛好者的參考書。
本書建議學時為50學時,具體分布見下表。
章節 建議學時
數據清洗簡介 4
數據清洗中的理論基礎 6
文件格式及其轉換 6
Excel數據清洗 4
Kettle數據清洗 8
Kettle與數據倉庫 6
Python數據清洗 12
數據清洗綜合實訓 4
本書由黃源、劉智楊、孫大松任主編,陳勇、王曙光、劉廣敏任副主編。其中,黃源編寫第1章和第2章并負責統稿工作,劉智楊編寫第3章,孫大松編寫第4 章,陳勇編寫第5章和第6章,王曙光編寫第7章,劉廣敏編寫第8章。
在本書編寫過程中,編者得到了中國電信金融行業信息化應用重慶基地總經理助理楊琛的大力支持,同時參閱了大量相關資料,在此一并表示感謝。
由于編者水平有限,書中難免存在疏漏甚至錯誤之處,懇請讀者批評指正,編者電子郵箱:2103069667@qq.com。
編 者
2021年10月
第1章 數據清洗簡介 1
1.1 數據清洗概述 2
1.1.1 什么是數據清洗 2
1.1.2 數據清洗的原理 2
1.1.3 數據清洗的過程 3
1.2 數據質量管理 5
1.2.1 數據質量管理的含義 5
1.2.2 數據質量的評估 6
1.2.3 數據質量管理應用 7
1.3 數據清洗模型研究 8
1.3.1 數據清洗模型描述 8
1.3.2 數據清洗模型應用 9
1.4 數據清洗常用軟件與工具 9
1.4.1 數據清洗常用軟件 9
1.4.2 數據清洗常用工具 11
1.5 實訓 11
練習1 13
第2章 數據清洗中的理論基礎 14
2.1 微積分 15
2.1.1 微積分概述 15
2.1.2 微積分的作用 15
2.2 線性代數 15
2.2.1 線性代數概述 16
2.2.2 線性代數的定義 16
2.3 概率論與數理統計 21
2.3.1 概率論與數理統計概述 21
2.3.2 概率論與數理統計基本概念 21
2.4 最優化理論 26
2.4.1 最優化理論定義 26
2.4.2 凸函數 26
2.5 主成分分析 27
2.5.1 主成分分析概述 27
2.5.2 主成分分析的實現 27
2.6 數據清洗常見算法 28
2.6.1 哈希算法 29
2.6.2 字符串匹配算法 29
2.6.3 聚類算法 31
2.7 實訓 33
練習2 34
第3章 文件格式及其轉換 35
3.1 文件格式概述 36
3.1.1 文件格式簡介 36
3.1.2 Windows中常見的文件格式介紹 36
3.2 數據類型與字符編碼 37
3.2.1 數據類型 37
3.2.2 字符編碼 37
3.3 跨平臺數據傳輸格式 38
3.3.1 XML 38
3.3.2 JSON 39
3.4 Kettle中文件格式的運行與轉換 40
3.4.1 文本文件的轉換 41
3.4.2 XML文件的轉換 43
3.4.3 JSON文件的轉換 46
3.4.4 CSV文件的轉換 48
3.5 實訓 50
練習3 56
第4章 Excel數據清洗 57
4.1 認識Excel 58
4.1.1 Excel介紹 58
4.1.2 Excel數據清洗的特點 58
4.2 Excel數據清洗基本操作 58
4.2.1 Excel數據工具的認識 58
4.2.2 Excel數據工具的應用 59
4.3 使用Excel中的函數進行數據清洗 65
4.3.1 Excel中的函數介紹 65
4.3.2 Excel函數的具體應用 66
4.4 實訓 70
練習4 71
第5章 Kettle數據清洗 72
5.1 Kettle數據清洗概述 73
5.1.1 Kettle數據清洗簡介 73
5.1.2 Kettle數據清洗的認識 73
5.2 Kettle數據清洗基礎 74
5.2.1 Kettle數據清洗基本操作 75
5.2.2 Kettle數據清洗的實現 75
5.3 實訓 94
練習5 105
第6章 Kettle與數據倉庫 106
6.1 數據倉庫概述 107
6.1.1 什么是數據倉庫 107
6.1.2 數據倉庫的特點 107
6.2 Kettle中的數據倉庫相關技術 107
6.2.1 Kettle連接數據庫 107
6.2.2 Kettle成功連接數據庫的其他操作 109
6.3 Kettle在數據倉庫中的應用 111
6.3.1 Kettle讀取數據庫 111
6.3.2 Kettle遷移數據庫 115
6.4 實訓 117
練習6 119
第7章 Python數據清洗 120
7.1 Python數據清洗概述 121
7.1.1 Python數據清洗簡介 121
7.1.2 Python擴展庫的安裝與導入 121
7.2 Python數據清洗基礎 122
7.2.1 NumPy庫的使用 122
7.2.2 Pandas庫的使用 128
7.3 機器學習中的數據清洗 149
7.3.1 Seaborn庫 149
7.3.2 對機器學習中的數據集進行分析清洗 152
7.4 Python中的時間序列 154
7.4.1 時間序列基礎datetime 154
7.4.2 Pandas中的日期與時間工具 156
7.5 實訓 157
練習7 165
第8章 數據清洗綜合實訓 166
8.1 Kettle輸入記錄排序 167
8.2 Kettle數據流優先級排序 171
8.3 Kettle生成記錄排序 175
8.4 使用Python清洗數據 178
8.5 Python讀取CSV文檔 180
參考文獻 186
- 實用運籌學 [主編 邢育紅 于晉臣]
- 電子技術(第二版) [主編 覃愛娜 李飛]
- 勞動爭議處理實務 [主編 王秀卿 羅靜]
- 工程數學 [主編 郭立娟 王海]
- 語音識別理論與實踐 [主編 莫宏偉]
- 武術基礎教程 [主編 李代勇 謝志民]
- 計算機網絡實訓教程 [主編 張浩軍 趙玉娟]
- 畫法幾何與機械制圖習題集(多學時) [主編 趙軍]
- 電工電子技術基礎 [主編 劉 軍 楊國龍 劉天成]
- MySQL數據庫項目式教程 [陳亞峰]
- 機械設計基礎(第二版) [主編 田亞平 李愛姣]
- 畫法幾何與機械制圖 [主編 趙軍]
- C語言程序設計習題與實驗指導(第二版) [主編 甄增榮 張賓]
- C語言程序設計(第二版) [主編 甄增榮 田云霞]
- Unity3D虛擬現實應用開發實踐 [主 編 劉龍]
- 智能化技術基礎(第三版) [鄧文達 李禮]
- 面向對象程序設計 [主編 張勇 張平華 趙小龍]
- 網絡營銷 [主編 夏薇薇 劉婷 尚潔]
- 電視節目策劃與制作(微課版) [主 編 黃滴滴]
- 數據庫技術與應用實踐教程(SQL Server 2019) [主 編 嚴暉 周肆清]
- 大學應用數學 [主編 郭立娟]
- 工業機器人拆裝與調試 [主編 胡月霞 向艷芳 朱奇]
- 功能材料制備與表征實驗指導書 [龔偉平 趙軍峰 梅海娟 等編著]
- 信號與系統(第二版) [主編 張宇]
- 信息技術基礎 [主編 唐倩 邵銳]
- Python 語言程序設計實踐指導 [主編 張雙獅]
- Photoshop 圖形圖像項目化教程 [主編 胡斌斌 黎婭 蘇大椿]
- 體育舞蹈教程 [主編 劉偉 陳志明 曾明]
- 線性代數導學篇 [主編 史昱]
- 信息技術基礎實訓與習題指導(Windows7+Office2016) [主編 周金容 唐天國]