數據清洗
-
【作 者】黃源 劉智楊 孫大松
【I S B N 】978-7-5226-0382-7
【責任編輯】周春元
【適用讀者群】本專通用
【出版時間】2022-02-15
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】192
【千字數】300
【印 張】12
【定 價】¥38
【叢 書】普通高等教育數據科學與大數據技術專業教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
內 容 提 要
本書編寫目的是向讀者介紹大數據清洗的基本概念和相應的技術應用,共分8章:數據清洗簡介、數據清洗中的理論基礎、文件格式及其轉換、Excel數據清洗、Kettle數據清洗、Kettle與數據倉庫、Python數據清洗、數據清洗綜合實訓。
本書將理論與實踐操作相結合,通過大量的案例幫助讀者快速了解和應用數據清洗相關技術,并對重要的核心知識點加大練習比例,以達到熟練應用的目的。
本書適用于高校人工智能、大數據技術相關專業的學生,也可供大數據技術愛好者自學使用。
內容實用——理論與實踐結合,重點突出應用
體系完善——構建完整的大數據專業解決方案
產教融合——高校企業共參與,對標行業標準
資源豐富——微課、課件、教案、源碼、答案
前 言
近年來,隨著數字經濟的快速發展,數據成為繼土地、勞動力、資本、技術之后的第五大生產要素,在國家治理、社會發展和人民生活中的作用日益突出。而大數據是現代社會高科技發展的產物,是第四次工業革命最主要的內容之一,也是數字經濟發展重要的推動力量。
當前,發展大數據已經成為國家戰略,大數據在引領經濟社會發展中的新引擎作用更加明顯。2015年,國家印發《關于促進大數據發展的行動綱要》,第一次將大數據上升到國家戰略高度,提出了我國大數據的頂層設計。此后,隨著大數據底層設施逐漸成熟,大數據分析開始結合具體行業,向下游垂直行業應用延伸。
大數據必須經過清洗、分析、建模、可視化才能體現其潛在的價值。例如政府、銀行和保險公司等內部存在海量的非結構化、不規則的數據,而只有將這些數據采集并清洗為結構化、規則的數據,才能提高公司決策支撐能力和政府決策服務水平,使之發揮應有的作用。
本書以理論與實踐操作相結合的方式深入講解了數據清洗的基本知識和實現的基本技術,在內容設計上既有上課時老師講述的部分(包括詳細的理論與典型的案例),又有大量的實訓環節,雙管齊下,極大地激發了學生的學習積極性和主動創造性,讓學生在課堂上跟上老師的思維,從而學到更多的知識和技能。
本書特色如下:
(1)采用“理實一體化”教學方式:課堂上既有老師講述的內容又有學生獨立思考、上機操作的內容。
(2)豐富的教學案例:包含教學課件、習題答案等多種教學資源。
(3)緊跟時代潮流,注重技術變化:書中包含最新的大數據分析知識及一些開源庫的使用。建議讀者在閱讀本書時使用3.7以上的Python程序版本,且需要安裝MySQL和Kettle等軟件。
(4)編寫本書的老師都具有多年教學經驗,做到重難點突出,能夠激發學生的學習熱情。
(5)配有微課視頻:對本書中的重難點進行細致講解,方便學生課后學習。
本書可作為大數據專業、人工智能專業、軟件技術專業、云計算專業、計算機網絡專業的教材,也可作為大數據愛好者的參考書。
本書建議學時為50學時,具體分布見下表。
章節 建議學時
數據清洗簡介 4
數據清洗中的理論基礎 6
文件格式及其轉換 6
Excel數據清洗 4
Kettle數據清洗 8
Kettle與數據倉庫 6
Python數據清洗 12
數據清洗綜合實訓 4
本書由黃源、劉智楊、孫大松任主編,陳勇、王曙光、劉廣敏任副主編。其中,黃源編寫第1章和第2章并負責統稿工作,劉智楊編寫第3章,孫大松編寫第4 章,陳勇編寫第5章和第6章,王曙光編寫第7章,劉廣敏編寫第8章。
在本書編寫過程中,編者得到了中國電信金融行業信息化應用重慶基地總經理助理楊琛的大力支持,同時參閱了大量相關資料,在此一并表示感謝。
由于編者水平有限,書中難免存在疏漏甚至錯誤之處,懇請讀者批評指正,編者電子郵箱:2103069667@qq.com。
編 者
2021年10月
第1章 數據清洗簡介 1
1.1 數據清洗概述 2
1.1.1 什么是數據清洗 2
1.1.2 數據清洗的原理 2
1.1.3 數據清洗的過程 3
1.2 數據質量管理 5
1.2.1 數據質量管理的含義 5
1.2.2 數據質量的評估 6
1.2.3 數據質量管理應用 7
1.3 數據清洗模型研究 8
1.3.1 數據清洗模型描述 8
1.3.2 數據清洗模型應用 9
1.4 數據清洗常用軟件與工具 9
1.4.1 數據清洗常用軟件 9
1.4.2 數據清洗常用工具 11
1.5 實訓 11
練習1 13
第2章 數據清洗中的理論基礎 14
2.1 微積分 15
2.1.1 微積分概述 15
2.1.2 微積分的作用 15
2.2 線性代數 15
2.2.1 線性代數概述 16
2.2.2 線性代數的定義 16
2.3 概率論與數理統計 21
2.3.1 概率論與數理統計概述 21
2.3.2 概率論與數理統計基本概念 21
2.4 最優化理論 26
2.4.1 最優化理論定義 26
2.4.2 凸函數 26
2.5 主成分分析 27
2.5.1 主成分分析概述 27
2.5.2 主成分分析的實現 27
2.6 數據清洗常見算法 28
2.6.1 哈希算法 29
2.6.2 字符串匹配算法 29
2.6.3 聚類算法 31
2.7 實訓 33
練習2 34
第3章 文件格式及其轉換 35
3.1 文件格式概述 36
3.1.1 文件格式簡介 36
3.1.2 Windows中常見的文件格式介紹 36
3.2 數據類型與字符編碼 37
3.2.1 數據類型 37
3.2.2 字符編碼 37
3.3 跨平臺數據傳輸格式 38
3.3.1 XML 38
3.3.2 JSON 39
3.4 Kettle中文件格式的運行與轉換 40
3.4.1 文本文件的轉換 41
3.4.2 XML文件的轉換 43
3.4.3 JSON文件的轉換 46
3.4.4 CSV文件的轉換 48
3.5 實訓 50
練習3 56
第4章 Excel數據清洗 57
4.1 認識Excel 58
4.1.1 Excel介紹 58
4.1.2 Excel數據清洗的特點 58
4.2 Excel數據清洗基本操作 58
4.2.1 Excel數據工具的認識 58
4.2.2 Excel數據工具的應用 59
4.3 使用Excel中的函數進行數據清洗 65
4.3.1 Excel中的函數介紹 65
4.3.2 Excel函數的具體應用 66
4.4 實訓 70
練習4 71
第5章 Kettle數據清洗 72
5.1 Kettle數據清洗概述 73
5.1.1 Kettle數據清洗簡介 73
5.1.2 Kettle數據清洗的認識 73
5.2 Kettle數據清洗基礎 74
5.2.1 Kettle數據清洗基本操作 75
5.2.2 Kettle數據清洗的實現 75
5.3 實訓 94
練習5 105
第6章 Kettle與數據倉庫 106
6.1 數據倉庫概述 107
6.1.1 什么是數據倉庫 107
6.1.2 數據倉庫的特點 107
6.2 Kettle中的數據倉庫相關技術 107
6.2.1 Kettle連接數據庫 107
6.2.2 Kettle成功連接數據庫的其他操作 109
6.3 Kettle在數據倉庫中的應用 111
6.3.1 Kettle讀取數據庫 111
6.3.2 Kettle遷移數據庫 115
6.4 實訓 117
練習6 119
第7章 Python數據清洗 120
7.1 Python數據清洗概述 121
7.1.1 Python數據清洗簡介 121
7.1.2 Python擴展庫的安裝與導入 121
7.2 Python數據清洗基礎 122
7.2.1 NumPy庫的使用 122
7.2.2 Pandas庫的使用 128
7.3 機器學習中的數據清洗 149
7.3.1 Seaborn庫 149
7.3.2 對機器學習中的數據集進行分析清洗 152
7.4 Python中的時間序列 154
7.4.1 時間序列基礎datetime 154
7.4.2 Pandas中的日期與時間工具 156
7.5 實訓 157
練習7 165
第8章 數據清洗綜合實訓 166
8.1 Kettle輸入記錄排序 167
8.2 Kettle數據流優先級排序 171
8.3 Kettle生成記錄排序 175
8.4 使用Python清洗數據 178
8.5 Python讀取CSV文檔 180
參考文獻 186
- 人工智能應用基礎 [主編 楊纓 李佳]
- 中華水文化(慕課版)(第二版) [畢雪燕 楊華軻 羅玲誼 等編著]
- 電路與電子技術Ⅱ——電路分析基礎 [主編 陳曉 金哲]
- 人工智能概論(第二版) [主編 任云暉 丁紅 徐迎春 ]
- 信息時代美育之道 [主編 劉宏宇 黎婭]
- 數字媒體交互設計項目式教程(微課版) [主編 蘇陸]
- Amazing!兒童英語自然拼讀分級教材(全8冊) [王玲 編著]
- Spark大數據處理技術 [主編 劉仁山 周洪翠 莊新妍]
- 人工智能算法與實踐 [主編 梁琨 張翼英]
- 計算機網絡技術項目化教程(微課版) [主編 王艷萍 安華萍]
- 電路設計與PCB制作實操教程 [主編 周永宏]
- 電路與電子技術Ⅰ—數字電子技術 [主編 鄭玉珍 王淑琴]
- Java編程基礎案例式教程 [主編 陳艷華 唐春蘭]
- Python語言同步案例習題精解 [主編 肖朝暉]
- Excel在會計工作中的應用(第三版) [主 編 趙艷莉 耿聰慧]
- 應用數學 [主編 劉東海 劉麗瑤]
- Web用戶界面設計與制作 [主編 趙娟]
- 計算機網絡基礎創新教程(模塊化+課程思政版) [主編 唐繼勇 李旭]
- 計算機應用技術基礎案例教程 [主編 周麗娟 王璐]
- Unity應用開發與實戰(微課版) [主 編 程永恒]
- PHP程序設計項目化教程 [主 編 杜海穎]
- 文學基礎與影視欣賞 [楊華軻 朱偉利 畢雪燕 羅玲誼]
- 路由交換技術項目化教程 [主編 范國娟]
- 信息技術基礎立體化教程 [鄒承俊 周洪林 劉和文 葉煜 ]
- 大學計算機基礎與計算思維 [主編 閔笛 汪瑩]
- 無線局域網技術與實踐 [主編 唐繼勇 劉思伶]
- 信息技術基礎項目化教程 [主編 王宏斌 王萬麗 王芳]
- 體育與健康 [主編 馬馳 吳雅彬]
- 大學計算機信息素養(第二版) [主編 盧山]
- 全國計算機等級考試一級(MS Office)指導手冊 [主編 王宏斌 孫元 禹晨]