欧美一级特黄aaaaaaa在线观看-欧美一级特黄aaaaaa在线看片-欧美一级特黄aa大片-欧美一级特黄刺激大片视频-深夜久久-深夜激情网站

熱門關鍵字:  聽力密碼  單詞密碼  新概念美語  巧用聽寫練聽力  零起點
圖書信息

數據清洗

中國水利水電出版社
    【作 者】黃源 劉智楊 孫大松 【I S B N 】978-7-5226-0382-7 【責任編輯】周春元 【適用讀者群】本專通用 【出版時間】2022-02-15 【開 本】16開 【裝幀信息】平裝(光膜) 【版 次】第1版第1次印刷 【頁 數】192 【千字數】300 【印 張】12 【定 價】38 【叢 書】普通高等教育數據科學與大數據技術專業教材 【備注信息】
圖書詳情

    內 容 提 要

    本書編寫目的是向讀者介紹大數據清洗的基本概念和相應的技術應用,共分8章:數據清洗簡介、數據清洗中的理論基礎、文件格式及其轉換、Excel數據清洗、Kettle數據清洗、Kettle與數據倉庫、Python數據清洗、數據清洗綜合實訓。

    本書將理論與實踐操作相結合,通過大量的案例幫助讀者快速了解和應用數據清洗相關技術,并對重要的核心知識點加大練習比例,以達到熟練應用的目的。

    本書適用于高校人工智能、大數據技術相關專業的學生,也可供大數據技術愛好者自學使用。

    內容實用——理論與實踐結合,重點突出應用

    體系完善——構建完整的大數據專業解決方案

    產教融合——高校企業共參與,對標行業標準

    資源豐富——微課、課件、教案、源碼、答案

    前  言

    近年來,隨著數字經濟的快速發展,數據成為繼土地、勞動力、資本、技術之后的第五大生產要素,在國家治理、社會發展和人民生活中的作用日益突出。而大數據是現代社會高科技發展的產物,是第四次工業革命最主要的內容之一,也是數字經濟發展重要的推動力量。

    當前,發展大數據已經成為國家戰略,大數據在引領經濟社會發展中的新引擎作用更加明顯。2015年,國家印發《關于促進大數據發展的行動綱要》,第一次將大數據上升到國家戰略高度,提出了我國大數據的頂層設計。此后,隨著大數據底層設施逐漸成熟,大數據分析開始結合具體行業,向下游垂直行業應用延伸。

    大數據必須經過清洗、分析、建模、可視化才能體現其潛在的價值。例如政府、銀行和保險公司等內部存在海量的非結構化、不規則的數據,而只有將這些數據采集并清洗為結構化、規則的數據,才能提高公司決策支撐能力和政府決策服務水平,使之發揮應有的作用。

    本書以理論與實踐操作相結合的方式深入講解了數據清洗的基本知識和實現的基本技術,在內容設計上既有上課時老師講述的部分(包括詳細的理論與典型的案例),又有大量的實訓環節,雙管齊下,極大地激發了學生的學習積極性和主動創造性,讓學生在課堂上跟上老師的思維,從而學到更多的知識和技能。

    本書特色如下:

    (1)采用“理實一體化”教學方式:課堂上既有老師講述的內容又有學生獨立思考、上機操作的內容。

    (2)豐富的教學案例:包含教學課件、習題答案等多種教學資源。

    (3)緊跟時代潮流,注重技術變化:書中包含最新的大數據分析知識及一些開源庫的使用。建議讀者在閱讀本書時使用3.7以上的Python程序版本,且需要安裝MySQL和Kettle等軟件。

    (4)編寫本書的老師都具有多年教學經驗,做到重難點突出,能夠激發學生的學習熱情。

    (5)配有微課視頻:對本書中的重難點進行細致講解,方便學生課后學習。

    本書可作為大數據專業、人工智能專業、軟件技術專業、云計算專業、計算機網絡專業的教材,也可作為大數據愛好者的參考書。

    本書建議學時為50學時,具體分布見下表。

    章節 建議學時

    數據清洗簡介 4

    數據清洗中的理論基礎 6

    文件格式及其轉換 6

    Excel數據清洗 4

    Kettle數據清洗 8

    Kettle與數據倉庫 6

    Python數據清洗 12

    數據清洗綜合實訓 4

    本書由黃源、劉智楊、孫大松任主編,陳勇、王曙光、劉廣敏任副主編。其中,黃源編寫第1章和第2章并負責統稿工作,劉智楊編寫第3章,孫大松編寫第4 章,陳勇編寫第5章和第6章,王曙光編寫第7章,劉廣敏編寫第8章。

    在本書編寫過程中,編者得到了中國電信金融行業信息化應用重慶基地總經理助理楊琛的大力支持,同時參閱了大量相關資料,在此一并表示感謝。

    由于編者水平有限,書中難免存在疏漏甚至錯誤之處,懇請讀者批評指正,編者電子郵箱:2103069667@qq.com。

    編 者

    2021年10月

    前言
    第1章 數據清洗簡介 1
    1.1 數據清洗概述 2
    1.1.1 什么是數據清洗 2
    1.1.2 數據清洗的原理 2
    1.1.3 數據清洗的過程 3
    1.2 數據質量管理 5
    1.2.1 數據質量管理的含義 5
    1.2.2 數據質量的評估 6
    1.2.3 數據質量管理應用 7
    1.3 數據清洗模型研究 8
    1.3.1 數據清洗模型描述 8
    1.3.2 數據清洗模型應用 9
    1.4 數據清洗常用軟件與工具 9
    1.4.1 數據清洗常用軟件 9
    1.4.2 數據清洗常用工具 11
    1.5 實訓 11
    練習1 13
    第2章 數據清洗中的理論基礎 14
    2.1 微積分 15
    2.1.1 微積分概述 15
    2.1.2 微積分的作用 15
    2.2 線性代數 15
    2.2.1 線性代數概述 16
    2.2.2 線性代數的定義 16
    2.3 概率論與數理統計 21
    2.3.1 概率論與數理統計概述 21
    2.3.2 概率論與數理統計基本概念 21
    2.4 最優化理論 26
    2.4.1 最優化理論定義 26
    2.4.2 凸函數 26
    2.5 主成分分析 27
    2.5.1 主成分分析概述 27
    2.5.2 主成分分析的實現 27
    2.6 數據清洗常見算法 28
    2.6.1 哈希算法 29
    2.6.2 字符串匹配算法 29
    2.6.3 聚類算法 31
    2.7 實訓 33
    練習2 34
    第3章 文件格式及其轉換 35
    3.1 文件格式概述 36
    3.1.1 文件格式簡介 36
    3.1.2 Windows中常見的文件格式介紹 36
    3.2 數據類型與字符編碼 37
    3.2.1 數據類型 37
    3.2.2 字符編碼 37
    3.3 跨平臺數據傳輸格式 38
    3.3.1 XML 38
    3.3.2 JSON 39
    3.4 Kettle中文件格式的運行與轉換 40
    3.4.1 文本文件的轉換 41
    3.4.2 XML文件的轉換 43
    3.4.3 JSON文件的轉換 46
    3.4.4 CSV文件的轉換 48
    3.5 實訓 50
    練習3 56
    第4章 Excel數據清洗 57
    4.1 認識Excel 58
    4.1.1 Excel介紹 58
    4.1.2 Excel數據清洗的特點 58
    4.2 Excel數據清洗基本操作 58
    4.2.1 Excel數據工具的認識 58
    4.2.2 Excel數據工具的應用 59
    4.3 使用Excel中的函數進行數據清洗 65
    4.3.1 Excel中的函數介紹 65
    4.3.2 Excel函數的具體應用 66
    4.4 實訓 70
    練習4 71
    第5章 Kettle數據清洗 72
    5.1 Kettle數據清洗概述 73
    5.1.1 Kettle數據清洗簡介 73
    5.1.2 Kettle數據清洗的認識 73
    5.2 Kettle數據清洗基礎 74
    5.2.1 Kettle數據清洗基本操作 75
    5.2.2 Kettle數據清洗的實現 75
    5.3 實訓 94
    練習5 105
    第6章 Kettle與數據倉庫 106
    6.1 數據倉庫概述 107
    6.1.1 什么是數據倉庫 107
    6.1.2 數據倉庫的特點 107
    6.2 Kettle中的數據倉庫相關技術 107
    6.2.1 Kettle連接數據庫 107
    6.2.2 Kettle成功連接數據庫的其他操作 109
    6.3 Kettle在數據倉庫中的應用 111
    6.3.1 Kettle讀取數據庫 111
    6.3.2 Kettle遷移數據庫 115
    6.4 實訓 117
    練習6 119
    第7章 Python數據清洗 120
    7.1 Python數據清洗概述 121
    7.1.1 Python數據清洗簡介 121
    7.1.2 Python擴展庫的安裝與導入 121
    7.2 Python數據清洗基礎 122
    7.2.1 NumPy庫的使用 122
    7.2.2 Pandas庫的使用 128
    7.3 機器學習中的數據清洗 149
    7.3.1 Seaborn庫 149
    7.3.2 對機器學習中的數據集進行分析清洗 152
    7.4 Python中的時間序列 154
    7.4.1 時間序列基礎datetime 154
    7.4.2 Pandas中的日期與時間工具 156
    7.5 實訓 157
    練習7 165
    第8章 數據清洗綜合實訓 166
    8.1 Kettle輸入記錄排序 167
    8.2 Kettle數據流優先級排序 171
    8.3 Kettle生成記錄排序 175
    8.4 使用Python清洗數據 178
    8.5 Python讀取CSV文檔 180
    參考文獻 186
最新評論共有 0 位網友發表了評論
發表評論
評論內容:不能超過250字,需審核,請自覺遵守互聯網相關政策法規。
用戶名: 密碼:
匿名?
注冊
主站蜘蛛池模板: 77se77亚洲欧美在线大屁股| 国产精品四虎在线观看免费| 日本精品一区二区三区视频| 国模人体aⅴ| 亚洲第9页| 玖玖五月| 五月激情久久| 久久国产精品国语对白| 中文字幕一区2区| 激情综合五月| 亚洲女人在线| 美女一区二区三区| 91精品国产综合久久消防器材| 欧美xxxx视频| 成人福利在线观看| 黑人一区二区三区中文字幕| 性欧美激情在线观看| 国产激烈床戏无遮挡网站| 日韩在线看片| 国产91嫩草精品| 九九99re在线视频精品免费| 亚洲天堂国产精品| 国产成人精品一区二区不卡| 欧美一级做一级做片性十三| 2020天堂中文字幕一区在线观| 九一在线观看| 性欧美videosg最新另类| 国产成人精品影视| 免费观看国产精品| 亚洲一区二区三区夜色| 国产成人一区二区三区在线播放| 欧美激情一区| 永久免费精品视频| 大色香蕉| 精品国内自产拍在线视频| 五月婷婷丁香在线观看| 91欧美精品| 国产一区二区精品久| 青青草99久久精品国产综合| 中文字幕av一区二区三区| 国产成人午夜极速观看|