編輯推薦
朝樂門老師的《數據科學理論與實踐》是一本值得推薦的優秀教材。
陳國良(中國科學院院士)
朝老師的《數據科學理論與實踐》是一本通俗易懂且充滿智慧,讀瞭之後有收獲與感動的精品教材,讓我覺得相見恨晚!
龐艷蓓(哥倫比亞大學碩士研究生/中國人民大學本科生)
Data Science is transforming every sphere of human endeavor. His book is an invaluable resource to anyone who wants to create the future. (數據科學正在改變著人類探索的每一個領域。對於緻力於創造未來的人們,朝樂門老師的這本書是無價之寶。)
Leon Katsnelson (IBM全球戰略閤作總監與數據科學社區首席技術官)
內容簡介
本書重點講解數據科學的核心理論與代錶性實踐,在編寫過程中充分藉鑒瞭國外著名大學設立的相關課程以及全球暢銷的外文專著,而且也考慮到瞭國內相關課程定位與專業人纔的培養需求。
全書共包括8個部分: 數據科學的基礎理論、理論基礎、流程與方法、技術與工具、數據産品及開發、典型案例及實踐、R語言學習筆記與參考手冊以及數據科學的重要資源。
本書的讀者範圍廣,可以滿足數據科學與大數據技術、計算機科學與技術、管理工程、工商管理、數據統計、數據分析、信息管理與信息係統等多個專業的老師、學生(含碩士生和博士生)的教學與自學需要。作者以本教材為基礎,將提供MOOC公開課,助力培養數據科學領域的人纔。
作者簡介
朝樂門,1979年生,中國人民大學數據工程與知識工程教育部重點實驗室、信息資源管理學院副教授,博士生導師;章魚大數據首席數據科學傢;中國計算機學會信息係統專委員會委員、ACM高級會員、國際知識管理協會正式委員、全國高校大數據教育聯盟大數據教材專傢指導委員會委員;主持完成國傢自然科學基金、國傢社會科學基金等重要科學研究項目10餘項;參與完成核高基、973、863、國傢自然科學基金重點項目、國傢社會科學基金重大項目等國傢重大科研項目10餘項;獲得北京市中青年骨乾教師稱號、國際知識管理與智力資本傑齣成就奬、Emerald/EFMD國際傑齣博士論文奬、國傢自然科學基金項目優秀項目、中國大數據學術創新奬、中國大數據創新百人榜單、中國人民大學優秀博士論文奬等多種奬勵30餘項。朝樂門是我國第一部係統闡述數據科學理念、理論、方法、技術和工具的重要專著——《數據科學》(清華大學齣版社,2016)的作者,也是數據科學與大數據技術專業*個領域本體“DataScienceOntology”研發團隊的總負責人。
目錄
第1章基礎理論
如何開始學習
1.1術語定義
1.2研究目的
1.3發展簡史
1.4理論體係
1.5基本原則
1.6數據科學傢
如何繼續學習
習題
參考文獻
第2章理論基礎
如何開始學習
2.1數據科學的學科地位
2.2統計學
2.3機器學習
2.4數據可視化
如何繼續學習
習題
參考文獻
第3章流程與方法
如何開始學習
3.1基本流程
3.2數據加工
3.3數據審計
3.4數據分析
3.5數據可視化
3.6數據故事化
3.7項目管理
如何繼續學習
習題
參考文獻
第4章技術與工具
如何開始學習
4.1技術體係
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7發展趨勢
如何繼續學習
習題
參考文獻
第5章數據産品及開發
如何開始學習
5.1定義
5.2主要特徵
5.3關鍵活動
5.4數據柔術
5.5數據能力
5.6數據戰略
5.7數據治理
如何繼續學習
習題
參考文獻
第6章典型案例及實踐
如何開始學習
6.12012年美國總統大選
6.2統計分析
6.3機器學習
6.4數據可視化
6.5SparkR編程
如何繼續學習
習題
參考文獻
附錄AR語言學習筆記與參考手冊
學習與參考指南
1. R變量定義方法
2. R語句的寫法
3. R中的賦值語句
4. R的文件讀寫路徑——當前工作目錄
5. R的變量查找機製——搜索路徑
6. R中查看幫助的方法
7. R區分大小寫字母
8. R的注釋
9. R的語句
10. R中的變量命名規範
11. R中的關鍵字/保留字
12. R中的默認數據類型
13. R中數據類型的判斷與強製類型轉換
14. R中的嚮量
15. R中的列錶
16. R中的數據框
17. R中的因子類型
18. R中的循環語句
19. R中的選擇語句
20. R中的特殊運算符
21. R中的快速生成數列的方法
22. R中自定義函數
23. R中常用的數學函數
24. R中的字符串處理函數
25. R中的常用統計函數
26. R中的隨機數
27. R包的用法
28. R中的矩陣
29. R中的數組
30. R中的麵嚮對象編程
31. R中的S4類
32. R中的數據可視化
33. R的輸入輸齣
34. R中的正則錶達式
35. R的數據集
36. R第三方包——R的靈魂
37. 基於R的數據加工
附錄B數據科學的重要資源
1. 學術期刊
2. 國際會議
3. 研究機構
4. 課程資源
5. 碩士學位項目
6. 專傢學者
7. 相關工具
附錄C術語索引
後記
圖目錄
圖1��1DIKW金字塔2
圖1��2數據與數值的區彆3
圖1��3大數據的本質4
圖1��4大數據的特徵5
圖1��5DIKUW模型及應用8
圖1��6數據洞見8
圖1��7業務數據化與數據業務化9
圖1��8常用驅動方式9
圖1��9數據的層次性9
圖1��10大數據生態係統10
圖1��11Gartner技術成熟度麯綫11
圖1��12數據科學的萌芽期(1974—2009年)11
圖1��13數據科學的快速發展期(2010—2013年)12
圖1��14數據科學的逐漸成熟期(2014年至今)13
圖1��15數據科學的理論體係14
圖1��16數據科學的主要內容15
圖1��17數據科學的“三世界原則”16
圖1��18數據科學的“三個要素”及“3C精神”17
圖1��19數據範式與知識範式的區彆18
圖1��20數據管理範式的變化18
圖1��21大數據的資産屬性19
圖1��22常用驅動方式20
圖1��23CAPTCHA項目21
圖1��24ReCAPTCHA項目21
圖1��25數據與算法之間的關係22
圖1��26BellKors Pragmatic Chaos團隊獲得Netflix奬23
圖1��27Netflix奬公測結果23
圖1��28RStudio中編輯Markdown的窗口25
圖1��29數據科學傢團隊28
圖1��30學習數據科學的四則原則29
圖2��1數據科學的理論基礎35
圖2��2統計方法的分類(目的與思路視角)37
圖2��3統計學中的數據推斷37
圖2��4數據統計方法的類型(方法論視角)38
圖2��5數據統計基本方法38
圖2��6元分析與基本分析39
圖2��7GFT預測與美國疾病控製中心數據的對比40
圖2��8GFT估計與實際數據的誤差(2013年2月)40
圖2��9大數據時代的思維模式的轉變41
圖2��10西洋雙陸棋42
圖2��11自動駕駛42
圖2��12機器學習的基本思路42
圖2��13機器學習的三要素44
圖2��14機器學習的類型45
圖2��15KNN算法的基本步驟46
圖2��16決策樹示例——識彆鳥類48
圖2��17感知器示例50
圖2��18前嚮神經網絡50
圖2��19歸納學習與分析學習52
圖2��20增強學習53
圖2��21IBM Watson54
圖2��22Pepper機器人54
圖2��23機器學習及其應用55
圖2��24Anscombe四組數據的可視化57
圖2��25John Snow的鬼地圖(Ghost Map)58
圖3��1數據科學的基本流程62
圖3��2量化自我63
圖3��3整齊數據與乾淨數據的區彆64
圖3��4整齊數據示意圖64
圖3��5殘差67
圖3��6數據分析的類型68
圖3��7Analytics 1.0~3.069
圖3��8數據加工方法70
圖3��9數據審計與數據清洗71
圖3��10缺失數據的處理步驟72
圖3��11冗餘數據的處理方法72
圖3��12數據分箱處理的步驟與類型73
圖3��13均值平滑與邊界值平滑74
圖3��14內容集成76
圖3��15結構集成76
圖3��16數據脫敏處理77
圖3��17數據連續性的定義及重要性81
圖3��18可視化審計82
圖3��19Gartner分析學價值扶梯模型83
圖3��20冰激淩的銷量與謀殺案的發生數量84
圖3��21數據分析的類型86
圖3��22拿破侖進軍俄國慘敗而歸的曆史事件的可視化87
圖3��23可視化分析學的相關學科87
圖3��24可視化分析學模型88
圖3��25數據可視化的方法體係89
圖3��26視覺圖形元素與視覺通道89
圖3��27雷達圖示例89
圖3��28齊美爾連帶89
圖3��29視覺隱喻的示例——美國政府機構的設置90
圖3��30地鐵路綫圖的創始人Henry Beck91
圖3��31Henry Beck的倫敦地鐵綫路圖91
圖3��32視覺突齣的示例92
圖3��33完圖法則的示例92
圖3��34視覺通道的選擇與展示94
圖3��35視覺通道的精確度對比94
圖3��36視覺通道的可辨認性——某公司産品銷售示意圖95
圖3��37視覺通道的可分離性差95
圖3��38上下文導緻視覺假象196
圖3��39上下文導緻視覺假象296
圖3��40對亮度和顔色的相對判斷容易造成視覺假象的示例96
圖3��41數據可視化與數據故事化描述97
圖3��42數據的故事化描述及故事的展現98
圖3��43項目管理的主要內容101
圖3��44數據科學項目的基本流程102
圖4��1大數據産業全景圖107
圖4��2基礎設施108
圖4��3分析工具109
圖4��4企業應用109
圖4��5行業應用110
圖4��6跨平颱基礎設施和分析工具110
圖4��7開源係統111
圖4��8數據源與Apps111
圖4��9數據資源111
圖4��10MapReduce執行過程113
圖4��11MapReduce對中間數據的處理116
圖4��12以MapReduce為核心和以YARN為核心的軟件棧對比118
圖4��13下一代MapReduce框架118
圖4��14Apache Hadoop官網119
圖4��15Apache Hadoop生態係統119
圖4��16Hadoop MapReduce數據處理流程121
圖4��17Apache Hive官網122
圖4��18Apache Pig官網123
圖4��19Apache Mahout官網124
圖4��20Apache HBase官網125
圖4��21HBase與Hadoop項目125
圖4��22HBase邏輯模型126
圖4��23Apache Zookeeper官網127
圖4��24Apache Flume官網127
圖4��25Apache Sqoop官網128
圖4��26Spark 技術架構130
圖4��27Spark執行流程130
圖4��28Spark Scheduler134
圖4��29傳統關係數據庫的優點與缺點136
圖4��30關係數據庫與NoSQL數據庫之間的關係138
圖4��31NoSQL數據分布的兩個基本途徑139
圖4��32分片處理140
圖4��33主從復製141
圖4��34對等復製142
圖4��35數據不一緻性142
圖4��36CAP理論143
圖4��37Memcached官網146
圖4��38一緻性散列的分配方式147
圖4��39服務器增加時的變化147
圖4��40計算模式的演變150
圖4��41數據管理的新變化152
圖5��1數據産品開發中的數據與數據柔術157
圖5��2數據産品開發與數據柔術160
圖5��3數據産品的多樣性160
圖5��4數據産品的層次性161
圖5��5Google全球商機洞察(Global Market Finder)162
圖5��6數據産品鏈162
圖5��7傳統産品開發與數據産品開發的區彆163
精彩書摘
第5章數據産品及開發
如何開始學習
【學習目的】
【掌握】 數據産品的類型、特徵及開發方法
【理解】 數據能力評估方法、數據治理的主要內容、數據柔術的基本思想
【瞭解】 數據戰略的製定要求
【學習重點】
數據産品的開發方法
數據能力的評估方法
數據治理的重要內容
數據柔術的基本思想
【學習難點】
數據産品的設計
數據柔術的基本思想
DMM模型的應用
【學習問答】
序號我提齣的疑問本章中的答案
1數據産品是什麼?與傳統産品之間的區彆是什麼?定義(5.1)、特徵(5.2)
2如何開發數據産品?關鍵活動(5.3)、數據柔術(5.4)、數據能力(5.5)、數據戰略(5.6)、數據治理(5.7)
3數據産品開發需要具備哪些基本功?數據柔術(5.4)、數據能力評估(5.5)、數據戰略製定(5.6)、數據治理方法(5.7)
4數據管理與數據治理的區彆是什麼?數據治理與數據管理的區彆(5.7)
5數據柔術是什麼?如何掌握數據柔術?數據柔術(5.4)
6如何評估一個組織機構的數據管理能力?數據能力(5.5)
7如何製定一個機構的大數據戰略?數據戰略(5.6)
5.1定義
數據産品(Data Products)是指“能夠通過數據來幫助用戶實現其某一個(些)目標的産品”。數據産品是在數據科學項目中形成,能夠被人、計算機以及其他軟硬件係統消費、調用或使用,並滿足他們(它們)某種需求的任何東西,包括數據集、文檔、知識庫、應用係統、硬件係統、服務、洞見、決策及它們的各種組閤。需要注意的是:
數據産品開發涉及數據科學項目流程的全部活動,數據産品不僅包括數據科學項目的最終産品,而且也包括其中間産品以及副産品。例如,本書圖3��1所示的數據科學的基本流程中的每個活動産生的中間産品均可稱之為“數據産品”。
與傳統物質産品不同的是,數據産品的消費者不僅限於人類用戶,而且還包括計算機以及其他軟硬件係統。其實,數據産品被計算機以及其他軟/硬件係統調用和“消費”的過程是“數據轉換為能源和材料的過程”,進而可以推動信息化和工業化深度融閤。
數據産品的存在形式有多種,不僅包括數據集,而且還包括文檔、知識庫、應用係統、硬件係統、服務、洞見、決策或它們的組閤。
從數據流的視角看,“數據産品的開發過程”是一個“數據加工(Data Wrangling或Data Munging)”的過程。通常,數據産品開發需要一種特殊的方法和技術——數據柔術(Data Jujitsu),如圖5��1所示。
圖5��1數據産品開發中的數據與數據柔術
1. 數據加工(Data Wrangling或Data Munging)
數據産品開發的關鍵環節是數據加工。從實現方式看,數據加工是一種數據轉換過程,可分為單維度轉換和多維度轉換。
單維度轉換。在數據加工過程中,從結構化程度、加工程度和復雜化程度等多個維度(圖5��1)中選擇某一維度,並在此維度上進行數據轉換。例如,將非結構化數據轉換為結構化數據。
多維度轉換。數據加工的工作中也可以在不同維度之間進行轉換,例如將零次半結構化數據轉換為二次結構化數據。
需要注意的是,數據科學中的數據加工不完全等同於傳統意義上的數據轉換。二者的主要區彆在於: 數據加工過程更強調的是將數據科學傢的3C精神融入到數據轉換過程,追求的是數據處理過程的創新與增值,如錶5��1所示。
……
前言/序言
序
大數據時代的到來催生瞭一門新學科——數據科學,並在全球範圍內引發瞭相關課程和專業建設的大討論。核心教材的開發是課程設計與專業建設的關鍵環節。作為一門新興學科,數據科學與大數據技術類課程亟待一批優秀教材來揭示其核心理論體係及代錶性實踐。為此,全國高校大數據教育聯盟於2016年牽頭成立數據科學與大數據技術教材專傢指導委員會,並特邀中國人民大學朝樂門老師主持《數據科學理論與實踐》一書的編寫工作。
不負眾望,朝樂門老師完成瞭一本極具特色的、高水平優秀教材。本書的主要特色包括以下四點。
一是堅持係統性與重點突齣並重。本書並不是相關知識的簡單匯編,不僅給齣瞭數據科學的知識體係,而且還重點講解瞭一些關鍵細節性知識和新知識,如數據産品開發、數據加工、數據故事化描述和數據連續性保障等。
二是重視理論與實踐相結閤。數據科學是一門實踐性很強的課程,不但需要紮實的理論功底,而且還要具備豐富的實戰經驗。為此,本書吸收瞭國內外重要的研究進展與實踐經驗。
三是遵循教與學的規律。每章的開始和結尾之處分彆給齣瞭“如何開始學習”和“如何繼續學習”,並以圖錶、小故事形式解讀重要知識點,使得原本有所“枯燥”的課程變得“有趣”,不僅提升瞭教材的可讀性,更重要的是培養瞭學生的學習信心與興趣。
四是力爭繼承與創新相結閤。本書不僅吸收瞭國內外相關領域的最新研究成果,而且結閤作者自己的研究,有很強的係統性和前瞻性,體現瞭作者的科學態度、堅實理論功底和獨到見解。
繼《數據科學》一書齣版以來,朝樂門老師專注於數據科學與大數據技術的研究,在數據科學理論與實踐方麵做齣瞭諸多有益探索。他的認真負責、開拓進取、刻苦鑽研的做事態度值得鼓勵。在此,也希望更多的專傢學者加入數據科學隊伍之中,本書將是帶您走進數據科學與大數據技術之門的金鑰匙。
數據科學理論與實踐/全國高校大數據教育聯盟係列教材 epub pdf mobi txt 電子書 下載 2024
數據科學理論與實踐/全國高校大數據教育聯盟係列教材 下載 epub mobi pdf txt 電子書