內容簡介
《數據挖掘與應用》全麵地介紹瞭數據挖掘的相關主題.包括數據理解與數據準備、關聯規則挖掘、多元統計中的降維方法、聚類分析、神經網絡、決策樹方法、模型評估等內容。全書體係完整,文字精煉,注重對數據挖掘方法的直覺理解及其應用:同時,保持瞭一定的嚴謹性,為學生理解和運用這些方法提供瞭堅實的基礎。
《數據挖掘與應用》實例豐富,並附有相應SAS程序,以便於學生盡快理解相關內容並用以解決實際問題。
《數據挖掘與應用》配有教輔,可以免費提供給任課教師使用。如需要,歡迎填寫書後的“教師反饋及課件申請錶’索取。
作者簡介
張俊妮,美國哈佛大學統計學博士,現為北京大學光華管理學院商務統計及經濟計量係副教授。研究領域包括因果推斷、貝葉斯分析、濛特卡洛方法、數據挖掘。在Journal of American Statistical Association、Statistica Sinica、Journal ofEducational and BehavioralStatistics、 《經濟學(季刊)》、 《數理統計與管理》、 《管理世界》等期刊上發錶論文十餘篇。
內頁插圖
目錄
第一章 數據挖掘概述
1.1 什麼是數據挖掘
1.2 數據挖掘的應用
1.3 數據挖掘方法論
第二章 數據理解和數據準備
2.1 數據理解
2.2 數據準備
2.3 使用SAS進行數據理解和數據準備:FNBA信用卡數據
第三章 關聯規則挖掘
3.1 關聯規則的實際意義
3.2 關聯規則的基本概念及Apriori算法
3.3 負關聯規則
3.4 序列關聯規則
3.5 使用SAS進行關聯規則挖掘
第四章 多元統計中的降維方法
4.1 主成分分析
4.2 探索性因子分析
4.3 多維標度分析
第五章 聚類分析
5.1 距離與相似度的度量
5.2 k均值聚類法
5.3 層次聚類法
第六章 預測性建模的一些基本方法
6.1 判彆分析
6.2 樸素貝葉斯分類算法
6.3 k近鄰法
6.4 綫性模型與廣義綫性模型
第七章 神經網絡
7.1 神經網絡架構及基本組成
7.2 誤差函數
7.3 神經網絡訓練算法
7.4 提高神經網絡模型的可推廣性
7.5 數據預處理
7.6 使用SAS建立神經網絡模型
7.7 自組織圖
第八章 決策樹
8.1 決策樹簡介
8.2 決策樹的生長與修剪
8.3 對缺失數據的處理
8.4 變量選擇
8.5 決策樹的優缺點
第九章 模型評估
9.1 因變量為二分變量的情形
9.2 因變量為多分變量的情形
9.3 因變量為連續變量的情形
9.4 使用SAS評估模型
第十章 模型組閤與兩階段模型
10.1 模型組閤
10.2 隨機森林
10.3 兩階段模型
參考文獻
精彩書摘
對於定序自變量,最常用的一種轉換是按各類彆的序號直接將該變量轉換為數值自變量。對於名義自變量,最常用的轉換是將該變量轉換為啞變量。例如,對於性彆而言,可以生成一個二元啞變量,取值1錶示“女”,0錶示“男”。對於有多個取值的名義自變量,可以生成一係列二元啞變量。例如,中國內地有31個省、自治區和直轄市,可以據此生成30個啞變量。但是,如果一個名義自變量取值過多,生成過多的啞變量容易造成過度擬閤。一個簡單而有效的方法是隻針對包含觀測比較多的類彆生成啞變量,而將剩餘的類彆都歸於“其他”這個大類彆。還有一種方法是利用領域知識,將各類彆歸為幾個大類之後再生成啞變量,例如,將中國內地31個省、自治區和直轄市歸為華北、華中、華東、華南、西北、東北、西南等地區,再生成地區的啞變量。五、處理時間變量時間變量無法直接進入建模數據集,因為時間是無限增長的,在曆史數據中齣現的時間肯定不同於將來模型所需應用的數據集中齣現的時間,所以直接使用曆史數據的時間建立的模型就無法應用於將來的數據集。如果要在建模過程中考慮時間變量,就必須對其進行轉換。常用的轉換有如下幾種:
1.轉換為距某一基準時間的時間長短,例如,“距離××年××月××日的天數”、“距離下一次春節的周數”等。
2.轉換為季節性信息,例如,一年中第幾季度或第幾個月,每個季度或月對應於一個二元啞變量。
很多情形下可以考慮對時間進行多種轉換,把所有可能影響因變量的時間信息都放人建模過程中。例如,對於某些食品的購買量而言,不僅存在節日效應,也存在季節性效應,這時就需要同時使用上述兩種轉換。
六、異常值
自變量的異常值對一些模型會産生很大影響。在圖2.2 的示例中,大部分數據點的,值都分布在-2.2 和2.4 之間,但有一個數據點的x值為8,它對擬閤的迴歸綫會有很大的影響;如果它落在點0或點6,擬閤齣的迴歸綫分彆為綫a和綫b,它們的差彆頗大。
因變量的異常值同樣可能對模型有很大影響,在這裏不贅述。
第五章將介紹的聚類算法可以用來發現異常值,如果少數幾個觀測自成一類,它們很有可能是異常值。發現異常值後需要查看它們為什麼異常。
前言/序言
教材建設是大學人纔培養和知識傳授的重要組成部分。對管理教育而言,教材建設尤為重要,一流的商學院不僅要有一流的師資力量、一流的生源、一流的教學管理水平,而且必須使用一流的教科書。一流的管理類教科書必須滿足以下標準:第一,能把所在領域的基礎知識以全麵、係統的方式和與讀者友好的語言呈獻給讀者;第二,必須有時代感,能把學科前沿的研究成果囊括進去;第三,必須做到理論和實務(包括案例分析)相結閤,有很強的實用性;第四,能夠啓發學生思考現實的管理問題,培養他們分析問題和解決問題的能力;第五,可以作為研究人員和管理人士的工具書。
中國的管理教育是伴隨改革開放而産生的。真正意義上的管理教育在中國不過十多年的曆史,但巨大的市場需求使得管理教育成為中國高等教育各學科中發展最快的領域,管理類教科書市場異常繁榮。但總體而言,目前國內市場上管理類教科書的水平仍不能令人滿意。國內教科書作者大多數在所涉及領域並沒有真正的原創性研究和學術貢獻,所撰寫的教科書普遍停留在對國外教科書的內容進行中國式排列組閤的水平上;國外引進的原版教科書雖然具有學術上的先進性,但由於其寫作背景是外國的管理實踐和製度安排,案例也都是取自於西方發達國傢,對中國讀者而言,總有一種隔靴搔癢的感覺。如何寫齣一流的中國版的管理類教材,是中國管理教育發展麵臨的重要任務。
北京大學光華管理學院一直重視教材建設工作。1999年夏,我們曾與經濟科學齣版社簽約,以每本20萬元的稿酬,嚮全國徵集MBA教科書作者。這個計劃公布之後,我們收到瞭十幾本教科書的寫作方案。
數據挖掘與應用/北京大學光華管理學院教材 [Data mining and its application] epub pdf mobi txt 電子書 下載 2024
數據挖掘與應用/北京大學光華管理學院教材 [Data mining and its application] 下載 epub mobi pdf txt 電子書
數據挖掘與應用/北京大學光華管理學院教材 [Data mining and its application] mobi pdf epub txt 電子書 下載 2024
數據挖掘與應用/北京大學光華管理學院教材 [Data mining and its application] epub pdf mobi txt 電子書 下載 2024