商品參數
基本信息
書名: | 機器學習實戰 |
作者: | (美)Harrington | 開本: | |
YJ: | 69 | 頁數: | |
現價: | 見1;CY =CY部 | 齣版時間 | 2013-06 |
書號: | 9787115317957 | 印刷時間: | |
齣版社: | 人民郵電齣版社 | 版次: | |
商品類型: | 正版圖書 | 印次: | |
內容提要 作者簡介
Peter Harrington
擁有電氣工程學士和碩士學位,他曾經在美國加州和中國的英特爾公司工作7年。Peter擁有5項美國專利,在三種學術期刊上發錶過文章。他現在是Zillabyte公司的1席科學傢,在加入該公司之前,他曾擔任2年的機器學習軟件顧問。Peter在業餘時間還參加編程競賽和建造3D打印機。
精彩導讀
大學畢業後,我先後在加利福尼亞和中國大陸的Intel公司工作。Z初,我打算工作兩年之後迴學校讀研究生,但是幸福時光飛逝而過,轉眼J過去瞭六年。那時,我意識到我必須迴到校園。我不想上夜校或進行在綫學習,我J想坐在大學校園裏吸納學校傳授的所有知識。在大學裏,Z好的方麵不是你研修的課程或從事的研究,而是一些外圍活動:與人會麵、參加研討會、加入組織、旁聽課程,以及學習未知的知識。
在2008年,我幫助籌備一個招聘會。我同一個大型金融機構的人交談,他們希望我去應聘他們機構的一個對信用卡建模(判斷某人是否會償還貸款)的崗位。他們問我對隨機分析瞭解多少,那時,我並不能確定“隨機”一詞的意思。他們提齣的工作地點令我無法接受,所以我決定不再考慮瞭。但是,他們說的“隨機”讓我很感興趣,於是我拿來課程目錄,尋找含有“隨機”字樣的課程,我看到瞭“離散隨機係統”。我沒有注冊J直接旁聽瞭這門課,完成課後作業,參加考試,Z終被授課教授發現。但是她很仁慈,讓我繼續學習,這讓我FC感激。上這門課,是我D一次看到將概率應用到算法中。在這之前,我見過一些算法將平均值作為外部輸入,但這次不同,方差和均值都是這些算法中的內部值。這門課主要討論時間序列數據,其中每一段數據都是一個均勻間隔樣本。我還找到瞭名稱中包含“機器學習”的另一門課程。該課程中的數據並不假設滿足時間的均勻間隔分布,它包含更多的算法,但嚴謹性有所降低。再後來我意識到,在經濟係、電子工程係和計算機科學係的課程中都會講授類似的算法。
2009年初,我順利畢業,並在矽榖謀得瞭一份軟件谘詢的工作。接下來的兩年,我先後在涉及不同技術的八傢公司工作,發現瞭Z終構成這本書主題的兩種趨勢:D一,為瞭開發齣競爭力強的應用,不能僅僅連接數據源,而需要做更多事情;D二,用人單位希望員工既懂理論也能編程。
程序員的大部分工作可以類比於連接管道,所不同的是,程序員連接的是數據流,這也為人們帶瞭巨大的財富。舉一個例子,我們要開發一個在綫齣售商品的應用,其中主要部分是允許用戶來發布商品並瀏覽其他人發布的商品。為此,我們需要建立一個Web錶單,允許用戶輸入所售商品的信息,然後將該信息傳到一個數據存儲區。要讓用戶看到其他用戶所售商品的信息,J要從數據存儲區獲取這些數據並適D地顯示齣來。我可以確信,人們會通過這種方式掙錢,但是如果讓要應用更好,需要加入一些智能因素。這些智能因素包括自動刪除不適D的發布信息、檢測不正D交易、給齣用戶可能喜歡的商品以及預測網站的流量等。為瞭實現這些目標,我們需要應用機器學習方法。對於Z終用戶而言,他們並不瞭解幕後的“魔法”,他們關心的是應用能有效運行,這也是好産品的標誌。
一個機構會雇用一些理論傢(思考者)以及一些做實際工作的人(執行者)。前者可能會將大部分時間花在學術工作上,他們的日常工作J是基於論文産生思路,然後通過GJ工具或數學進行建模。後者則通過編寫代碼與真實SJ交互,處理非理想SJ中的瑕疵,比如崩潰的機器或者帶噪聲的數據。WQ區分這兩類人並不是個好想法,很多成功的機構都認識到這一點。(精益生産的一個原則J是,思考者應該自己動手去做實際工作。)D招聘經費有限時,誰更能得到工作,思考者還是執行者?很可能是執行者,但是現實中用人單位希望兩種人都要。很多事情都需要做,但D應用需要更高要求的算法時,那麼需要的人員J必須能夠閱讀論文,領會論文思路並通過代碼實現,如此反復下去。
在這之前,我沒有看到在機器學習算法方麵縮小思考者和執行者之間差距的書籍。本書的目的J是填補這個空白,同時介紹機器學習算法的使用,使得讀者能夠構建更成功的應用。
……
目錄 D一部分 分類
D1章 機器學習基礎
1.1 何謂機器學習
1.1.1 傳感器和海量數據
1.1.2 機器學習FC重要
1.2 關鍵術語
1.3 機器學習的主要任務
1.4 如何選擇閤適的算法
1.5 開發機器學習應用程序的步驟
1.6 Python語言的優勢
1.6.1 可執行僞代碼
1.6.2 Python比較流行
1.6.3 Python語言的特色
1.6.4 Python語言的缺點
1.7 NumPy函數庫基礎
1.8 本章小結
D2章 k-近鄰算法
2.1 k-近鄰算法概述
2.1.1 準備:使用Python導入數據
2.1.2 從文本文件中解析數據
2.1.3 如何測試分類器
2.2 示例:使用k-近鄰算法改進約會網站的配對效果
2.2.1 準備數據:從文本文件中解析數據
2.2.2 分析數據:使用Matplotlib創建散點圖
2.2.3 準備數據:歸一化數值
2.2.4 測試算法:作為完整程序驗證分類器
2.2.5 使用算法:構建完整可用係統
2.3 示例:手寫識彆係統
2.3.1 準備數據:將圖像轉換為測試嚮量
2.3.2 測試算法:使用k-近鄰算法識彆手寫數字
2.4 本章小結
D3章 決策樹
3.1 決策樹的構造
3.1.1 信息增益
3.1.2 劃分數據集
3.1.3 遞歸構建決策樹
3.2 在Python中使用Matplotlib注解繪製樹形圖
3.2.1 Matplotlib注解
3.2.2 構造注解樹
3.3 測試和存儲分類器
3.3.1 測試算法:使用決策樹執行分類
3.3.2 使用算法:決策樹的存儲
3.4 示例:使用決策樹預測隱形眼鏡類型
3.5 本章小結
D4章 基於概率論的分類方法:樸素貝葉斯
4.1 基於貝葉斯決策理論的分類方法
4.2 條件概率
4.3 使用條件概率來分類
4.4 使用樸素貝葉斯進行文檔分類
4.5 使用Python進行文本分類
4.5.1 準備數據:從文本中構建詞嚮量
4.5.2 訓練算法:從詞嚮量計算概率
4.5.3 測試算法:根據現實情況修改分類器
4.5.4 準備數據:文檔詞袋模型
4.6 示例:使用樸素貝葉斯過濾垃圾郵件
4.6.1 準備數據:切分文本
4.6.2 測試算法:使用樸素貝葉斯進行交叉驗證
4.7 示例:使用樸素貝葉斯分類器從個人廣告中獲取區域傾嚮
4.7.1 收集數據:導入RSS源
4.7.2 分析數據:顯示地域相關的用詞
4.8 本章小結
D5章 Logistic迴歸
5.1 基於Logistic迴歸和Sigmoid函數的分類
5.2 基於Z優化方法的ZJ迴歸係數確定
5.2.1 梯度上升法
5.2.2 訓練算法:使用梯度上升找到ZJ參數
5.2.3 分析數據:畫齣決策邊界
5.2.4 訓練算法:隨機梯度上升
5.3 示例:從疝氣病癥預測病馬的死亡率
5.3.1 準備數據:處理數據中的缺失值
5.3.2 測試算法:用Logistic迴歸進行分類
5.4 本章小結
D6章 支持嚮量機
6.1 基於Z大間隔分隔數據
6.2 尋找Z大間隔
6.2.1 分類器求解的優化問題
6.2.2 SVM應用的一般框架
6.3 SMO高效優化算法
6.3.1 Platt的SMO算法
6.3.2 應用簡化版SMO算法處理小規模數據集
6.4 利用完整Platt SMO算法加速優化
6.5 在復雜數據上應用核函數
6.5.1 利用核函數將數據映射到高維空間
6.5.2 徑嚮基核函數
6.5.3 在測試中使用核函數
6.6 示例:手寫識彆問題迴顧
6.7 本章小結
D7章 利用AdaBoost元算法提高分類
性能
7.1 基於數據集多重抽樣的分類器
7.1.1 bagging:基於數據隨機重抽樣的分類器構建方法
7.1.2 boosting
7.2 訓練算法:基於錯誤提升分類器的性能
7.3 基於單層決策樹構建弱分類器
7.4 完整AdaBoost算法的實現
7.5 測試算法:基於AdaBoost的分類
7.6 示例:在一個難數據集上應用AdaBoost
7.7 非均衡分類問題
7.7.1 其他分類性能度量指標:正確率、召迴率及ROC麯綫
7.7.2 基於代價函數的分類器決策控製
7.7.3 處理非均衡問題的數據抽樣方法
7.8 本章小結
D二部分 利用迴歸預測數值型數據
D8章 預測數值型數據:迴歸
8.1 用綫性迴歸找到ZJ擬閤直綫
8.2 局部加權綫性迴歸
8.3 示例:預測鮑魚的年齡
8.4 縮減係數來“理解”數據
8.4.1 嶺迴歸
8.4.2 lasso
8.4.3 前嚮逐步迴歸
8.5 權衡偏差與方差
8.6 示例:預測樂高玩具套裝的價格
8.6.1 收集數據:使用Google購物的API
8.6.2 訓練算法:建立模型
8.7 本章小結
D9章 樹迴歸
9.1 復雜數據的局部性建模
9.2 連續和離散型特徵的樹的構建
9.3 將CART算法用於迴歸
9.3.1 構建樹
9.3.2 運行代碼
9.4 樹剪枝
9.4.1 預剪枝
9.4.2 後剪枝
9.5 模型樹
9.6 示例:樹迴歸與標準迴歸的比較
9.7 使用Python的Tkinter庫創建GUI
9.7.1 用Tkinter創建GUI
9.7.2 集成Matplotlib和Tkinter
9.8 本章小結
D三部分 無監督學習
D10章 利用K-均值聚類算法對未標注數據分組
10.1 K-均值聚類算法
10.2 使用後處理來提高聚類性能
10.3 二分K-均值算法
10.4 示例:對地圖上的點進行聚類
10.4.1 Yahoo! PlaceFinder API
10.4.2 對地理坐標進行聚類
10.5 本章小結
D11章 使用Apriori算法進行關聯分析
11.1 關聯分析
11.2 Apriori原理
11.3 使用Apriori算法來發現頻繁集
11.3.1 生成候選項集
11.3.2 組織完整的Apriori算法
11.4 從頻繁項集中挖掘關聯規則
11.5 示例:發現國會投票中的模式
11.5.1 收集數據:構建美國國會投票記錄的事務數據集
11.5.2 測試算法:基於美國國會投票記錄挖掘關聯規則
11.6 示例:發現毒蘑菇的相似特徵
11.7 本章小結
D12章 使用FP-growth算法來高效發現頻繁項集
12.1 FP樹:用於編碼數據集的有效方式
12.2 構建FP樹
12.2.1 創建FP樹的數據結構
12.2.2 構建FP樹
12.3 從一棵FP樹中挖掘頻繁項集
12.3.1 抽取條件模式基
12.3.2 創建條件FP樹
12.4 示例:在Twitter源中發現一些共現詞
12.5 示例:從新聞網站點擊流中挖掘
12.6 本章小結
D四部分 其他工具
D13章 利用PCA來簡化數據
13.1 降維技術
13.2 PCA
13.2.1 移動坐標軸
13.2.2 在NumPy中實現PCA
13.3 示例:利用PCA對半導體製造數據降維
13.4 本章小結
D14章 利用SVD簡化數據
14.1 SVD的應用
14.1.1 隱性語義索引
14.1.2 推薦係統
14.2 矩陣分解
14.3 利用Python實現SVD
14.4 基於協同過濾的推薦引擎
14.4.1 相似度計算
14.4.2 基於物品的相似度還是基於用戶的相似度?
14.4.3 推薦引擎的評價
14.5 示例:餐館菜肴推薦引擎
14.5.1 推薦未嘗過的菜肴
14.5.2 利用SVD提高推薦的效果
14.5.3 構建推薦引擎麵臨的挑戰
14.6 基於SVD的圖像壓縮
14.7 本章小結
D15章 大數據與MapReduce
15.1 MapReduce:分布式計算的框架
15.2 Hadoop流
15.2.1 分布式計算均值和方差的mapper
15.2.2 分布式計算均值和方差的reducer
15.3 在YMX網絡服務上運行Hadoop程序
15.3.1 AWS上的可用服務
15.3.2 開啓YMX網絡服務之旅
15.3.3 在EMR上運行Hadoop作業
15.4 MapReduce上的機器學習
15.5 在Python中使用mrjob來自動化MapReduce
15.5.1 mrjob與EMR的無縫集成
15.5.2 mrjob的一個MapReduce腳本剖析
15.6 示例:分布式SVM的Pegasos算法
15.6.1 Pegasos算法
15.6.2 訓練算法:用mrjob實現MapReduce版本的SVM
15.7 你真的需要MapReduce嗎?
15.8 本章小結
附錄A Python入門
附錄B 綫性代數
附錄C 概率論復習
附錄D 資源
索引
版權聲明
內容介紹
七天無理由退貨服務
目錄
本店全部為正版圖書
機器學習實戰 epub pdf mobi txt 電子書 下載 2024
機器學習實戰 下載 epub mobi pdf txt 電子書