命令行中的數據科學 epub pdf mobi txt 電子書 下載 2025
發表於2025-01-11
命令行中的數據科學 epub pdf mobi txt 電子書 下載 2025
大數據時代,數據科學研究與分析日益重要。本書獨樹一幟,教你利用靈活的命令行工具成為高效多産的數據科學傢。
為此,作者開發瞭數據科學工具箱,一個包含80多個命令行工具的安裝簡單的虛擬環境,能在Windows、OS X和Linux操作係統上運行。你將學會如何結閤使用這些小而強大的命令行工具,快速地獲取、清洗、探索和建模數據。
通過閱讀本書,你會明白為什麼命令行是一種靈活、可伸縮、易擴展的技術。即使你已經能夠使用Python或R得心應手地處理數據,利用命令行也將大大改進你的數據科學工作流。
《命令行中的數據科學》集實用性和先進性於一身,為數據分析人員使用命令行這個靈活的工具提供瞭重要參考。作者講解瞭眾多實用的命令行工具,以及如何使用它們高效地獲取、清洗、探索和建模數據。論你使用Windows、OS X,還是Linux,都可以安裝包含80多個命令行工具的“數據科學工具箱”,迅速建立自己的數據分析環境。論你是否已經習慣於使用Python或R語言,都能夠通過本書體會到使用命令行的快捷、靈活與伸縮自如。
Jeroen Janssens,愛思唯爾(世界領先的科技及醫學齣版公司)首席數據科學傢,曾是紐約YPlan公司高級數據科學傢。專門從事機器學習、異常檢測和數據可視化。在荷蘭馬斯特裏赫特大學獲得人工智能碩士學位,在荷蘭蒂爾堡大學獲得機器學習博士學位。他熱衷於創建數據科學的開源工具。
王曉偉,畢業於國防科學技術大學,獲計算機科學與技術專業博士學位。研究興趣為海量數據管理與挖掘。
劉峰,百度LBS位置大數據部資深研發工程師,新加坡南洋理工大學計算機工程係博士,研究領域包括機器學習、神經網絡、數據挖掘等。2010年加入百度,主要從事大數據分析和挖掘方麵的工作,近年來專注於網絡定位、智能交通等LBS大數據的挖掘和機器學習應用。
★“命令行體現瞭Unix‘簡單工具’的理念,即每個工具完成一項工作,然後巧妙地連接在一起。Jeroen很專業地討論瞭怎樣將這個理念引入數據科學工作,展示瞭為什麼命令行不僅能夠進行簡單的文件輸入/輸齣,還是數據操作、探索,甚至建模的利器。”
——Chris H. Wiggins,《紐約時報》首席數據科學傢,哥倫比亞大學應用物理學與應用數學係副教授
★“這本書講解瞭如何將常見的數據科學任務集成到一個連貫的工作流,涵蓋瞭分解問題和組閤方案的策略。”
——John D. Cook,知名應用數學、統計及軟件開發谘詢顧問
數據科學是個激動人心卻又非常年輕的領域。不幸的是,許多個人和公司,總是認為需要利用新技術纔能解決數據科學提齣的問題。實際上,正如本書所揭示的,許多問題使用命令行就能解決,而且有時候效率要高得多。
大約5 年前,在攻讀博士學位期間,我逐步從使用微軟Windows 轉為使用GUN/Linux。剛開始我有點謹小慎微,因此同時安裝瞭這兩個操作係統(也就是雙係統啓動)。後來,在這兩個係統之間切換的需求越來越少,有時我甚至對Arch Linux 修修補補,能從零開始自己定製操作係統。這時能用的隻有命令行,而且想做什麼完全隨心所欲。很快,我就對使用命令行得心應手。最終,由於業餘時間越來越寶貴,我決定使用名為Ubuntu 的GNU/Linux 發行版,因為它易於使用並且有龐大的社區。盡管如此,命令行仍然是我完成絕大部分工作的不二選擇。
實際上,我後來認識到,命令行不單可以用於安裝軟件、配置係統以及搜索文件。於是我開始學習諸如cut、sort 和sed 這些命令行工具。這些工具都是將數據作為輸入,對數據進行處理,然後打印結果。Ubuntu 自帶瞭相當多這樣的工具。當明白可以將這些小工具結閤起來使用時,我就對它入迷瞭。
當我拿到博士學位,成為一名數據科學傢時,我想充分利用這種方法來做數據科學工作。
幸虧有幾個新的開源命令行工具,包括scrape、jq 和json2csv,我甚至能夠使用命令行來完成抓取網站以及處理大量JSON 數據這樣的任務。2013 年9 月,我寫瞭一篇名為“數據科學的7 個命令行工具”的博客文章(http://jeroenjanssens.com/2013/09/19/seven-commandline-tools-for-data-science.html)。讓我吃驚的是,這篇文章獲得很大反響。後來許多人嚮我推薦其他命令行工具,於是我開始考慮是否可以將這篇文章擴充成書。令人高興的是,10個月之後,在許多纔華橫溢的人的幫助下(參見“緻謝”),本書得以付梓。
分享這段個人經曆不僅是想介紹本書的由來,更是希望你知道我也是需要學習命令行的。使用命令行與使用圖形化用戶界麵迥然不同,剛開始可能是令人生畏的。但是,既然我能夠學會它,你當然也沒問題。不管你目前使用的是什麼操作係統,也不管你現在是以什麼方式做數據科學的工作,讀完本書,你也能夠利用命令行的強大能力。即使你已經熟悉命令行,或者甚至已經打算學習shell 腳本,你仍然可能在書中發現一些有趣技巧或命令行工具,能用於未來的數據科學項目。
從本書可以學到的
書中將對大量數據進行獲取、清洗、探索以及建模。我們不會過多介紹如何完成這些數據科學任務,因為對於諸如應該何時及用什麼進行統計檢驗,或者怎樣纔能將數據可視化做到最好,很容易找到大量參考資料。本書緻力於實用性,旨在通過教你用命令行執行數據科學任務,使你更加高效和多産。
盡管書中討論瞭80 多個命令行工具,但這些工具本身並不是最重要的。有些命令行工具存在已久,有些則是新近齣現,並且可能最終會被更好的工具所取代。甚至在你閱讀本書的時候,有的命令行工具正在創建之中。在過去的10 個月裏,我就已經發現瞭許多奇妙的命令行工具。遺憾的是,有的工具被發現的時間太晚,無法包含在本書中。總之,命令行工具的新陳代謝是常態。
用工具、管道和數據進行工作的思想纔是最重要的。多數命令行工具隻做一項任務,並且做得很好。這符閤Unix 的理念,這種理念在書中許多地方都有體現。一旦熟悉瞭命令行,並且學會瞭如何將命令行工具結閤起來,你就學會瞭一項非常寶貴的技能。如果還能創建新的工具,那你就齣類拔萃瞭。
……
命令行中的數據科學 epub pdf mobi txt 電子書 下載 2025
命令行中的數據科學 下載 epub mobi pdf txt 電子書命令行中的數據科學 mobi pdf epub txt 電子書 下載 2025
命令行中的數據科學 epub pdf mobi txt 電子書 下載熟悉linux的數據分析應用很有幫助。
評分不錯,是我所需要的
評分房管局 v 科普捷夫的
評分書很薄的,學習中,活動中買的
評分3.史上最獨特、最有趣的多格漫畫佛法繪本,七月重磅首推係列漫畫第一部:《煩惱都是自找的》,揭示“煩惱真的都是自己找的”的生命真相,願眾生真正地醒來、解脫煩惱,平安、喜樂。颱灣著名漫畫傢蔡誌忠作序推薦。
評分正在看
評分不錯,是我所需要的
評分非常推薦的一本書,入門很值得
評分有很多暗黑魔法,想好好看看
命令行中的數據科學 epub pdf mobi txt 電子書 下載 2025