基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 epub pdf mobi txt 电子书 下载 2024
发表于2024-11-26
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 epub pdf mobi txt 电子书 下载 2024
本书重点阐释自动化数据抓取和分析技术,适用于初中级用户。作者以简洁的代码、详细的讲解以及真实的案例,分析了大数据在社会科学领域的运用。作者尽可能回避晦涩的术语和高深的理论,通过非常实用的组件探讨很多有趣的实际问题。这种深入浅出的讲解方式有利于我们快速上手,在循序渐进中学习,并能把学到的技术应用到实际研究项目中。
本书特色:
提供关于网络抓取和文本挖掘的实用指南,既适合R的初学者,也适合有经验的用户。
讲解互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等)。
探索查询网络文档和数据集的基本技术(XPath及正则表达式),以及从动态HTML采集信息的技术。
提出数据抓取和管理的实用工作流,包括从选择正确的方法到优化代码以及维护抓取程序。
以案例分析为特色,每种技术都辅以详细的案例解析。
提供大量练习题,帮助读者深入学习与总结每项技术。
本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
本书共17章,第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识,内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱,其中第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
2.3.6 标题标签、
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 epub pdf mobi txt 电子书 下载 2024
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 下载 epub mobi pdf txt 电子书 2024基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 mobi pdf epub txt 电子书 下载 2024
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 epub pdf mobi txt 电子书 下载很好的东西,多学点总没坏处的,未来的潮流
评分书很好,内容很丰满,最近正好要用网络爬虫做项目,非常实用
评分正在学爬虫,里面的代码比我写的好多了,看到的晚了
评分书是正版的,没什么毛病,还没来得及看
评分这本书是我找到的R网络数据收集和处理的最全的,赞,五星。
评分不错!京东全场200-100,活动买的。实惠
评分准备学习的。书定价还是有点贵。
评分好
评分正在学爬虫,里面的代码比我写的好多了,看到的晚了
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 epub pdf mobi txt 电子书 下载 2024