2015年度十大科技创新人物、百万级畅销书《大数据时代》中文版译者、中国大数据领军人周涛耗时三年首部个人专著横空出世!
领跑大数据3.0时代,大数据创新实践的扛鼎之作!
没有晦涩的文辞,枯燥的说教,字里行间洋溢着浓浓的数据情怀与拳拳的责任之心。睿智潇洒的文风背后是对大数据的一腔朴素浓厚的感情。
这是一部大数据在智慧城市、医疗、教育、金融、商业等领域的实践笔记;更是一部为未来大数据的发展提供有可行性的路径指南!
宽带资本董事长田溯宁、阿里巴巴集团执行副总裁曾鸣、香港科技大学教授杨强重磅推荐!
湛庐文化出品。
在大数据概念如此流行的今天,为什么要读这本书?中国大数据领军人、大数据创新与实践一线专家、百万级畅销书《大数据时代》中文版译者周涛,耗时三年,将海量真实案例披沙拣金呈现给广大读者。在本书中,您将看到大数据在智慧交通系统、个性化医疗、智慧学校以及金融和商业等领域的中国式创新实践,并为未来大数据的发展提供有可行性的路径指南。
什么样的人才能在下一个时代生存和发展?大数据3.0时代我们究竟要做些什么?数据交易如何让数据资源成为汇聚之地?每个企业又该如何成为大数据企业?周涛教授通过真实案例告诉读者:拥有大数据的理念,能够掌握数据和运用数据的人和企业,才能在“一切都被记录,一切都被分析”的数据化时代得以生存。无论现在从事什么行业,即便不能掌握一项特定的数据技术,了解大数据的理念、培养大数据的思维模式是非常重要的。学会用数据说话,用数据分析的结果来证明“哪个更好,哪个更坏”并指导我们作出正确决策。
这不是坚硬的学术专著,而是一部柔软的情怀之书!没有晦涩的文辞,枯燥的说教,字里行间洋溢着浓浓的数据情怀和拳拳的责任之心。周涛教授讲述了很多在大数据领域努力拼搏,希望有所创新的中国人的故事,相信这些故事背后的理念、技术和精神能够唤起更多年轻的创新者,为我们民族的复兴作出自己的贡献。
领跑大数据3.0时代,大数据创新实践的扛鼎之作!大数据1.0,是将自身业务上产生的大量数据,利用深入的分析使其不断优化,优化之后的业务产生更多数据的正向循环。大数据2.0,是如何把自身业务的数据用来解决业务以外的其它问题,或者如何用业务以外的数据解决自身业务的问题。大数据3.0,是如何在资本和文化的催化作用下,让数据、技术、需求和人才等大数据创新要素融为一体。三个版本强调的不是时间上的先后顺序或逻辑上的依存关系,而是就其与传统数据应用在理念上的差异程度进行的划分。
周涛
天才神童。1岁说话,1岁半识字,2岁学象棋,3岁打麻将,4岁看武侠小说……26岁获得教育部自然科学一等奖,27岁获聘电子科技大学正教授,29岁获得中国青年科技奖。
学术达人。在《物理报道》(Physics Reports)、《美国科学院院刊》(PNAS)、《自然通讯》(Nature Communication)等国际SCI期刊和SIGKDD、ICDM等国际学术会议发表论文300余篇,引用13000余次,H指数为55。入选Elsevier全球具影响力中国学者名单(物理天文类)。
数据少帅。电子科技大学大数据研究中心主任,百万畅销书《大数据时代》中文译者,全国的数据挖掘竞赛平台Data Castle的创始人,“2015年度十大科技创新人物”获得者。
商业玩家。白手起家,先后创立了数之联、数联铭品、国信优易等知名大数据企业,创立和投资的大数据企业总市值过百亿。
周涛是中国年轻有为的大数据专家,他不仅做大数据研究,而且将产、学、研融为一体,在大数据创新实践上一直卓有成效。在大数据渡过普及期的今天,更需要像周涛这样的一线专家与实践者为下一步大数据的创新指出方向:大数据3.0时代我们究竟要做些什么?数据交易如何让数据资源成为汇聚之地?每个企业又该如何成为大数据企业?
在他这本洋溢着浓浓的数据情怀与拳拳的责任之心的著作中,我们可以看到系统而清晰的路径指南!
——田溯宁
宽带资本董事长
当大数据的概念如此流行的時候,难得有本好书可以把实操、理论和理念都讲明白的,值得认真一读!
——曾鸣
阿里巴巴集团执行副总裁
文笔优雅,深入浅出,思维缜密,思想深远!
——杨强
香港科技大学教授
周涛用大数据分析的新视角,重新审视我们所面对的这个世界,他带领一群年轻人,在“大众创业,万众创新”的道路上,迈出了自己坚实的脚步。在大数据挖掘与分析,特别是网络数据的挖掘与分析方面做出了系统性的贡献,其创新成果解决了重大科学问题,突破了关键核心技术,产生了重大社会经济效益,显著改善了百姓生活。
——“2015年度十大科技创新人物”颁奖词
自序:在麻瓜和魔法师之间做出选择
Part.1 大数据时代,用数据说话
01 从万物皆数到万事皆数 / 005
主动或被动,我们都是数据贡献者
一切都被记录,一切都被分析
四大方面,让数据指数级增长
02 从十数九表到数态万千 / 017
结构化数据
非结构化数据
03 从隔水相望到阡陌交通 / 029
地点数据
个人数据
数据与数据,1+1远大于2
大数据创新实践:
用购买记录给用户画像
04 大数据和云计算驱动新工业革命 / 039
计算:第三次工业革命中的新能源
数据:第三次工业革命中的新材料
证析:第三次工业革命中的先进工艺技术
个性化:大数据时代最显著的商业特征
大数据创新实践:
一张失败的公交卡
个性化医疗,安吉丽娜·朱莉和史蒂夫·乔布斯
Part.2 大数据1.0:分析
05 统计呈现洞见 / 055
抓出非法的MCC套用
打击“电老鼠”
“抓获”过度医疗和骗保行为
识别社交网络中的垃圾用户
新浪微博面临的三大问题
快递员的通话记录蕴藏哪些商机
付费节目点播最多的是什么
06 关联蕴含价值 / 075
关联规则挖掘
协同过滤
关联分析是寻找因果关系的利器
大数据创新实践:
谁最关注超声波洁面产品
发现“一月三电号”僵尸用户
07 预测指导决策 / 089
点击购买类预测
基于移动轨迹的位置预测
链路预测
大数据预测的主流方法是什么
大数据创新实践:
一张信用卡逾期不还款的概率有多大
签到记录预测用户的土著化指数
Part.3 大数据2.0:外化
08 寻求外部数据的帮助 / 109
从行为数据预测学生考试成绩
从食堂打卡记录中“定位”孤独人群
从社会计量标牌洞察人力资源管理
预测离职率和升职率
行为数据让非法集资无所遁行
09 自身数据的外部价值 / 129
45个关键词实时预测流感趋势
阿里巴巴的“淘CPI”指数
10 机器学习,数据外化最神奇的利器 / 139
机器学习三板斧1:特征
机器学习三板斧2:模型
机器学习三板斧3:融合
Part.4 大数据3.0:集成
11 交易市场:数据资源的汇聚地 /155
科研数据共享
政府数据开放
全国可流通数据的目录体系
12 数据城堡:数据人才的竞技场 / 175
Kaggle,数据科学之家
数据城堡,Kaggle模式的中国尝试者
13 创新工厂:数据技术的嘉年华 / 185
大数据创业公司困境
大型传统企业信息化的难题
构建大数据挖掘平台
建设大数据创新工厂
结束语 成为大数据企业 / 201
致谢 / 211
[结束语]
成为大数据企业
什么样的企业可以称得上是大数据企业呢?恐怕没有人能够给出一个完美的答案。但是,直观地,我们可能觉得Google 更像是一个大数据的企业,阿里巴巴也像是一个大数据的企业,而中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中。除了具有处理大量数据的能力外,之所以Google 和阿里巴巴更像大数据的企业,是因为他们有深入的数据分析工具,利用数据分析的结果直接指导决策,而且经常推出基于数据分析的创新型应用,这还不包括类似于AlphaGo 这样的奇葩。
这是我第三次以文字的形式谈论如何成为一个大数据企业。一是很早以前在“科学网”上写的一篇博客,二是为一本名为Code Halos 的书写的序言。这个版本可以看作是上两个版本的补充和扩充,同时也是本书一些重点内容的重述(为了保证本文的独立性,可以不依赖本书直接阅读,少量书中给出过的文献和注释在本文中重复出现了)。然而遗憾的是,并没有一条放之四海皆准的通往大数据企业的康庄大道,更没有点石成金之术可以让一个企业快速Google化。这篇结束语只是提出一些看得见摸得着的建议,藏在这些建议背后的大数据理念,或许更加重要。
尽管我是用Step1、Step2 这样的说法来列举成为大数据企业的措施,但是这些步骤之间并没有严格的逻辑上谁决定谁或者时间上谁先谁后的关系。举个例子来说,最好的办法当然是先有了数据标准再整理采集数据,这样可以不走任何弯路,但实际上完全没有数据,企业不会有动力做标准建设,做出来的标准也可能是纸上谈兵,完全不实用。又比如,数据管理平台的建设能够帮助更好地进行全面数据化,但实际上它多半是全面数据化战略进行了一定程度之后才开始启动建设的。总体来说,写在更前面位置的,是更基础的,但是没有绝对的依赖关系。
Step 1. 全面数据化
“数据化”浪潮是整个大数据时代的起点,它强调数据就是资产,记录一切可以记录的数据,并相信这些数据一定会在某一天产生巨大的价值。显然,数据化是一个企业能够通过深入数据分析,实现自身优化的基础。
我去长虹集团调研的时候,他们告诉我,长虹电器在自己的生产线上,通过大量传感器,记录生产环境的温度、湿度、粉尘度、振动强度和噪音强度,等等,通过这些量化指标与产品质量的关联分析,得到影响产品优品率和良品率的关键因素,再进一步通过控制环境因素,明显提高了产品的优品率。企业在日常的经营管理过程中,通过办公自动化系统(OA系统),很多内部即时通讯、邮件往来、工作分配和业务文件上传下载等日志数据都被记录下来了。这些数据就是宝贵的财富!正如我在书中第三部分提到的,我们通过对这些数据的分析,能够更精确地预测员工的离职率和升职率,更精确地预测员工和部门的绩效水平,帮助企业员工通过基于关联用户和文本智能匹配快速找到对自己现有业务和客户有参考价值的案例和文件,等等。但是这些提升,都是建立在企业拥有相应数据的基础上。
总的来说,全面数据化要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的概念。
Step 2. 整理数据资源,建立数据标准,形成管理规范
很多企业已经有了一些数据储备,或者通过第一步,开始快速积累了一些数据。但是企业管理层,尤其是跨业态拥有多家子公司的集团运营的企业,一般而言,对于自己到底有哪些数据资源是没有清晰认识的,更拿不出一张较完备的数据目录。
企业要做的第一步,就是通过自顶向下的方式,成立数据委员会,在有必要的时候借助外部合作方的帮助,进行全面的数据调研,了解数据资源的整体情况并建立数据资源情况更新的流程和规范。
数据资源最基本的呈现方式是一个数据目录,我认为,企业管理团队至少要掌握整个企业数据的3级目录,而企业的主要技术团队应该掌握到4级目录。但数据资源又不仅仅是数据目录,因为还涉及到每一个数据项的完备性、更新程度、有效性和噪音源等描述。掌握了数据资源后,企业要根据自己业务发展的需求,建立数据标准,使现有数据和未来所有的新增数据都能够在同一个标准下统一管理,避免“信息系统建设越多,未来数据整合越难”的困境。业务中涉及大量数据的企业,尤其是涉及到用户隐私数据、国家安全数据和具有重要商业价值数据的企业,要形成数据全流程管理的规范,因为绝大部分数据隐私和数据安全的事件,都不是从外部由黑客或者敌方特定人员通过技术手段获得的,而是本单位人员蓄意或无意泄露的。数据全流程管理的规范就是要做到企业能够对数据进行分级分权限的管理,随时了解敏感数据存储在哪些服务器和终端设备上,对于敏感数据的任何处理,都能够留下数据日志并打上唯一的数据水印,使任何可能的数据泄露之后,都能够追根溯源知道是哪一位员工在什么时间点在哪一台设备上运用何种权限下载的。对于一些操作过程中出现的风险点,良好的管理规范也能够实时发现,防患于未然。
Step 3. 建设数据管理平台
有的读者一听到数据管理平台,就认为是要花一大笔钱建设数据中心,把数据存起来。数据管理平台肯定要有数据中心的存储灾备功能,但是它的作用远不止此。
首先,数据管理平台要为企业量身定做一套数据组织和管理的解决方案,特别是企业各部门之间数据的共融共通,以及企业数据怎么样进行索引和关联。很多大企业,各部门之间数据的格式、形态和ID系统都不一致,部门之间无法交换数据,甚至大部分的数据表连主键和外键都没有,数据之间不可能形成有效的组织。这些都是数据管理平台要做的事情。
其次,数据管理平台是由业务所引导的,先进的流数据智能处理系统,要为业务提供直接的支撑。很多时候,数据管理平台怎么搭建,需要深度了解企业最重要的核心业务,通过有重大价值的示范性应用来牵引数据管理平台的建设。例如针对零售类的企业,就应该形成以消费者为中心的索引和画像系统,主要支持精准广告、智能客服等核心业务,其次才是以商品为中心的索引系统,主要支持物流和仓储优化等业务。
最后,数据管理平台的建设要量体裁衣,强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。因为硬件成本的下降也很快,不用想太多半年甚至一年以后的事情,只要架构设计合理,到需要的时候扩充硬件是容易的。
Step 4. 建立海量数据的深入分析能力
要想建立针对多元异构、跨域关联的海量数据,通过深度分析挖掘获取价值的能力,主要要培养两个方面的能力。
第一,非结构化数据的分析处理能力。包括文本、音频、图像、视频、网络和轨迹等数据。受过传统商务智能和统计学训练的人,对于处理结构化数据非常在行,但是处理非结构化数据往往比较头痛——比如分布好做抽样,网络怎么进行抽样?所以,对于常见的,特别是和企业自身业务有密切关系的非结构化数据,一定要有一支队伍能够挖掘其间价值,甚至将其转化为结构化的数据。
第二,大数据下的机器学习的能力。绝大部分我们可以想象到的应用问题,其本质都是分类或者预测问题,包括个性化推荐、精分营销、员工绩效管理、银行信用卡征信、小微企业贷款、生产线控制、精准广告和网点选择,等等。解决这些问题最有力的武器就是机器学习!特别是在大数据环境下,很多高阶的核函数慢得不行,大量的学习都必须采用线性学习器;而且数据非常多,很多时候都是在强噪音环境下寻找弱信号,单一分类器往往效果一般,必须要做集成学习。举个例子,在Netflix举办的百万美元电影个性化推荐大赛中,我们做过一些很优美的单模型,但是比起在比赛中最后获胜的集成学习模型,至少从精度上来说是弱爆了!有的读者要问了,高性能存储计算难道不重要吗?不得有一些懂Hadoop,懂Spark的技术高手吗?要不要在CPU阵列里面加几块GPU甚至可编程逻辑阵列呢?这个也重要,但是企业如果实力足够,可以采用成熟的解决方案,国际上顶尖的大数据服务商,例如IBM、HP和Intel都有不错的方案。但是我说的上述两点,是给企业培养人才和能力,而且至今也没有特别好的成熟的解决方案,所以更重要。
最后,企业怎么建立这样的能力呢?首要办法是能够招聘到一流的大数据人才——多花点钱和股票。第二选择是以显示度项目为牵引,通过外部合作,培养自己的数据分析团队,既解决问题,又学习能力。企业做这类的合作,不要老想着一次性把所有东西都外包出去,要探索新方式,看看能不能成立联合小组共同进行研发,多投入一些人去学习。有一些供应商,特别是在某些方面有专长,但是还不属于国际一流的供应商,在发展过程中是能够接受企业这种要求的。
Step 5. 建设外部数据的战略储备
企业走到这一步,就有点现代大数据企业的理念了,因为它不再仅仅局限于自己业务的数据了,开始看外面的世界了——很多大数据的重大创新,都是来源于把数据放在产生数据的业务体系之外去应用。举个例子,一个服装企业要解决设计生产的规划问题,仅仅看自己的销售记录还不够,要不要看看淘包、天猫和京东上服装的整体销售,了解什么款式、什么颜色、什么价位的服装在哪个地区最受欢迎呢?这就需要外部数据了!
事实上,外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大,而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据,这些数据中的大部分可以通过分布式深网爬虫技术直接高效采集。所以,企业要有意识地开始建立自己的外部数据战略储备,不要“数”到用时方恨少。一方面,企业可以自建具备采集、清洗、存储和索引等功能的自动化系统,自动积累外部数据;另一方面,企业可以通过和数据供应商合作,得到一些亟需的数据。
Step 6. 建立数据的外部创新能力
企业很容易局限在自己的业务中不能自拔。所以,让企业理解外面的数据能够帮助解决自己业务遇到的问题比较容易,因为企业主和员工们每天都在想怎么解决这些问题,反过来,让他们去思考自己业务的数据能不能在其他地方产生重大价值,帮到其他企业,他们就没有那么敏感了。其实,这些创新性的想法往往能够带来新的巨大价值。比如,Google利用自身搜索业务产生的数据,进行电价和传染病流行情况的预测,取得了巨大成功。
事实上,企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台,等等,获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。把握住这些机会,就能够放大企业当前业务的价值,带来持久可观的收益。
Step 7. 推动自身数据的开放与共享
伟大的企业懂得如何把最聪明的人集合起来,为自己服务。
企业有了大量数据和一定的分析能力后,不能故步自封,而要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。现在的Netflix已经不再是一家电影在线租赁公司,而是国际一流的大数据企业了。除了法律上因为安全和隐私不能开放共享的数据,相当一部分都能够以各种方式开放出来——这种开放会带来更大价值!国际化的如 Kaggle(英文平台,www.kaggle.com),国内如 DataCastle(中文平台,ww.pkbigdata.com),都是很有影响力的大数据创新竞赛平台。举个例子,电子科技大学大数据研究中心曾经在DataCastle上举办过学生成绩预测的比赛,总奖金才50 000元,却吸引了915支队伍2 000余名参赛者参加比赛,其中200多只队伍来自于“985”和“211”知名高校。这里面最佳解决方案的思路和方法已经被应用于教育大数据定量化管理的产品模块中了。最近现金巴士推出的“微额借贷用户人品预测大赛”更是吸引了1531支参赛队伍。还有一种最近新出的比赛方式,就是企业给出数据集的描述和样本数据,参赛选手设计创新型商业应用,提交产品说明或者商业计划书。
企业通过这些数据开放计划,可以学习最先进的算法和最具创新性的数据应用思路,实现自身数据的价值最大化。
Step 8. 数据产业的战略投资布局
企业有了一定的规模,光靠自己的能力还不够或者还太慢,就可以考虑通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。这类战略型的投资,有三个可能的出发点:
(1)产业集成。从投资方原有优势产业或大数据前景广阔的重点产业入手,进行全产业链布局,集中力量。
(2)技术集成。以数据采集、存储、计算、分析和可视化的创新型工具为主要投资对象,提供具有普适性的解决方案。
(3)数据集成。以数据流动共享,发挥外部价值为理念,投资一批能够紧密合作、数据互补和可控性强的企业。
对于原来没有从事过数据密集型和信息技术密集型行业的企业来说,第二类投资方向的风险特别大,建议主要从(1)(3)两类考虑。这种投资有别于财物投资,主要是考量被投资企业与投资方的整合能力,以及所能提供俄数据的稀缺性、独立性、多源性、流动性和互补性。
最后,补上这样一个结束语的目的,是希望读者能够从中领悟到企业的大数据之道!如果说有那么几家企业,受到这本书的启发,在商业模式、产品和业务方面产生了可观的价值,这就是作者最大的成功了。
[自序]
在麻瓜和魔法师之间作出选择
我在中科大读本科的时候,上过一门关于“符号计算”的课程。当时授课的老师跟我们说,她以前曾经花很多年的工夫学习和研究过“怎么样在以穿孔纸带为输入方式的计算机上高效实现一些数值计算”。当时她的研究水平和成果在国内应该是领先的,本以为就靠此成就大业了,但是很快,这个世界上突然就再也找不到博物馆以外的穿孔纸带了——我们现在都用键盘和鼠标了。
带机的故事让我想起了一个有些悲伤的段子,我且用第一人称复述一遍。我有一个表哥,因为盗窃被抓。表哥负责藏赃销赃,团伙其他人不知道脏物在哪里,他也死活不承认自己知道,结果被重判了10 年监禁。坐牢之后老婆也跑了,亲戚朋友也散了,只有我还时不时去看望一下,带些东西。直到快出狱的时候,表哥才跟我说,等出狱了要带我一起发大财。我当时特别激动,经常在梦中被大富大贵的场景惊醒,也觉得自己真的是好心有好报。等表哥出狱的时候,我隆重地给他接风洗尘。表哥也迫不及待,当晚就买了两把大铁锹,拉我去郊外一个林子里挖宝。“是金条?是银元?”我激动不已,表哥却笑而不答。我们大半夜挖出了两个大铁箱,然后用铁锹把生锈的锁头劈开,哇,满满两铁箱的传呼机。
讲这两个例子,是想说我们这个时代变化太快——这个时代的特征就是有很多新时代层出不穷。而咱们中国人,最最悲哀的事情,就是经常以为自己是时代的精英,最终却成了时代的弃儿。N年以前最让人艳羡的一群人,不是大学生,而是国有企业的工人。他们或许没有想到有一天自己的“金饭碗”会被打破,贫病下岗。现在又有一大群人,削尖脑袋想挤进公务员或者事业单位人员的队伍,好一辈子守着公务员编制或者事业编制。对,就是这群扑火的人,会在未来编制改革的时候看清楚自己飞蛾的本体。
什么样的人才能在下一个时代生存和发展
那么,问题来了,什么样的人才能在下一个时代生存和发展呢?是那些拥有公务员编制或者事业编制的人吗?在下一个时代,自动化、定量化和个性化会成为主要的特征。恒河沙数的智能终端将会遍布这个世界——从农场到工业制造装置,从智能家居到人体内外。这些智能终端采集和产生的数据,经由数据挖掘和机器学习的手段加工分析,不仅能够提高传统农业、工业的效率,还能够为每一个人提供包括教育、零售、娱乐、金融和医疗等方面完全个性化的服务。驱动这个时代来临的关键力量是数据与数据化的思维。
拥有大数据的理念,能够掌握数据和运用数据的人,就是下一个时代的魔法师,反之,你就成了麻瓜!不管你今天从事的是什么行业,金融、医疗、教育甚至只是一个一线的产业工人或者服务人员,你所在的行业将来都很可能被颠覆,你现在的职业将来都可能变成一种自动化的服务。面对奇幻而又危险的未来世界,今天你就需要在麻瓜和魔法师之间做出选择!在一个麻瓜占绝大多数的世界里面,做一个麻瓜也没有什么不好的,然而很可能,未来的世界是一个魔法世界,你还满足于做一个麻瓜吗?
用数据说话,做最棒的魔法师
最棒的魔法师,是既深谙大数据的理念,又掌握着大数据的核心技术。但是,对于绝大部分人来说,后者是有困难的。我想特别强调的是,即便你不能掌握一项特定的数据技术,了解大数据的理念,培养大数据的思维模式,也是非常重要的——不管你从事什么工作,这种大数据的思维模式都是有帮助的。事实上,我一直觉得类似于统计学(包括概率论、数理统计、统计物理等)和机器学习的理念,对于我们理解这个世界都是有帮助的,应该有一些生动的科普书,把这些重要的理念用通俗的语言告诉大家。
数据化思维的核心是什么?就是定量化,或者说“用数据说话”。主观能动性当然是我们人类的重要能力,特别是行业专家的思路和判断往往非常重要,效果甚至好于机器学习的结果。但是,一切的评估都要定量化。举个例子来说,要证明一个营销行为B 比营销行为A 更好,必须要无偏地把用户划分成两个群,一个接受A 一个接受B,然后通过对比来验证两者的效果。政府做决策的时候,例如改变医保的规则,也需要充分的数据支撑,提前能够量化这个改变带来的效果,并且时时监督政策实施后的结果。学会用数据来说明“哪个更好哪个更坏”,是数据化思维的第一步。
作出让世界尊重的原始创新
当魔法师的另一个好处,就是我们可以进入魔法世界——这是一个浪漫的战争世界,我们必须变得更强,才能打倒伏地魔!
在我读大学的时候,我们的案头枕边,放着的是茨威格的《异端的权利》,是索尔仁尼琴的《古拉格群岛》,我们追忆和供奉几千年来为了人类进步付出甚至牺牲的科学家、哲学家、文学家、政治家,等等,我们能够非常清楚地说出哪些人是世界的脊梁。我们在字里行间追寻中国最苦难最黑暗的时代,羡慕在那个时代战斗的英雄,我们急切地希望这个时代能够让我们为民族的复兴战斗——尽管可能不是用刀枪!
我不知道我们这一代,是不是中国流淌着战斗血液的最后一代大学生。我们现在面对的是不一样的战场,不是刺刀机枪,而是要做让世界尊重的原始创新。我在这本书里面描写了很多在大数据领域努力拼搏希望有所创新的中国人,尽管他们中的绝大部分距离成功还非常远,但我希望他们的故事以及这些故事背后的理念、技术和精神,能够唤起更多的创新者。
有两个问题,我希望每一个读者都问问自己。第一,在你的一生中,有没有可能作出类似于SpaceX 和AlphaGo 这样让世界尊重的原始创新。人生特别美好的一件事情,就是通过努力,把一件看起来不可能的事情做成!这个问题可以换一个问法,就是如果有10个最聪明厉害的人,愿意3-5年竭尽全力为你工作,你会和他们一起做一件什么事情?第二,你所做的事情,能够为我们的国家乃至整个世界,产生什么样的重大贡献。建一个色情网站、开发一款暴力游戏,也能挣大钱,而且很快。致力于优化教育资源或医疗资源的配置,可能非常苦非常慢,挣钱也不如暴力游戏,但是可能改变甚至拯救一大群人。如果让我选择,我会选择后者。事实上,你所贡献的要比你所得到的更能体现你的价值!
有些了解我创业历史的人,掰着手指数我的企业和资产,几千万、几亿、几十亿……然后看着我千年不变的穿着,就认为我是一个艰苦朴素不懂得享乐的人,甚至笑话我是榆木脑袋。其实恰恰相反,我是一个非常了解生活品质,而且非常资深的吃货,也从来不觉得高级的享受是一种耻辱。我有很多非常喜欢吃的东西,而且往往都价格不菲:巴西松子、车厘子、山竹、哈根达斯朗姆酒味的冰淇淋……有的时候,我在超市里面或者路上看到这些东西,非常想吃非常想买,但是我都会问自己,我最近几天做了什么贡献,有什么成果,是否配得上去享受这些东西。绝大多数时候,我都忍住了。
序终于写完了,我去买山竹了,啦啦里啦啦。
读完这本书,我感觉自己像是被注入了一剂强心剂,对未来的技术发展有了更清晰、更积极的认知。书中对大数据应用的描绘,已经不仅仅是简单的统计和分析,而是上升到了“智能”的层面,让我深刻体会到数据背后蕴含的巨大潜力。我尤其欣赏作者在描述不同行业案例时,那种深入浅出的讲解方式,即使是对于非技术背景的读者,也能轻松理解其中的逻辑和价值。例如,它在某个章节中提到的关于个性化推荐的演进,从最初的简单协同过滤,到如今基于深度学习的复杂模型,其背后所依赖的数据维度、算法复杂度以及最终达到的精准度,都让我为之惊叹。这本书让我意识到,大数据并非遥不可及的专业领域,而是已经渗透到我们日常生活的方方面面,从我们看到的广告,到我们使用的APP,再到我们享受的服务,背后都有大数据在默默地发挥作用。更重要的是,它鼓励读者思考如何利用这些数据来创造新的商业机会,如何通过数据洞察来优化用户体验,甚至如何通过数据分析来预测未来趋势。这种前瞻性的视角,让我感到非常振奋,也促使我开始反思自己所处的行业,以及大数据可能带来的颠覆性变革。
评分读完这本书,我脑海中关于“大数据”的模糊概念,顿时变得清晰而具象。它就像一幅精心绘制的蓝图,详细展示了大数据技术如何被运用到各种实际场景中,并且如何创造出令人惊叹的价值。我尤其对书中关于“数据资产化”和“数据价值释放”的讨论印象深刻。它不再将数据仅仅视为一种资源,而是将其提升到了“资产”的高度,强调了如何通过有效的管理和运营,让数据发挥出最大的潜力。书中的案例涵盖了从零售、金融到医疗、城市管理等多个领域,让我看到了大数据在不同行业中的多样化应用。例如,它在描述如何利用交通大数据来优化城市交通流量时,那种精妙的算法和实时的响应机制,让我对“智慧城市”有了更直观的理解。此外,书中还探讨了数据安全、隐私保护等重要议题,这让我意识到,在追求数据价值的同时,也需要关注与之相关的伦理和社会责任。这种全面而深入的探讨,让我觉得这本书不仅仅是一本技术手册,更是一本关于大数据时代未来发展趋势的深刻洞察。
评分这本书给我最大的感受是,大数据并非仅仅是技术问题,更是一种思维方式和战略方向。它让我意识到,那些在激烈竞争中脱颖而出的企业,往往是那些能够真正理解并善于利用数据来指导决策、优化流程、创造价值的组织。书中关于“数据文化”的构建和“数据素养”的提升的章节,对我触动很大。它强调了在一个组织内部,如何让每个人都具备数据意识,如何鼓励数据驱动的沟通和协作,这对于推动整个组织向更高级别的智能化迈进至关重要。我喜欢它在讨论如何进行数据治理和数据质量管理时,那种循序渐进的指导,让我明白构建可靠的数据基础是释放大数据潜力的前提。而且,书中对数据可视化在沟通和决策中的作用的强调,也让我意识到了清晰、直观地呈现数据的重要性。总而言之,这本书不仅提供了关于大数据技术的知识,更重要的是,它引领我进入了一个全新的视角,让我看到了数据在塑造未来商业和社会方面的无限可能性。
评分这本书的名字很有吸引力,一看就知道是讲大数据的,而且还强调了“创新实践”,这让我对它充满了好奇。我一直对数据驱动的决策和商业模式很感兴趣,总觉得大数据背后隐藏着巨大的能量,能够改变我们生活的方方面面,甚至重塑整个行业。这本书的书名听起来就像一本能带我深入了解这些潜力的指南,它承诺的“创新实践”也表明了不会仅仅停留在理论层面,而是会介绍实际的案例和方法。我期待它能解答我心中关于如何将海量数据转化为有价值的洞察,如何构建有效的数据分析框架,以及如何利用大数据技术实现业务增长的种种疑问。特别是“为数据而生”这个词,总让我想象着一个以数据为核心驱动力的企业或组织,它们如何围绕数据构建起整个运作体系,又是如何在这种体系下不断涌现出新的想法和解决方案。这本书或许能提供一些启发,让我看到大数据在不同领域的具体应用,以及那些敢于拥抱数据、利用数据创造价值的先行者们的故事。我希望它能给我带来一些实用的干货,让我能够将书中的知识应用到我自己的工作或学习中,提升我对大数据的理解和运用能力。
评分这本书简直就是一本在大数据领域“实战”的宝典,它没有过多地纠缠于晦涩的理论模型,而是直接切入“怎么做”的问题,这对于我这种急切想看到实际成果的人来说,简直是雪中送炭。我最喜欢的部分是书中对一些典型企业的数据创新案例的深度剖析。它不仅列举了成功案例,更重要的是,它会去挖掘这些案例背后的驱动因素,分析它们是如何从零开始构建数据能力,又是如何在实践中不断迭代和优化的。书中对数据驱动的产品开发流程、数据驱动的营销策略、以及数据驱动的客户服务模式的讲解,都非常具体,让我能够清晰地看到数据在企业运营的各个环节中扮演的角色。例如,它在探讨如何通过数据分析来降低客户流失率时,不仅给出了分析模型,还分享了具体的 A/B 测试方法和结果解读。这种接地气的讲解方式,让我觉得这本书的作者真的是一位身经百战的实干家,他所分享的经验都是经过市场检验的真知灼见。阅读这本书,我感觉自己不再是纸上谈兵,而是有了一个可以模仿和借鉴的路线图,让我对如何在工作中应用大数据技术充满了信心。
评分在哪里有卖的
评分非常感谢京东商城给予的优质的服务,从仓储管理、物流配送等各方面都是做的非常好的。送货及时,配送员也非常的热情,有时候不方便收件的时候,也安排时间另行配送。同时京东商城在售后管理上也非常好的,以解客户忧患,排除万难。给予我们非常好的购物体验。 Thank you very much for the excellent service provided by Jingdong mall, and it is very good to do in warehouse management, logistics, distribution and so on. Delivery in a timely manner, distribution staff is also very enthusiastic, and sometimes inconvenient to receive the time, but also arranged for time to be delivered. At the same time in the mall management Jingdong cust
评分书不错,可以看看了解了解大数据,学习中
评分好书,推荐给大家
评分很好一本书,值得拥有,值得学习
评分收到的书有问题,背面全是很深的划痕,特别脏,但经过与客服沟通,已经换新,客服态度很好,给好评!
评分一口气买了n本 优惠力度蛮大的 支持京东
评分另外快递员也很不爽利。送货的时候正在开会,让他交给收发室,居然扭扭捏捏,推推搡搡。一会儿催赶快来拿,一会儿说放在旁边的快递柜里面去。
评分还可以,用着挺结实,好评
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有