数据科学系列读书笔记

记录一下笔者所阅读过的与大数据相关的书籍,以及阅读感受,以期为同仁提供此许参考建议。

1. 《数据科学实战》(英文版本名称: Doing data science)

读后感:

这是一本有态度、有观点的书。作者在其中表达了对业界一些关于大数据说法的不认可。同时,作者没有装作万事通,而是很实在地讲,有些分析思路,他也不知道什么好什么不好,而要通过实践来尝试。比如第22页,作者写道 “你怎么知道什么数据该用什么模型? 这一半是科学,一半是艺术。这个问题正是打开数据科学大门的钥匙,可惜的是,本书中就这个问题能够给出的指引非常有限。只能说模型的选择是建模过程中的一环,你需要对底层数据结构做出大量假设,应该有一个标准来规范如何选择模型和解释这样选择的理由。但是我们还没有统一的规范。所以只能摸着石头过河,希望经过深思熟虑,能制定这样一套规范。必须承认,我们也不知道从哪儿开始,如果知道的话,我们已经知道了生命的意义。但是,我们会尽力在书中向你展示我们在面对这样的问题时要怎么做。”

但同时,这本书也有一些不足之处,就是有些章节介绍得过于简略,如第5章,逻辑回归,第8章,推荐引擎,均没有详细介绍算法原理,而是对参数估计的方法、降维有较多介绍。而且看的过程中也发现,本书的内容貌似有许多企业界人士参与撰写,这样的好处是能感受到国外工业实践中真实的一些做法。

总体上,这本书不适合那些想深入了解数据挖掘算法细节的入门者,而较适合有一定建模经验的老手,看看业界其他人都遇到哪些问题,他们解决问题的思路是什么。


2. 《这就是搜索引擎 核心技术详解》 张俊林

读后感:

本书较通俗易懂,作者显然具有丰富的实践经验,才得以将原理概念性的东西介绍地很通俗。较适合于对于搜索引擎技术有好奇心,想知其所以然的读者。但是,本书在可操作层面并无太多指引,更多是原理性的讲解,代码也很少。同时,也没有推荐一些相关的好书箱(笔者近来觉得,好的作者,应该像个导师一样,教学有针对性,不是本课程关注的范畴,就不讲,但是我告诉你在哪本书,或者某某是这方面的专家,如果要深入了解,可参考)。


3. 《机器学习》周志华

读后感:

本书的用途是周老师为开设机器学习课程而撰写的,故而其内容多在理论介绍层面。特点是全而细,确实较适合用于课堂教学。

对于从事数据挖掘工作的一线工程师,如果对于常规挖掘算法原理已有掌握,则不太推荐此书。并不是本书不好,而是每本书都有其特定用途。本书中缺少在实践过程中遇到问题、分析问题、解决问题的思路讲述,故而是一本讲what的书,不是讲how的书。近来笔者发现一个规律,书名为**实战的书,往往有较强的实践基础,且有较多代码描述。而这类书,对于一线码农,其实最实用。


4. 《互联网大规模数据挖掘与分布式处理》英文版本名称《minging of massive datasets》

读后感:

本书内容有一定深度,适合于在数据挖掘战线上工作过几年,积累了一些自己的实战经验、困惑的工程师。

本书中所谈到的一些话题或观点,在普通的数据挖掘教材中很少看到。比如,第4页就提到了“邦弗朗尼原理”,我自己理解这个原理的大意是说如果一些特征在随机事件中也经常出现,那么即便这些特征会在想挖掘的案件中经常出现,这些特征的可信性也是不足的。像这个观点,笔者就很少在其它地方看到。其实,我们阅读为的不就是不断接受新鲜的观点、理论,再结合自己的实践和思考,最终形成自己独特的方法论和观点体系吗? 从这个立场出发,我比较推荐大家去阅读此书。


5. 《洞悉数据 用可视化方法发掘数据真义》

读后感:

刚开始是在公司知识库中一位数据专家的文章中看到提及本书,就买来看一下,结果发现,坑了,没啥干货,高屋建瓴谈思想的过多,实战过少。所以不适合一线工程师阅读。如果你想从这本书学习如何进行数据可视化,或者有什么好的平台工具可以用,那么就死了这个心吧,do not buy it. 


6. 《数据仓库工具箱 第3版 --维度建模权威指南》 

读后感:

平心而论,本书翻译的质量实在不敢苟同。大多数段落靠生硬的语言描述来试述应用场景,堆砌了大量的名词术语。但是耐着性子看,是能看出来作者想表达的意思的。本书主要讲述了在数据仓库建模时,要遵循几个重要的步骤:1. 选择业务过程 2. 选择粒度 3. 选择维度 4. 选择事实。  然后讲述了在不同产业应用中,应该怎样建立事实维度表。 如果你是数据仓库ETL开发工程师,那么建议阅读一下,毕竟这方面的书本身就不多。


7. 《机器学习》 Peter Flach 著,段菲 译

读后感:

本书更像是一本综述,面面俱到,但未深入细节。在方法讲述及推导上,有思路的跳跃。个人感觉更加适合于作为工具书,查找知识点提要,不适合作为机器学习入门学习的读物。 推荐指数 3星。


8. 《干净的数据 数据清洗入门与实践》 

读后感:

这是一本书教会你 how to do it 的书。讲解详尽,甚至会一步一步告诉你在哪里找到一个命令操作,必要的地方也有代码说明。个人感觉算是一本良心之作,比较适用于数据科学这个行业的入门者。推荐指数 4星。


9. 《Java8 实战》

读后感:

良心之作! 讲解非常细致,思路清晰,读来有如听老师在讲课一样生动。推荐指数:5颗星

个人接触spark后,深感scala的强大和便捷。而这本书就着重讲解如何在java中引入函数式编程的思想,甚至大胆地与scala作了对比,承认相比于后者,在很多方面还有不足。虽然平时使用java做数据挖掘的机会并不多,但开拓下视野,读一读还有很有裨益的。会让你体会到,一门编程语言是如何随着时代在前进,如何借鉴其它语言中的精华来保持自身的竞争力。


10. 《软技能 代码之外的生存指南》

读后感:

非常好的一本书,娓娓道来,仿佛与读者在聊天一般。从作者的亲身经历出发,给了很多非常适合程序员这个职业的软技能培养建议。尤其是其中关于树立个人品牌的部分,把自己当成一个生意人,不断强化自己所能提供的产品服务。我觉得吧,有时候,一些观念听上去有些水,但如果将这种观念融入行为方式,就会体会到思维意识对行动之影响力的巨大威力。


11. 《走近2050 注意力、互联网与人工智能》 集智俱乐部 著

读后感:

该书更多地是总结了近年来社会上出现的新兴科技思潮,并包装出一个”注意力理论”,将众包、社会计算、人工智能等概念与注意力之间建立联系。本书较适合于开拓视野,每个部分讲得都不是太深入,但总体上覆盖的面比较宽。


12. 《Python 机器学习及实践》 范淼 李超 著

读后感:

推荐指数:2星。 内容较浅,仅仅适合入门用。尤其是介绍kaggle实战的部分,建模的过程过于简略,没有思路上的讲解,也有没有特征工程上的展开分析,直接一步步地说了操作。即是说,更多是讲了怎样做,而没有讲为什么,怎么想到这么做。 


13 《凤凰项目 一个IT运维的传奇故事》

读后感:

推荐指数:5星。 以故事化的形式展示,栩栩如生地讲述IT职场中发生的各类工作方式、思维方式。引人深思,又能不时唤起同感。对于初入职场的年经人,非常有裨益。需求永远是做不完的,老板永远是不好应付的,职场中永远是有竞争和PK的,时间管理也会一直是个难题,而这些在本书都有生动的讲解。非常佩服老外写书的功力。


14 《深入浅出数据分析》 《深入浅出统计学》

读后感:

推荐指数:5星。 以一种十分轻松、明了易懂的方法来介绍数据分析、统计学的知识。如果有人觉得内容过于简单,那么我倒觉得,这套书最大的优点在于,它启发人们去思考,去体会学习的乐趣。同时,我们也应该思考,如果让你自己用类似的方法把所知道的技术讲解出来,该如何做?


版权声明:本文为a_step_further原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。