《数据科学实战》试读:1.2 冲出迷雾
Rachel 取得统计学博士学位到她在谷歌工作的这段经历,或许能帮我们解答一些疑惑, 她说:
进入谷歌之后,我很快就意识到工作中用到的东西和我读统计学博士学位时学到 的东西差别很大。并不是说我的统计学知识毫无用武之地,相反,我在学校学到 的东西为我思考问题提供了一个框架,统计学的很多知识都为我的日常工作提供 了坚实的理论和实践基础。
在谷歌工作期间,我发现必须掌握很多在学校没学到的东西,比如计算、编程、
数据可视化技能和许多领域知识。这种经验既特殊又普遍,我拥有统计背景,因此需要补充前面提到过的那些知识,而若换作一位计算机、社会学或者物理学背
景的人,他们也需要根据自己的知识缺陷去补充相应的知识。每个人都拥有自己
独特的知识结构,重要的是大家能够紧密合作,取长补短,组成一个团队去解决
数据问题。
一般人对上述故事肯定会有这样一种想法:你走上工作岗位后就会发现,在学校学到的知 识,远远不能满足实际工作的需要。因此,本书中教授的统计学知识与业界所应用的统计 学方法,肯定也是不尽相同的。对此,我们有一些自己的看法。
• 为什么学校里的统计要和工业界的统计如此不同?为什么很多学校的课程要和现实如此
脱节?
• 这种差异不仅存在于学校里的统计和工业界的统计之间。很多数据科学家的一个共同感
受是,工作时他们需要接触更多的知识、方法论和工序(详见第 2 章),而这些东西都
是以统计学和计算机科学为基础的。
抛却这些媒体给予数据科学的光环,只有一件事是实在的:数据科学是一个新生事物。它 刚刚诞生,却被赋予了太多荣耀,使人们对其充满了很多不切实际的幻想,而幻想最终是 会破灭的。我们要保护数据科学,过分吹捧可能会让这个新兴领域过早夭折。
Rachel 决定去研究数据科学这一文化现象,她想了解其他人对数据科学的感受。她开始和 谷歌的人接触,和很多创业公司和高科技公司的人接触,和大学(特别是统计系)里的老 师们接触。
从这些接触中,Rachel 觉得数据科学的轮廓渐渐清晰起来,她进一步深入,决定在哥伦
比亚大学开设一门数据科学导论课程,与此同时 Cathy 在博客上连载了该课程的讲义。我
们期望在这门课程结束时,我们,还有我们的学生们能对数据科学的本质有一个清晰的理
解。现在我们把课程的内容集结成书,也是希望帮助更多的人去了解数据科学。