什么,为什么,谁以及如何教数据科学

数据科学;一种职业,一门学科?但它到底是什么
2019年10月23日

分享

随着时间的流逝和技术的发展,新词和术语进入流通,通常不知道是谁创造了它们,而且(以我的经验)经常不知道它们的意思,尽管每个人都在使用它们。“数据科学家”一词就是其中之一。在接下来的文章中,我将试图澄清什么是现在的热门职业、职业道路和学科,并从文献中给出如何教授数据科学的建议……

如果数据科学是一个维恩图,那么它将是“计算和数据技能”、“数学和统计”以及“实质性专业知识”的交叉点。1。如果我们假设“实质性专业知识”是领域或背景知识,并将其放在这里,那么数据科学可以被提炼成计算技能和统计学。然而,数据科学并不局限于计算机科学家和统计学家的使用,越来越明显的是,在我们这个以数据为中心的世界里,数据科学技能对于研究和就业是必要的。

高盛(Goldman Sachs)首席信息长莱斯(George Less)认为,全球90%的数据是在过去两年里创造出来的。2。数据采集不再是限速的步骤,而是处理数据的人。根据摩尔定律,计算能力与以前大不相同。一篇论文警告说:“数据科学家的短缺正在成为某些行业的严重制约因素。”3.并强调了这对寻求利用大数据的行业的影响。谷歌首席经济学家哈尔·瓦里安(Hal Varian)将统计学家描述为“未来10年最性感的工作”,但他们的写作能力也与此相关。麦肯锡的报告强调了具有“深度分析能力”的应届毕业生的短缺。4,在通往工业的管道中造成瓶颈,并暴露出“对数据安全公民的需求”。1

美国Glassdoor网站显示,2017年约有1万个数据科学家的工作岗位中,分别有74%、64%和51%的招聘信息提到了使用Python、R和SQL的技能5。这些构成了数据科学家使用的三种最流行的编程语言。除了需要计算机语言之外,文献中的共识是数据科学家应该接触的主题丰富,包括数据清理或“整理”,可视化和描述,存储和分析,建模,设计和偏差。

然而,这种需求是自上而下的,并没有完全正确地渗透到基层做出改变。数据科学“没有天然家园”1在教育方面。统计学教育仍然局限于试图“规避他们缺乏计算能力”的方法。1;这已经不是问题了。它需要改革。建议更频繁、更重要的是更早地将统计学纳入课程,这样就可以逐步建立起来。尽管完成统计学学位的本科生数量增长速度比其他任何STEM学科都要快6统计学和数据科学在许多当代学科中使用,很少经过正式培训7。因此,科学家将受益于基本的数据科学“软”技能16,而不是“他们自己定制的变通办法来跟上节奏”。7。数据科学家最热衷的不是成为完全合格的程序员,而是能够回答他们问题的简单编程,称为“脚本”。8

至于谁应该发起这一课程转变,候选人包括学术界、工业界(以及工业界对毕业生的期望)、统计协会和资助机构(此前曾为用于提取数据的高性能计算基础设施提供过资金)。9。就你与谁一起学习而言,数据科学家之间的实践社区对于保持最新状态和潜在的动力非常重要。twitter、博客(rbloggers.com、blog.rstudio.org和stackoverflow.com)上都有广泛的社区讨论,对于那些需要从屏幕上休息一下的人来说,还有会议。美国国家科学联合会(NSF)在一项对1000多名教职员工、学生和研究人员进行的为期4年的研究中发现,94%的人目前正在(或将会)使用大数据,尽管47%的人认为自己在生物信息学技能方面是“初学者”,58%的人认为他们的机构没有提供足够的计算资源9。此外,在2016年对704家生物科学pi的调查中,90%的人表示他们正在或将使用大数据,他们最大的需求不是硬件,而是培训和如何有效使用大数据的知识9。整合来自不同来源和平台的数据被认为是最大的问题之一;然而,这是使用这些大数据或元数据来解决当代问题(例如基因型,表型,环境相互作用)的基础。9。随着开放科学(以及数据“管理”而不是所有权)的发展,当研究成果完全公开时,公众可以进一步提供反馈和支持10

在伊利诺伊大学开设无先决条件的“数据科学入门”课程时,这位负责人认为,主要的挑战是如何平衡和激励具有不同编程背景的学生,因为它在各个学科都很受欢迎11。为了达到这种平衡,他们强调,他们设置的练习不太可能激励更高级的学生。

教授数据科学的另一个主要障碍是保持兴趣。这一点很重要,因为积极的学生是更成功的学习者12投入更多的努力。解决这个问题的一个反复出现的解决方案是使用真实的、相关的和适用的示例的重要性。课本上的例子可能显得陈旧、过时,而且过于自然正态分布。更现代的方法包括让学生编写代码来识别垃圾邮件,或者为宿舍的能源使用建模13或者强调数据科学对癌症治疗的重要性14。更进一步,一位作者主张鼓励学生收集自己的数据的重要性,以证明真实的数据集并不总是符合统计测试的假设,这是必须处理的15。也许是考虑到数十亿美元的游戏产业,另一种方法是通过游戏化进行教学。编程游戏或竞争性编程被用来激励学生,并以类似于在晚餐中隐藏蔬菜的方式促进学习。有一个有趣的值得解决的问题不仅对保持兴趣很重要,而且对招聘也很重要,试图吸引潜在的员工3、16

考虑到海量数据上的大量信息,使用数据科学工具的一个不足为奇的障碍是信心。在对他们的研究工作流程进行全面检查时,一个部门发现,实施版本控制并能够轻松地恢复到以前的文件,减少了员工对提交新代码或不完美代码的担忧,并有助于取得进展7。大量的数据也凸显了一个更大的问题,即寻找和确保数据科学教学所需的资源。伊利诺伊大学的研究小组几乎完全从免费的在线资料中获取他们的软件、参考资料和数据,但他们提到,这使得保持课程的一致性和难度水平变得困难11

当试图尽可能广泛地教授数据科学(例如在线)时,提供反馈和评估被认为是另一个问题。在放大版课程中,成功的评估方法是使用同行评估和“自动”机器评分11、13。最后,引起了学生们的注意,这是一个经常打断我们的问题;不可避免的技术问题。教学社区提到的问题包括Windows、安装库和调试问题。故障排除快乐!

致谢

感谢爱丁堡大学的吉尔·麦凯博士的支持和建议,她发起了这次审查。

参考文献

评论

高层对这个问题的评论很好,人们需要分析大量数据。更详细地了解我们记录的数据类型和记录时间会很有趣,也就是说,我们将来是否需要对我们记录的内容进行选择?

感谢您为所有希望在该领域开始职业生涯的数据科学培训候选人分享有用的信息。

添加注释