生物统计学之死?

考虑到人们在研究中越来越多地使用众源数据,老式的统计数据还能胜任吗?Arnoldo Frigessi探索……
12月13日

采访

Arnoldo Frigessi,挪威奥斯陆大学

几乎科学的每个方面都依赖于统计数据来决定结果是否有效,但是当统计数据被发明出来的时候,还没有社交媒体这样的东西——Twitter和Facebook还不存在。现在,考虑到人们越来越多地使用这种众包数据来做研究,老式的统计数据还能胜任吗?Arnoldo Frigessi教授是挪威奥斯陆大学创新统计主任,他对此有自己的看法……

阿诺多:没错,旧的统计数据已经过时了。两件大事正在发生。一是数据基础发生了巨大变化;之前,我们有这些很好的案例对照研究,把有疾病的人和没有疾病的人仔细比较,一组20人,另一组55人。现在我们有了Twitter和Facebook。现在我们有数百万人告诉我们他们的疾病,他们的生理情况,他们的症状,我们必须利用这些数据来发现,就像我们以前在病例对照研究中所做的那样,药物是否有效。

Chris -有了这样的用户参与水平,之前我们只能进行小规模的试验,我们必须确保我们非常严格地控制一切,现在我们可以进行有效的大规模试验。噪音实际上是巨大的,但你仍然可以从中提取出非常有意义的数据,具有很高的统计意义,因为样本的大小。

阿诺多:没错。所以我们在交易样本大小、准确性或偏差,我们必须纠正一些事情,因为当然,不是每个人都在使用互联网,对吧?我们必须纠正,以获得正确的人口,这是我们可以做到的,这并不难。但是今天,例如,我们可以监控谷歌,找出流感在哪里,有论文表明,通过观察有多少人,以及在哪里的人正在检查流感的症状,我们可以预测世界上的流感浪潮,比世界卫生组织早两周。或者,例如,我们可以用人们的幸福指数来判断股票价值是上涨还是下跌。

克里斯-就像纸一样科学在过去的几个月里,通过推特信息来观察焦虑和快乐,以及随着时间的推移,这是如何演变的。我们都在早上更快乐,晚上更痛苦,除了睡前的一小会儿,这是事实,无论信仰和文化如何。我很惊讶你现在可以做这样的实验有很高的统计意义而且你不需要离开实验室或者招募人手。你只需要查看公共领域的数据就可以了。

测谎仪阿尔诺多:这完全改变了统计数据的工作方式。现在,我们必须使用大量的数据集,这些数据集非常糟糕,我们需要模型来过滤掉噪音。我们需要纠正偏见。我们需要知道它们是否独立。当然,如果我们看看今天有多少人喜欢西尔维奥·贝卢斯科尼……

克里斯-他大概喜欢他自己吧……

阿尔诺多——……是的,完全正确,但没有很多人!所以你需要找一些彼此独立的人,对吧?Facebook是一个巨大的网络,你和你的朋友通过边缘连接在一起,现在我们必须找到独立的人。我们不能带走你和你的朋友。你的意思是基本上是一样的,所以这很无聊。我们必须把这个网络分成独立的集群。这是一个全新的故事。我们必须对网络进行采样,找到独立的单元,这样我们就可以,用我的话来说,减少方差。

克里斯-但是统计数据是如何回应的呢?人们是如何试图控制我们所处的这个新领域,这个研究的新体制?

阿尔诺多:我认为这即将到来。这还不是我们每天都会做的事情。这是困难的。我的意思是,Facebook,他们不太乐意给你所有的数据,对吧?所以我们还有很多工作要做,才能把这种力量释放出来。但是举个例子,如果你稍微动了一下,我们举个简单的例子。举个例子,一家金融机构拥有数百万张信用卡,他们正在检查,试图找出是否存在欺诈行为。突然之间,他们也有了海量的数据,数以百万计的客户,他们每个人都有一点数据,不是很多,我们必须找出哪些信用卡做了一些奇怪的事情。所以现在我们,统计学家在这种情况下,你试图在数百万种可能性中,在数百万种测试中找到惊喜,在某种意义上,我们正在寻找惊喜。

再一次,这与以前相比是一个巨大的变化。之前,你有自己的假设。你有一个你非常喜欢的基因,你会花一生的时间研究这个基因。现在我们有数百万个基因,你正在检查它们,看看是否有什么有趣的。这样科学家就没有任何假设了。他们说:“哦!我有数据。这是我的数据。请找点有用的东西。”突然间,统计学家扮演了一个完全不同的角色。 We have to find things. Not just check if they're true or not.

克里斯:那就是全基因组关联研究,现在是“寻找疾病的变化”,而不是“[我们有]一种疾病,现在让我们找到遗传基础”?

阿诺多:没错。所以它真的改变了我们将统计学作为一种数学工具的方式因为统计学就是数学,对吧?因此,我们需要计算P值,即某个基因在某种程度上对你的疾病很重要的概率。现在,我们正在列出候选名单,列出可能有用的假设。如果我把经过仔细统计研究后发现的100个基因的清单给我的生物学家同事,我不能告诉他这100个基因真的都很重要,但我可以告诉他,通过所谓的错误发现率,其中20%是错误的。

克里斯-我们不知道是哪20个。

阿诺多:不,我们不知道是哪20个,但没关系。他能应付的。我的意思是,他只带来了数据,我给了他一个很有趣的答案。

克里斯:那么下一步是什么呢?我们会看到大学里生物信息学的教学方式发生很大变化吗?当我在医学院做生物计量学的时候,我们学过t检验,学生t检验和高斯分布,我们学过"这是应用这个检验时的情况"在我看来,我们要回到幼儿园,从统计学上讲,研究人员基本上要了解如何在这个全新的研究环境中使用我们拥有的工具。

阿诺多:你说得对。现在统计更难了,而且统计在医学科学的核心中占有更大的地位。以前,这是在实验室工作结束后才会做的事情当一切都完成后,你就有了漂亮的Excel文件,漂亮的表格,然后你就可以做统计了。现在统计从一开始就作为发现的核心工具这是比较困难的所以我们必须做偏微分方程和网络,以及所有这些更困难的东西。

克里斯:这对你有好处,不是吗?因为这意味着你不会失业。

阿尔诺多-不。

克里斯:这只是意味着像我这样的研究人员会发现更难……

阿尔诺多:你得找个统计学家。

克里斯:我们得找一个统计学家,但是,当我们试着阅读论文时,要找出这些数字是否有意义,是否可靠,会困难得多。我想大多数论文都要经过像你这样的人,让你来拆解它们,决定它们所说的是否真的是一个有效的结论。

阿尔诺多:我认为在这个竞争非常激烈的世界里,你需要一点优势来取得进步,我们正在寻找二阶效应,小的东西,1%或2%,这些东西很难找到。在一个不同的世界里,例如在工业中,(他们)也使用统计数据来取得进步,当然,他们需要找到那些微小的差异或微小的增量优势来击败竞争对手。现在,你需要更精细的统计数据。你需要从隐藏的数据中提取很多信息;相互作用,依赖和其他事情一起发生,从而产生优势。

评论

添加注释