可重复性:科学的一致性问题

如果科学发现不能被复制,那又有什么用呢?
11月15日2022
生产会刺痛

CANCER-HEADLINE

关于癌症的头条新闻

分享

本周,我们将讨论所谓的科学可重复性危机:今年早些时候发布的一项令人震惊的研究得出结论,不到三分之一的乳腺癌研究论文具有可重复性的结果。那该怪谁呢?

在这一集里

在实验室里,一个女人背对着相机,使用科学设备

00:57 -复现率是个问题吗?

70%的研究人员未能重现另一位科学家的实验,我们该有多担心呢?

再现率是个问题吗?
马库斯·穆纳福,布里斯托尔大学

布里斯托大学的Marcus Munafo和我们一起报道。他是英国重复性网络的主席,该网络将自己描述为“一个国家同行领导的联盟,旨在确保英国保持其作为世界领先研究中心的地位”……

Marcus:在这种情况下,可重复性意味着如果你再做一次实验,你会得到同样的结果。所以科学的一个基础是,如果我们得出的发现是可靠的,那么如果我们再做一次同样的实验,我们应该得到或多或少相同的结果。但这并不总是对的。在我们测量的结果中会有随机的变化,所以任何一次失败的再现或重复以前的一次实验的结果本身并不意味着以前的发现是错误的。但是,总的来说,如果我们得到的结果是可靠的,那么它们应该在不同的实验中是可复制的,或者是相同的实验,而不是由不同的人在不同的时间在不同的实验室做的,或者是在不同的时间在同一个实验室做的。

James:在本期节目中,我们一直在引用一项统计数据,即70%的研究人员无法重现其他科学家的研究结果。这一切是如何曝光的?当这件事曝光后,肯定会有很大的反响吧?

马库斯:其中一个问题是,这是那些从事研究的人,那些在学术部门工作的人,知道的事情之一,但直到最近才被系统地研究过。我在读博士的时候也有过这样的经历。我试图复制你认为绝对可靠的已发表文献中的一个发现,但我失败了。这让我想,“嗯,也许我做错了什么。”但我很幸运地得到了一位资深学者的安慰,“嗯,实际上这个发现是出了名的不靠谱。”很多人都有同样的问题。所以直到最近人们才开始系统地研究这个问题。几年前,以心理学为例,有一个可再现性项目心理学试图重现一百项研究,这些研究是从三个主要的心理学期刊中随机抽取的。他们发现,这些发现中只有大约40%可以重现。这种实证方法用来估计可靠的、可以复制的研究结果的比例,现在已经扩展到其他领域。 And we find very similar results across the range of different disciplines.

James - Marcus,这是所有科学领域都存在的问题,还是有特定的热点?

马库斯:嗯,我们不能说我们确定,因为我们还没有看遍所有地方,但可以肯定的是,也许具有讽刺意味的是,这似乎是一个相当可重复的发现,人们从心理学到癌症生物学,再到经济学等领域都进行了实证研究。大约40%的研究结果是可重复的,这个总体数字似乎是正确的,但我们并没有在所有地方都看到。我认为,有一些领域在这个过程中走得更远,如果你愿意的话,就改变他们做事的方式来确保他们产生的发现的稳健性而言。因此,以遗传学为例,曾经有一段时间,候选基因研究(你观察单个基因中的单个基因变异,看看它是否与某些结果,某些表型有关)这些研究是出了名的不可靠。但后来我们进入了全基因组关联研究的时代,在这个时代,你可以在非常大的样本量中观察整个基因组,通常是在多中心的联盟中进行的,在宣布发现时有非常严格的统计标准。这些发现是非常有力的。因此,在某些领域,我们可以从这些经验中学习,看看它们是否可以更广泛地应用。但是,总的来说,我认为这是一个相对普遍的问题,因为实际上这个问题的驱动因素与激励科学家工作方式的各种事情有关。

詹姆斯:那么,从统计学角度来看,你认为这种情况应该多久发生一次?

Marcus:嗯,这是一个非常困难的问题因为我们不知道最佳的可重复性应该是多少。所以,一方面,你会希望发现足够强大,这样如果其他人进行同样的实验,他们会得到同样的发现。另一方面,我们需要突破知识的界限。我们需要承担风险,我们需要做一定数量的蓝天研究,而研究结果并不确定。所以我不认为百分之百的可重复的研究结果是最理想的。最优值是多少并不清楚。我个人的感觉是,目前的成本似乎太低了,我们可以做得更好,以确保我们产生的研究结果的前期质量。但也许需要做一些工作,或者花一点心思去思考最优的权衡是什么。

James,我想当我第一次听到有很多研究很难被复制的时候,这让我更担心——如果你不介意我说Marcus——比你听起来更担心。我们在这里的媒体是否对耸人听闻感到内疚?这真的是一场可复制性危机吗,因为它似乎没有我最初预期的那么严重?

马库斯:不要误解我的意思,我认为我们确实有理由担心,我认为我们有很多方法可以改善我们的工作方式和工作环境,我认为这是问题的一部分:产生我们研究成果的文化还有改进的空间。但出于几个原因,我不喜欢危机叙事。首先,我认为这可能有点夸张。我认为它夸大了问题的本质,而不是它的程度。我认为这意味着这是最近才出现的现象,如果我们能解决它,我们就能摆脱它,再也不用担心它了。我认为问题其实远不止于此。我们需要做的是思考,更根本的是,科学是如何变化的,我们从事科学研究,传播科学的许多方式是否需要更新,思考我们如何进入一种模式,我们不断反思我们的工作方式,以及是否有改进的空间。并通过研究我们如何进行研究来证明这一点,如果你喜欢的话,也可以称之为元研究,这样我们就可以通过思考我们的工作方式和生产方式来提高我们生产的质量。所以我认为确实存在问题。我认为有很多事情我们可以做得更好,我们需要投入更多的精力来思考如何把这些事情做得更好,并证明它们是否有我们想要的影响。 But I'm not sure calling it a crisis is particularly helpful because I think that can just be a bit distracting.

各种化疗药物的小瓶和静脉注射瓶。

07:47 -癌症研究显示重复性差

这种差异会对研究人员的声誉产生什么影响?

癌症研究的可重复性很差
蒂姆·埃林顿,开放空间中心

“危机”可能有点夸张,但了解可重复性或缺乏可重复性对医学等科学主导行业的影响仍然很重要。来自弗吉尼亚州开放科学中心的蒂姆·埃林顿(Tim Errington)领导了一项探索癌症研究可重复性的倡议,他的研究结果发表在《eLife》杂志上。

蒂姆:所以我们在八年前开始这个项目,我们决定测试它的方式是确保我们可以首先从原始论文开始。所以找出我们能找到的所有信息,试着和那些原作者一起工作,以准确地理解原始研究的完成方式。然后我们与这些实验室的独立研究人员合作,看看他们是否能再次进行这项研究。他们的关键是要确保我们事先没有理由不得到完全相同的结果。我们花了八年的时间研究癌症生物学上发表的各种不同的论文。

克里斯:那你是怎么选择那些论文的?是那些被认为在该领域具有开创性的论文还是那些真正引导或推动该领域朝某个方向发展的论文,因此是其他所有人都在研究的关键发现?或者只是随机选择“我们将测试这个,测试这个,测试这个”,然后让其他人看看他们是否能有效地遵循相同的配方得到相同的结果?

蒂姆:所以我们在这里采用的方法是使用“影响”这个词——在这里要小心——这就是你刚才所说的。当我们开始这项研究时,哪些论文和发现在研究文献中引起了最多的关注?谁在读书?他们下载并引用了谁的研究结果?当我们开始的时候,这些论文刚刚发表,但我们一直在寻找那些得到最多关注的论文,因为我们认为,正如你所说的,“好吧,让我们看看这些论文,因为它们将具有最广泛的影响,可能会推动这些领域的发展。”让我们看看它们的可复制性。

克里斯:当你这么做的时候,结果是什么?你和你的独立团队,管理了多少这些真正具有高影响力或重要的领域驱动出版物,以重现相同的结果?

从各种各样的衡量标准来看,这绝对不到一半。我们找到的是低于50%。所以我认为这本身就是一个有趣的问题:这个数字。我认为更有趣的是关于这意味着什么的一些花絮。所以我们发现的两个重要方面是很难理解这些发现的透明度,对吧?数据并不总是共享的。方法——即使与作者交谈,也缺乏这些方法细节。我们并不是总能解决这个问题。所用的材料和试剂并不总是很容易得到。我们哪儿都找不到他们。 So that was one part which was a hard process to even attempt. And then the second one was, the one that sticks out to me more, is that effect size, right? The practical significance of those findings. So compared to those original outcomes, our replications were 85% smaller on average. A large effect size means that it's going to have a practical significance, especially in the cancer biology space versus the smaller effect size that we're finding, which kind of suggests that maybe there's not a practical application for it.

Chris -这当然不是指责别人,但是不同的科学家在世界不同的地方接受了不同的训练,有着不同的动机。当你做这个的时候,你测试过这个吗,还是你只看了一个国家的科学?

蒂姆:是的,这是个好问题。我们没有关注一个国家的科学。我们采用的方法只是在文献中发表的方法。是什么引起了人们的注意?因此,我们拥有的原始论文主要来自北美和西欧,说实话。但从所有实验室的研究结果来看,我们并没有把这方面分开。还有其他项目也在尝试这样做——只看一个国家,然后问,“如果我们只看一个国家的产出,情况会如何?”

Chris -我想知道是否有些国家会积极激励科学家:例如,在顶级期刊上发表一篇论文,你会在正常工资的基础上得到一年的报酬。我知道,有人告诉我,情况就是这样,比如在中国,如果你在大型期刊上发表文章,奖金就会很高。因此,有一种动机是确保你的科学研究超出了它的重量,这可能会导致一些人夸大主张,等等。这意味着什么?如果是在癌症领域你得到的结果比他们应该做的好85%,比方说,这是否意味着如果人们接受了别人说的他们已经发现的并且无法复制的东西,那么人们就有可能被误导了临床治疗的有效性?

蒂姆:这个问题我有两种回答,是和不是。因此,所有这些早期的发现肯定会出现在媒体、新闻、社交媒体和博客文章中。它超出了科学领域,对吧?我们知道这会影响人们的行为和政策。作为研究人员,我们可能会发现最有趣的研究告诉我们,饮酒对癌症的预测有XYZ作用,所以我可能会控制自己的行为,或者红酒对我有好处,所以现在我以另一种方式控制自己的行为。所以我认为首先会直接影响到个人本身。很明显,它甚至影响到了护理层面。我们知道很多这样的发现,特别是当他们着眼于诊断标记时,例如,可以找到治疗病人的方法,有医生和临床医生实际上会接受这些证据并正确地使用它,这是他们应该做的。但问题是,如果它站不住脚,或者我们不知道它的可复制性,它可能会无意中误导他们。我认为最后一件事,如果我们真的思考所有这些研究的发展方向,我们希望它能找到进入公众的途径,真正产生影响。 And this can actually slow that pipeline down. As we try to move findings, eventually trying to get them out into the public and be some type of intervention or drug or treatment that can actually help improve lives.

Chris -就在这一点上,如果你是一家公司,你正在购买权利和专利来利用一项技术或发现,这是否意味着你的观点和你的股东可能被误导了?

蒂姆:是也不是。我所看到和听到的——值得一提的是,这是轶事——我所得到的是,在我们发表的内容方面存在犹豫。根据这些和其他的发现,这太好了,不可能是真的,也许你应该等一会儿,从别人那里得到证据这样你就不会像你刚才说的那样被骗了。我认为,人们在接受这一观点并迅速将其付诸应用方面更为犹豫。

堆硬币

为什么科学家不能重复实验结果?
丹尼·金斯利,澳大利亚开放获取协会

是什么导致了这种情况的发生?来自澳大利亚开放获取执行委员会的丹尼·金斯利(Danny Kingsley)向威尔·廷格尔(Will Tingle)解释说,学术界的结构以及科学家要么发表论文,要么灭亡的压力是罪魁祸首。

丹尼:发表这些论文表面上是为了传达你的研究:说,“我做了一些研究,我发现了一些东西,这就是我的发现。”但实际上,发表论文是研究人员为了自己的职业生涯而必须做的事情。因此,如果你能证明你在某一特定领域做过一些研究,而且人们认为它足够重要,可以在其他地方发表,那么你比那些说“我对做这项研究感兴趣,但我不能证明我以前做过任何研究”的人更有可能获得资助。

威尔:发表论文的需求会影响最终产出的论文类型吗?

丹尼:是的,在很多方面都是这样。一个是对体积的纯粹需求。在澳大利亚,过去有一个系统,只计算你发表的论文数量,在那种环境下,论文的数量急剧增加。工作的方式是,我可能会做一些研究,所以我所做的是根据研究写四篇论文,只是从稍微不同的角度来看待我所做的研究结果,而不是只写一篇。另一种方法是在期刊影响因子高的期刊上发表文章。人们可能听说过的《自然》或《科学》等“花哨”期刊,它们的影响因子很高,所以它们是非常有声望的期刊。所以在这些期刊上发表文章是非常有竞争力的。投稿率远远高于发表率。所以这类期刊的退稿率很高。有时候,95%的文章都被拒绝了。 So that means that there is an imperative for people who want to get published in those sorts of journals to have novel results: results that are surprising, and that unfortunately can mean that there are some poor practices on behalf of the people writing the work to make their results seem more novel. And sometimes it's fairly benign. It might be simply, "oh, that's a bit of an outlier. I won't mention that outlier because it actually makes it look slightly less interesting or less novel." But there are other times where it can be more problematic, which is things like what is called HARK-ing, which is hypothesising after the results are known.

Danny -所以不要说,“我在寻找这个问题的答案,我的结果是看着数据说,“是的,这个问题是有效的”,还是“不,它被证明是不正确的。”相反,我做研究,看数据,然后说,“实际上我要说我的问题是另一回事,因为这样我就可以用这些数据证明我的假设是正确的。值得注意的是,论文撤稿——当有人发现一篇论文有问题,并将其从记录中撤回——这种情况往往发生在高知名度的期刊上,而不是在小型期刊上,可能是因为这些期刊吸引了更多的眼球,但也很可能是因为人们对新颖性的需求。因此,这种糟糕的做法更有可能出现在那些寄希望于发表论文的期刊上。

那么把所有这些放在一起,这些因素是如何意味着缺乏可重复性的呢?

所以可重复性是很复杂的。在完全相同的环境中复制完全相同的环境是非常困难的。所以,在某些情况下,你不能完全重现结果,这并不奇怪,特别是如果你谈论的是涉及人类或动物的研究,因为它们显然每次都会略有不同。缺乏可重复性与研究的规模等问题有关。但是我们没有做很多重复性的原因是我们没有重复工作来确保它是有效的因为那样不会得到奖励因为它已经发表了。所以繁殖是没有价值的。如果你试图复制别人的作品却无法复制,那么复制别人的作品也是有风险的。你得说:“琼斯教授的研究站不住脚。”如果你是琼斯教授的下属,那我们该怎么说呢?职业限制。

威尔:科学是很难的,虽然我的意图是最好的。你可以尝试重现某人的研究,但每个实验中涉及的参数数量非常模糊,这意味着有些东西是不同的,是你无法控制的。

丹尼:可能是机器上有一堆杂志,影响了什么。它可能是你甚至没有意识到的影响结果的东西,你没有把它放在你的方法中,因为你认为它不相关,但结果却是相关的。

Will -是否需要更好的方法论交流?因为有时科学家们试图复制工作,但他们没有得到完整的指示。

丹尼-是的,确实有。这很有趣。现在有一些日志是视频日志你可以录下实验过程。这是一种能力,让你看到你所处的环境。所以它确实从字面上给出了实验是如何进行的不同观点。这确实允许一种不同的交流方式。当然,这意味着当你在做研究的过程中,以及在编辑和出版的过程中,需要一种不同的方式来设置你自己。还有一些额外的步骤。当然,这就意味着你有时间不用写论文来获得奖励。所以做这种实验的人都是无私的。 But as we make it more normal, then we're going to end up with a better result, literally for them, and for us, our society, in terms of better use of funds of our research, because that often is taxpayer money, and also better outcome for the research process.

我们并不想吓唬人们,但是你认为这个问题有多普遍?

丹尼:有很多很多的论文是不可复制的,原因很多,我们今天要讨论的。但是由于某人故意做了错误的事情而导致的故意欺诈和重复性的问题,是非常非常小的。我们需要明白,科学的本质是质疑自己。它永远不会结束。因此,任何结果,任何结果都需要其他人的建立,然后复制其中的一些工作,或者将这个想法构建到其他东西中。所以我们总是质疑科学的结果。这是很正常的事。但我们不想做的是质疑科学本身的努力。

竖起大拇指

21:52 -解决这个科学难题

确保可重复性仍然是科学进程的核心支柱。

解决这个科学难题
安德鲁·霍尔德,约克大学

那么我们能做些什么呢?威尔还与约克大学的生物化学家安德鲁·霍尔德(Andrew Holding)进行了交谈,他自己也曾与其他人发生过不可复制科学的冲突,这花了他整个博士后时间来整理,关于短期和长期的解决方案,可以帮助科学家走向更开放、更可复制的研究和出版方法……

Andrew:我认为科学界在挑战可重复性方面的主要胜利是,随着越来越多的生物学研究以计算为基础,这些技术就像基因组学、蛋白质组学,很多词都以组学结尾,它们使用了大量的数学方法,我们可以发布代码和数据,这样人们就可以下载并在电脑上运行它。这对科学来说是一个巨大的胜利,因为这意味着一个人可以在一个下午重现数据分析,如果运行代码有点挑战性,可能需要更长的时间。然后你可以看到它是如何工作的。对我来说,编码是科学的一部分。这是一个快速的胜利。如果我们使这种行为正常化,我们就可以让人们以这种科学为基础。我们可以更快地发展科学,而不是认为我们必须把它隐藏起来,以防有人发现其中的错误,因为大多数人不是故意创造不可复制的科学。

我认为让人们犯错误,让人们看到你的工作原理,你是如何得到答案的,是一个巨大的优势。我不认为说,“看,我们一直在推销人们的论文,他们的研究看起来像10/10的结果”有什么害处。放轻松,说这很有说服力。然后人们也可以诚实地展示他们工作中的弱点。这是一种文化上的变化,考虑到科学领域的竞争,这种变化发生得很慢,但它正在发生。当然,在计算工作方面,我提到的人们提供代码的事情,变化得更快,因为这是一个相当新的领域,人们更愿意尝试新事物。我认为,湿实验室实验和现有技术的发展势头是,你试图改变50年来一直如此的东西,这要困难得多,但人们仍然会从中受益。

所以这些小的胜利就在那里。让我们撇开那些绝对欺诈的人,这可能是问题的绝对少数,看看那些想要得到最好的科学的诚实的科学家所犯的真正的错误。我们怎么才能做到这样,如果他们犯了其中一个错误,下一篇论文就会说,你知道吗?我是这么想的”,并以此为基础。站在你面前的作品上,科学,没有呈现出一件完美的作品,符合我们为自己制定的一套标准,而这些标准实际上并不存在。

威尔:如果我们想对研究采取更开放的态度,我们能做些什么来防止机构之间相互抄袭研究成果吗?

Andrew:你会看到很多人说:“哦,如果我公开我的数据,如果我公开我的源代码,别人就可以去运行我的代码,调整几个参数,然后写一篇论文。”我说:“太好了!”我认为这是态度的转变。所以你必须说,是的,人们会依靠你。和我们能做的是说,如果有人借你,如果有人看到你的结果,因为他们有更好的资金比另一个国家,他们可以获得成功,我们不认为这是一件坏事,我们看到类似的,这个人做的那么好,他们生成一个新的领域,他们生成一个新的方向的科学,他们不觉得自己的要脆弱。有时候,由于拨款的运作方式和竞争方式,人们确实会觉得自己很容易受到别人的影响。

Andrew -以我的经验来看,通常那些把你做过的事情付诸实践的人会选择不同的方向。很少有人用完全相同的数据和你有完全相同的想法,尤其是如果你是提出这个想法的人。开放和分享的好处以及人们为你扩展你的工作所带来的好处,我认为我们应该接受这一点。但是,如果你担心有人抢了你的钱,你可能无法获得下一笔拨款,我认为我们可以采取更好的保护措施,认识到这是一个弱点,让人们感到更安全。但我认为好处仍然远远大于风险。

那么从长远来看,我们怎样才能确保学者们有一个安全的工作环境呢?

我的意思是,这是一个非常复杂的问题。我们已经有了现有的融资环境,我们期待着未来如何做到这一点。目前,科学研究经常得到资助,当然对于较小的研究小组来说,我们是短期资助,竞争非常激烈,成功率非常低。在这些资助机构中,大约在1%到10%之间。你需要做的是说,我们可以资助更多的科学,我们可以更多地支持这些人。我们不仅要资助那些拥有我们资助的最大、最耀眼的科学的人。我们为那些一贯可靠的人提供资金。我们如何衡量,这些指标,我今天不会给你们答案因为我认为我们还不知道这些指标是什么因为衡量科学有多好,是一个挑战。但我能说的是,如果我们决定要改变度量标准,我们有可以做到这一点的人。你知道,科学家的一生都在分析数据,如果我们不知道如何从科学基金中获得我们想要的结果,那么我们就错了要求诚实的人,因为我们应该能够做到这一点

最后,我们最不想做的就是破坏科学研究所做的对我们所有人都有益的重要研究。那么你认为这是危机还是机遇呢?

我认为这绝对是一个机会。如果我们忽视它,把头埋进沙子里,它就会变成一场危机,因为人们会失去信心,人们会失去对它的信任。我所看到的是,大多数问题都是由于人们犯了真正的错误而导致的。如果他们发布的是真实数据,那么人们就可以纠正这一点。这就是科学一直以来的运作方式。我们知道,在科学史上有很多阶段存在着相互竞争的观点。有时他们会倒退,有时他们会前进,但最终我们会建立一个模型。所以这只是正在进行的科学过程的另一种进化。所以我认为这是一个巨大的机会,可以说,“看,我们可以把科学做得更好。我们已经看到了挑战”,并确定利用我们作为一个科学界所拥有的技能,最好地投入资源,为每个投资于我们科学家的人获得最好的结果。 So that could be charities, that can be governments, and they can then see better results and a more diverse set of results that don't just focus on trying to get there first, to get the biggest splash in the newspapers, to get the next pot of cash.

评论

添加注释