错误识别:被污染的细胞系

多达20%使用培养细胞的论文可能得出了错误的结论。
2019年2月27日

采访

Anita Bandrowski,加州大学圣地亚哥分校

海拉细胞

海拉细胞——最初是从癌症患者亨丽埃塔·拉克斯身上收集的——正在培养中生长。

分享

一项新的研究显示,在使用培养细胞研究基础生物学和癌症等疾病过程的论文中,多达20%的论文可能得出了不正确的结论。这是因为这些出版物的作者使用的细胞系可能并不像他们想象的那样。加州大学圣地亚哥分校的科学家Anita Bandrowski在接受克里斯·史密斯采访时表示,她一直在使用机器学习方法筛选数百万份出版物。在这个过程中,她发现了可能需要查看的数十万篇论文……

安妮塔:我们要确保我们所做的是我们认为我们正在做的。但是,有时候,我们会被劣质试剂愚弄;这是我们无法控制的事情之一。如果我们使用的真正的细胞系是一种癌症,而我们认为它是另一种癌症,因为这是库存中心告诉我们的,这是一件大事,因为我们实际上测试了错误的癌症!

克里斯:这真的会发生吗,安妮塔?

安妮塔:当然!我的意思是肝G2细胞系是最常用的肝细胞系之一。如果你只是把它当作肝细胞很好,你可以这么做。但如果你不知道这是肝癌还是肝细胞瘤,那你就找错癌症了!

克里斯:这类错误有多常见?如果你观察这个领域,你认为这种情况发生的频率是多少?

安妮塔:所以,在我们的论文发表之前,在某些细胞系的储存中心,有多种估计高达60%到70%的细胞系实际上被污染或被错误识别。我相信,我们的估计是最准确的估计——它当然是最大的样本量。我们看着它,我们说,好吧,在使用这种细胞系的论文中有16.1%的论文使用的细胞系碰巧是被错误识别的,所以人们可能会认为这是错误的细胞系;它有一些污染,要么是部分污染,要么是完全污染。

Chris -所以这意味着,如果你是对的六分之一五分之一使用细胞的论文可能会得出无效或不正确的结论因为它们不是我认为他们使用的细胞?

安妮塔:没错。所以Christopher Korch,这个领域的领导者之一,呼吁重新审视数以万计的论文。他是我们论文的审稿人之一,非常苛刻,试图问我们“你们打算怎么处理这些数据?”我们将如何解决这个领域的问题?”

克里斯-那你是怎么做到的。你的方法是什么?

Anita -我们实际上做了一个叫做“文本挖掘”的方法。所以我们拿了这些论文,我们只看了方法部分,作者说这是我做的事情的配方包括使用的试剂包括细胞系。所以我们看了所有说"我使用了hepg2细胞系"或其他细胞系HeLa细胞系的句子。

克里斯-这台机器是为你做的吗?你往里面放了多少张纸?

安妮塔:所以我们输入了大约200万份报纸。这是整个开放获取语料库中的所有内容包括所有的eLife论文,包括所有的PLoS论文;这个算法实际上是经过训练来寻找具有这些不同细胞系的句子的。我们简单地匹配了它们。我们说,好吧,这里有一个很好的清单,列出了可能有害的东西,可能被污染的东西。我们对它们进行了比对,结果发现大约16.1%的论文可能受到这个问题的影响。

Chris,当你在测试你的算法时,你是否仔细检查过这个过滤器的敏感度和特异性,以确保当你把这200万篇期刊论文放在这个过滤器上时,它没有错称它们?

安妮塔:是的。所以我们测试的准确率大约是95%

Chris:这让你处于一个很有趣的位置,不是吗,因为你坐拥大量的数据,你可以把手指指向某些论文,说“这些可能不可靠”。你打算怎么处理这些数据?

安妮塔-这正是克里斯托弗·科尔奇问我们的。这是一个非常棘手的问题,因为我没有足够的人力——足够的力量——来浏览成千上万篇普遍存在问题的论文。当然,我不想不必要地玷污任何科学家的声誉。然而,这应该是其中一件事,至少向前发展,人们应该能够看到这一点。

克里斯:想必,你已经从你的分析中得到了原始数据,那将是可用的。所以,如果我带着一篇我想要发表的论文并且基于我的结果和对别人的发现的解释,我可以去看看你的名单大概是看看我想要引用的论文,或者我想要合作的人,是否在你的观察名单上?

安妮塔-是的。事实上,在不久的将来,我们将看到的另一件事是把它放在一个容易消化的公共场所。所以当人们在考虑查找这些细胞系时,他们应该能够找到这些参考文献。

Chris -但是你认为科学界可能会在你的“淘气细胞”名单上对此作何反应?因为里面可能会有一些非常重要的论文,还有一些名声显赫甚至更自负的人,他们可能会对你即将发表的关于他们工作的言论产生很大的不满?

安妮塔:这就是问题的症结所在。因为我们不能很容易地判断一个人使用细胞的方式是否恰当因此他们的结论是否符合标准。这是一个很棘手的问题。我们要谨慎行事。使用文本挖掘可以做的另一件事是“情感分析”。所以情感分析是文本挖掘中的一种方法,它可以让你开始理解诸如“论文是否知道他们使用的是可能被污染的细胞系?”Christopher Korch的论文实际上会被标记为“嘿,这里出现了一堆被污染的细胞系!”但是,当然,他的论文说“嘿,这些被污染了!”所以,如果我们能判断出语言的某一特定效价实际上是正确的,那么我们就不应该打扰那些人,对吧。我们应该只打扰那些可能不知道他们的细胞系被污染了的人,或者可能把这个成千上万篇论文的大列表缩减到关注最严重的潜在问题……

评论

添加注释