统计数据的使用和滥用

你听过“谎言,该死的谎言和统计数据”这句话,现在本·戈尔达克加入我们,谈谈统计数据和筛选是如何被使用和滥用的……
三月十五日

采访

本·戈尔达克博士

Chris -我们现在请到了Ben Goldacre。告诉我们一些你将要谈论的话题,因为你将在科学节上加入我们,就这些问题发表演讲。你的演讲将涉及什么内容?

《卫报》“坏科学”专栏作者本·戈尔达克博士在伦敦经济学院发表演讲本,你刚刚提醒了我,我需要写一篇。我要写的是那些本应该更了解统计的人犯统计错误的各种不同方式。不是那种普通人容易被骗的方式而是那些在政府、医药、工业、媒体等领域担任高级职位的人。

克里斯-我们听过“谎言,该死的谎言和统计数据”这个说法。这不是一个新现象,所以一定有一些很好的例子可以用来展示你的演讲。

本:是的,有趣的是同样的问题一次又一次地出现。例如,筛选是一个非常有趣的问题。人们经常,我认为这是因为人们很容易认为,做点什么总比什么都不做好,想象一下,筛查可能是一种有用的方法,可以首先在乳腺癌非常罕见的人群中发现乳腺癌。所以在目前55岁以上女性的筛查范围之外。也可能像军情五处最近建议的那样,筛选每个人的电脑通讯记录,以发现恐怖分子或筛查每个人是否患有艾滋病。有趣的是,当你试图筛查一些非常罕见的东西时,比如恐怖分子或艾滋病,实际上你的假阳性开始超过你的真阳性。即使你的考试成绩很好。

克里斯-我们来定义一下。误报当然是指那些被你指控为恐怖分子的人,而他们是完全无辜的。

本:没错。用一个具体的例子来说明效果最好。如果我们以艾滋病为例,假设我们有一个非常出色的HIV血液检测方法。它只会给那些没有感染艾滋病毒的人一个假阳性:每10000次测试中就有一次。快速艾滋病毒检测这是一个很好的测试如果你在一个很可能是HIV阳性的人群中做HIV测试。比如说注射吸毒者或者有长期无保护性行为的男同性恋者。你可能会说,这个人群的风险是百分之一,每次测试假阳性的风险是万分之一。一般来说,如果你的HIV检测结果呈阳性,那么这可能意味着他们真的感染了HIV。如果你对感染艾滋病毒风险很低的普通人群做同样的测试,假设在英国的普通人群中你感染艾滋病毒的风险可能是万分之一。如果你在一个只有1 / 10000的人感染艾滋病毒的人群中做测试你的测试结果是1 / 10000的假阳性那么实际上血液测试呈阳性只意味着这个人有一半的时间真的感染了艾滋病毒。

克里斯-我们该怎么办?这将如何改变我们的做法?我们应该做些什么来确保我们不会以统计上的错误线索而告终?

本,我想这意味着你必须非常谨慎地考虑在哪里进行筛选以及你认为这是好主意还是坏主意。这取决于个别情况的数学计算。就在最近,军情五处的前负责人为IPPR写了一份报告。得到了很多媒体的报道。它说,也许我们必须接受安全部门应该有权访问每个人的电脑记录。每个人的短信通信模式,他们的电话名单,他们的电子邮件内容,他们的税务记录,他们的旅行记录,所有这些东西。然后我们可以用模式识别软件试着确定谁可能是恐怖分子,谁不是。从表面上看,这听起来很有吸引力。如果这是真的,你可以提出一个很可能发现恐怖分子的理由。你可以提出理由。 You could say maybe it was worth sacrificing our civil liberties and our privacy in order to catch terrorists. That's a separate argument, a moral argument. Before you even get there you have to be clear on whether screening is capable of spotting terrorists in the general population.

克里斯-这是筛选的标准之一。我们说,当我们筛查某些东西时,如果我们不能有效地检测到它或对我们发现的东西做任何事情。我们只是没有进行筛查。

Ben - Absolutely:筛选恐怖分子有两个问题。一是恐怖主义极为罕见。可能有% 20重划% 20图% 20 % 20 % 20多种% 20评分比较% 20方法% 20 % 20 % 20正常% 20分布。在英国有1万名疑似恐怖分子,等着采取行动。实际上可能比这要低得多。然后你会想,你要用什么来判断一个恐怖分子呢? ?我们检测血液中HIV的方法非常好。每10000次中只有1次是错误的,这意味着每10000次中有9999次是正确的。这是一个非常好的测试,但当你看到非常罕见的东西时,它仍然会出错。你通过看电话记录来判断一个人是不是恐怖分子的测试会比这个准确得多。在测试可能存在缺陷的两个重要方面,它们的准确性会大大降低。首先,他们很可能会错过真正的恐怖分子对象,但他们也很可能会错误地将人们识别为恐怖分子嫌疑人,而实际上他们并不是。如果你计算一下,你会发现,即使是99%完美的测试,也是难以想象的好。 We'll still identify thousands and tens of thousands of people as suspects which is basically useless. It's worse than old--fashioned trade craft and investigation techniques. What are you going to do with 10,000 possible suspects to try and investigate all of those people in any detail is obviously impractical.

回想10 - 15年前的人会记得克利夫兰虐童丑闻就是这样的。这是一个有缺陷的测试,基本上无辜的人和有罪的人一样多,导致很多人被指控虐待儿童,被虐待,他们
不良科学封面没有。

本:是这样吗?对不起,我对此一无所知。

Chris -这是人们应用测试的一个主要问题,这个测试有很大的缺陷,因为它提取了一些案例,其中一些被滥用了,但很多没有。由于你列出的原因,它导致了大量的心痛。这类测试很难做到准确和具体。让我们以你告诉我们你希望看到什么来结束这个话题。

Ben,我想很多时候关于放映的讨论是由政治和情感驱动的。例如,政客们会说,我们正在做一些有用的事情来预防乳腺癌、心脏病发作或中风等等。我们有一个大型放映项目。这感觉是一件非常积极的事情,对恐怖主义的筛查也是如此。这对所有事情的筛查都是一样的。我认为人们只需要理性地看待它,仔细考虑这些数字。一方面是你想要的实际结果。另一方面,我其实很书呆子,认为筛选的数学本身就很有趣。这对我来说已经足够好了。

克里斯-但你不必是个极客才能去听本的演讲。他这周参加了剑桥科学节如果你想跟他聊聊的话。

本·戈尔达克也是《
流行的书,坏科学。

评论

添加注释