性格测试:没有错误答案?

人工智能挡在你和你梦想的工作之间……
2022年11月29日
提出的詹姆斯Tytko.

RECRUITMENT.jpg

人力资源选择

分享

如果你最近申请了一份工作,你可能会被要求填写一份性格测试。从银行、咨询公司到快餐店,它们越来越多地被用作提高招聘效率和公平感的一种方式。

用于这些目的的最常见的测试是基于所谓的“五大”人格特征,心理学家已经确定这些特征可以很好地说明是什么让我们做事。

这种性格测试采用问卷的形式,参与者在问卷中表明他们与有关人类行为的陈述的一致性,通常在“非常同意”到“非常不同意”的范围内。

但这是平等和招聘美德的闪耀之光,还是所有闪耀的东西有时都不是黄金?人性的不可预测性是否意味着我们可能会错过一个技巧,用“一刀切”的算法过滤每个人……

在这一集里

检查表

01:14 -做大五人格测试

那些被认为决定你职业偏好的特质……

做大五人格测试
约瑟芬·安德森,伦敦大学学院

为了找出我能做些什么,我联系了剑桥大学心理测量学中心,他们研究心理评估。他们给了我一个测试来测试我自己…

该报告解释了一个人在五种广泛的人格领域中所处位置的可能后果。下面的页面包含描述人们行为的短语。请使用每个短语旁边的评分表来描述每个陈述对你的描述有多准确。第一个,“担心事情”:非常不准确,中等不准确,既不准确也不准确,中等准确,非常准确。我想说我在这条路上走得很中间,所以我要选择既不准确也不不准确。“要有丰富的想象力。”适度准确……”

约瑟芬-大家好,我是约瑟芬·安德森,我在剑桥大学贾奇商学院心理测量中心工作,是一名商业发展助理。

詹姆斯-约瑟芬,我今天来这里是因为你们给我寄来了一份性格测试。我在五个不同的类别中得了五个分数。

约瑟芬:是的,这是一个大五人格问卷,它由外向性,宜人性,尽责性组成(当你得到任务时,你会马上开始吗?然后是神经质(你有多少消极情绪?焦虑,抑郁,还有愤怒)和对经验的开放。通过大量的研究,科学家们将性格特征归结为一生中稳定的特征。所以你的宜人性得分很高,80分,神经质得分很低。所以我觉得最高分和最低分总是能给你一个关于这个人是什么样的暗示。例如,对于宜人性,这意味着你不寻求与他人发生冲突,这可能会使你成为一个好的团队合作伙伴,但你也可能希望有一个更友好而不是那么竞争的文化。因为和蔼可亲也有缺点。

詹姆斯-大五人格测试可能是很多人都听说过的东西。是什么使它成为一种标准?

约瑟芬:它在科学领域如此突出,但在组织中也是如此,因为首先,它没有偏见。例如,种族偏见或性别偏见。通常,问卷中要有能够解释这一点的问题是非常重要的。例如,“我喜欢踢足球或去看足球比赛”可以用来衡量外向性,但前提是你喜欢运动。很大程度上,与其他测试相比,比如迈尔斯布里格斯测试,它很受欢迎,但不是很科学有效。在大五人格测试中,当你的外向性得分高时,它实际上显示了实验,现实生活中的研究,它实际上可以预测某些行为-你实际上会参加更多的派对,或者对于经验的开放性,你实际上会参与这些行为。它也是可靠的因为如果你做很多次它总是显示相同的结果。

詹姆斯:为什么填写这种问卷可以很好地表明我可能喜欢做什么工作?

通常,对于不同的工作,不同的公司,他们有不同的文化。不同的工作有不同程度的压力。例如,你的神经质程度很低,所以你可能在压力很大的工作中表现得很好。此外,如果一家公司有非常友好的文化,你可能会很好地融入其中,因为你在亲和性方面得分很高。但如果是另一家公司,比如咨询公司,根据我目前的理解,竞争会更激烈,你可能不太喜欢。公司会知道你是否适合他们。

詹姆斯-好吧。这很有趣。我想问题就变成了:比如,咨询工作的薪水很高,我能把你刚才教我的东西,应用到未来的咨询公司吗?也许我会想,“好吧,我想在宜人性得分上比平时低一点。”

约瑟芬-是的,你绝对可以在这些考试中作弊。很多雇主喜欢有责任心的人,他们会马上开始工作,他们会真正完成他们说过要做的任务。但也有一些事情,比如社会吸引力测试,会问你,“你撒过谎吗?”人们可能会以一种社会期望的方式回答,“不,我从不撒谎”,尽管每个人都在撒谎。或者,“你犯过法吗?”每个人都有违法的时候,我的意思是我从来没有。但你也要问问自己,作为一个人,如果你假装自己的神经质程度很低,那么你就会进入一份压力很大的工作,最后你真的不适合这份工作。

詹姆斯:从长远来看,你在这些测试中撒谎只会伤害你自己。从你所说的,我感觉到你非常支持这些工具,因为它们非常有用,几乎可以消除偏见。也许在面试中,你走进去和某人一对一交谈,他们就有很大的空间对你做出无意识的判断,然后影响他们是否会推进你的申请或其他事情。

约瑟芬:当然。与面试相比,它可以消除偏见。例如,如果一名女性渴望担任领导职务,有些人可能会认为“女性更情绪化”。但实际上,当你比较男性和女性时,并没有太大的区别,如果你看到测试,她没有得分,那么这可能会消除偏见。但话说回来,我认为你不仅应该用问题,还应该用面试。因为也有可能,比如,参照组效应也许你有很多外向的朋友然后当你做问卷时,你把自己和他们比较,认为自己是内向的。但当你去别的地方,比如一个内向的群体,和他们相比,你实际上很外向。

詹姆斯:你之前提到过五大人格特征是如何随着年龄的增长而在你的生活中保持一致的。但当我回答一些问题时,有一件事让我震惊:你喜欢狂欢吗?你喜欢刺激吗?你会不假思索地投入到工作中吗?在我看来,随着年龄的增长,这些特征可能会变得不那么突出。

约瑟芬:我想说的是,例如,这个问题,“你喜欢去派对吗?”首先,你可能会想,是的,也许当你60岁的时候,你不会喜欢去大俱乐部或锐舞。但是,话说回来,当你60岁的时候,派对的意义就不一样了。所以这可能是一个晚宴,一个外向的人可能仍然喜欢参加晚宴。

表达式

是什么让我们的个性独一无二?
山姆·高斯林,德克萨斯大学

想起来很有趣,不是吗,一个20分钟的问卷就能告诉你很多关于你是谁的信息。或者可以吗?有些不满意的是,我找到了德克萨斯大学奥斯汀分校的心理学教授山姆·高斯林,让他退一步告诉我,我们对人格的科学理解到底有多坚定……

普通的、普通的人格概念比科学家们研究的要多得多。科学家们真正关注的是所谓的人格特质,也就是我们行为、思想和感觉中的规律。但这个领域的一些人真的说过,这是对某人的一种非常肤浅的理解。你会纯粹根据一个人的五大性格特征来选择他结婚或成为你的室友吗?答案很可能是否定的,因为你不知道那个人是谁。所以你需要深入挖掘一些研究人员所说的个人担忧。这就是一个人的态度,他们的价值观,他们的目标,他们的角色。比如他们的价值观,对他们来说什么是重要的?他们看重智慧吗?他们看重权力吗? Do they value becoming rich? And those sorts of things aren't the kinds of characteristics that will show up in a big five test. And then, if you really want to get a sense of who somebody is, you have to dig even deeper to what you could call identity. And you think of identity as the narrative story we tell about ourselves, about how we became the person we are today. It takes those events in the past and it's how we make sense of them to form this conception of the self, which also has implications for who we think we are going to be in the future too - those sort of deeper things, those values. The identity isn't captured by things like the Big Five and other dispositional constructs. And one of the reasons is they're much more difficult to measure.

詹姆斯-我很高兴我们已经澄清了这一点,但如果我现在让我们回到思考五大人格,你能看到人格测试作为一种确定我们可能对什么工作感兴趣的方法的有用性吗?

山姆:是的,我认为性格在决定我们擅长什么工作方面起着巨大的作用。我想,如果你问大多数人,是什么让一个人成为一名优秀的销售人员、一名优秀的卡车司机、一名优秀的护士、一名优秀的教师,他们不会只说智力。并不是说聪明人在这些方面都做得更好。也会有其他事情发生。所以这可能是他们有多喜欢与他人互动。如果你喜欢与人交流,那么做一名销售人员是不错的,但做一名卡车司机就不那么好了。有人可靠吗?他们值得信任吗?他们友好吗?他们好奇吗? Those are all personality traits, so I think it makes good sense to try to assess those in some systematic way. By doing so, it in fact helps fairness too, because we're unlikely if we have these test scores to rely so heavily on our stereotypes or our preconceptions of what somebody's likely to be like. I think a good example is, if somebody's introverted, they say less. And so then we get to learn less about their other qualities too.

詹姆斯:山姆,我能问你,你认为用性格测试来确定我们潜在角色的主要限制是什么吗?

山姆:我认为主要的限制是它只关注个性的一小部分,而忽略了更深层的结构,比如价值观、目标和我们的身份。而且——我不知道这一点,因为据我所知,还没有这样的研究——但我怀疑,在某些方面(你是一个多好的老师,或者你是一个多好的CEO),这些价值观,或者你是谁的这种感觉,才是真正的黄金所在,是预测你能不能做好这份工作的行动所在。

詹姆斯:在合理的范围内,人们不是很有能力……也许这甚至是健康的,人们在个人生活和职业生活中并不是完全不同,但他们能够将它们分开,并有一个稍微不同的个性。

山姆:是啊,这很有可能。我认为有一点很重要,当我们说某人有某种性格时,并不意味着他们的行为是不变的。因此,内向者和外向者在聚会上都比在图书馆时更健谈。但是,在这两种情况下,至少在理论上,外向的人会比内向的人更健谈。所以我认为重要的是要明白我们并不是说行为是不变的。现在有一些研究试图把这些东西分开。有一些研究基本上采用了一份普通的性格问卷,比如“我很健谈”或者“我喜欢尝试新事物”之类的性格项目,他们所做的是在这些项目的末尾加上“在工作中”或者“在家里”他们发现,如果你这样做,你会得到稍微不同的答案。这些测试的答案确实预示着更好的工作表现,但差异不是很大。

显示社交媒体应用程序的智能手机屏幕

14:05 -使用社交媒体进行个性分析

我们的数字足迹很快就会被雇主用来评估我们……

利用社交媒体进行个性分析
大卫·史迪威,剑桥大学

我们可以接受,一个人的性格可以公平地表明他是否适合某项工作:例如,一个完全内向的人不太可能成为电台主持人。当我们问这些判断是如何做出时,争议就开始了。性格测试是一回事,但如果公司正在使用我们在性格测试中提供的指标以外的指标来建立我们的个人资料呢?如果他们也调查了我们的网上活动呢?现在和我们在一起的是大卫·史迪威,剑桥大学计算社会科学教授,他正在研究这种可能性。

大卫-性格测试有自己的问题。我们一直在寻找替代方案。例如,一些公司会进行自动视频面试。这是一台电脑对你进行面试,然后一个算法试图衡量你的答案的质量。其他公司做游戏化评估,你玩游戏,然后他们用它来评估事情。我一直在研究的是利用社交媒体数据。所以你可能知道,当你申请一份工作时,人力资源部的人经常会在谷歌上搜索你,看看他们能找到什么信息。实际上是有数据的。根特大学(Ghent University)的研究人员发现,个人资料照片漂亮的人比个人资料照片不漂亮的人多获得38%的面试机会。这再次证明了人类的偏见。 So what me and my team looked into is, instead of asking all these questions on a personality test, or instead of a human looking at your social media data, maybe an algorithm can look at your social media data and try to assess your personality. So instead of saying, do you like going to parties, we just look at the data. How many parties do you actually go to? Do you talk a lot on social media?

詹姆斯-我能看到它的价值,但如果你窥探人们的社交媒体资料,这怎么能符合他们的隐私权呢?

大卫:有些人可能会说这只是公共数据,所以你应该可以继续使用它。我不同意。我认为公司在做这种事情之前应该征得许可。当你申请一份工作时,他们应该告诉你他们要看什么样的信息。公司应该做的另一件事是,当你提出问题时,他们应该分享他们从分析中学到的或得出的结论。根据GDPR,你有权获得关于你的数据,公司也应该分享这些数据。我认为真正重要的是在什么情况下使用它。例如,德国大型跨国公司SAP,他们来找我们,他们正在重新招聘,他们说,“也许我们可以使用社交媒体数据。”我们得出的结论是,如果你用社交媒体数据来决定他们是否得到一份工作,人们不会喜欢的。我们创造的是一个工作推荐应用。你分享你的数据,它预测你的性格,然后它说,“好吧,在SAP这个大公司里,有一个职位适合像你这样的人。” And that's much lower stakes - people still have control over what jobs they can apply for.

詹姆斯:你有证据证明这比大五人格测试更有效吗?

David:就可靠性而言,使用大数据肯定不如使用用于测量个性的测试可靠,因为数据更混乱。另一方面,这种技术的优点是它基于真实的行为,所以它是人们实际在做什么,而不是他们在测试中说他们在做什么,因此我们发现它能更好地预测未来的行为。

詹姆斯:我们一直在建议这些技术如何在招聘过程中消除偏见。但肯定会有一些例子,这些算法可能不是为他们设计的。例如,考虑到残疾人,这些系统正在运行的模型意味着他们被困在网络中。

大卫:是的,就像你在开头说的,专业的性格测试非常昂贵,而且很容易把几个问题拼凑在一起。但它们昂贵的原因是,要真正创建一个好的测试,你必须收集大量的数据和证据。其中一部分是测试发行商应该得到数据,关于它与哪些群体合作,哪些群体不合作,他们还应该向他们出售测试的人提供建议。也就是说,当你使用这个测试时,这些是你需要使用的调节。也许是给人们更多的时间,或者只是,它不适用于这个群体,你需要使用其他方法。

詹姆斯:那么通过这些数据建立起来的性格特征转化为工作表现的可靠性有多高呢?这两者之间有很强的相关性吗?

大卫:答案是,据我所知,我们还没有证据。所以当我们预测未来的行为时,我们发现它至少和传统测试一样好。但我不知道关于工作行为的证据。所以一些初创公司开始提供这种技术,但我想说,我们更多的是在概念验证阶段。

詹姆斯:大卫,你对这项技术的未来总体上持乐观态度吗?在我看来,我们正在打开一个棘手的问题。科学就是科学,但如果它落入坏人之手,会不会弊大于利呢?

大卫-是的。在经典的性格测试中,有一些措施可以阻止这种不良行为。为了进行性格测试,你必须获得职业测试使用证书。英国心理学会,它对测试做了评论,你可以阅读这些评论,看看测试有多好。我们依靠这些专业人士以积极的方式使用它。但我们必须记住的是,有什么替代方案,现在正在做什么。我提到过,有魅力的人会得到更多的工作机会,或者更多的面试机会。我只是觉得我们可以做得更好。这不是为了追求完美,而是为了比我们现在拥有的更好。

有人在视频通话

人工智能招聘:公正还是不公平?
Tomas Chamorro Premuzic,伦敦大学学院

尽管这可能会让一些人感到不安,但将机器学习引入招聘流程的支持者提出了一些令人信服的观点,即传统替代方法(如面试)中普遍存在的偏见。我采访了伦敦大学学院(UCL)商业心理学教授托马斯•查莫罗•普雷穆兹克(Tomas Chamorro Premuzic),他也在人力资源公司万宝盛华(Manpower)工作。在万宝盛华(Manpower),他们声称帮助客户利用科学建立劳动力队伍,并对一系列招聘技术进行研究。除了性格测试,另一种获得关注的技术是视频电话面试,在这种面试中,受访者在没有人接听的情况下回答问题。相反,人工智能会分析候选人使用的语气和语言来判断他们的表现。我问托马斯,这些类型的技术是否提高了效率,却没有提高公平性……

托马斯:我们需要成熟和理性地去怀疑我们的本能,并理解当人们说,“嗯,根据我的经验,这是有偏见的”或“这不起作用”或“这不是很有帮助”时,他们的经验总是基于N(1),并与他们的偏好相混淆,等等。我的意思是,科学研究的重点是提供来自成千上万甚至数百万人的证据。我认为考虑到这些研究,也要明白这不是火箭科学。你永远不可能100%准确地预测一个人未来的工作表现,或者一个人是否适合一个团队、团体或组织。关键是要尽我们所能把它做得好,做得可靠。这是有可能做到的,比如说,70%或75%的精确度。当然,你可以告诉我,“但是我的表妹,她真的非常非常聪明,她被这些招聘人员不公平地拒绝了这份工作。”也许你是对的。但关键在于,我们希望将假阳性和假阴性的数量或发生率降到最低。如果你这样做了,你往往会成为一个更精英化的组织,一个更以人才为中心的组织。 It's interesting to me that some of the same organisations that are championing diversity and inclusion are still looking for talent or trying to assess potential in the same old ways: looking at people's resumes and their qualifications and their educational credentials. And while it is absolutely possible for somebody who doesn't come from a high social class background to go to Cambridge, Oxford or Harvard and do really well, the vast majority of people that have these degrees are rich and they come from very affluent areas of society whereas if you look at people's personality and you try to understand what they're like, how they differ from others, you can not truly focus on diversity because we're all different. And if you don't try to understand what makes us unique and how we differ from others, then you truly don't care about diversity. And also look at qualities that are not conflated with social class, with socioeconomic status, with privilege. You can be more or less curious, more or less creative, more or less extroverted, more or less conscientious, more or less ambitious, more or less likable, irrespective of your class.

詹姆斯:当我们越来越依赖数据和算法时,问责制的困难就来了,因为责怪一个表现出偏见的招聘人员可能更容易,但这变得有点困难。当人们溜进网络,发现很难克服计算机给他们的低分时,我们要为谁负责呢?

托马斯:我不同意。我不得不说,有两个问题非常关键。对于所谓的黑盒人工智能模型的潜在后果和缺陷,我们有理由感到担忧和担忧,并一直在提高人们的关注:算法或系统给你打高分或低分,或者在没有任何解释的情况下拒绝你的工作。但唯一真正的黑盒算法是人脑。唯一不可能解包、解码和逆向工程的决定是人类所做的。如果我在面试你的时候拒绝了你,我可以想出最好的理由来解释为什么你不适合那份工作。我可以说你看起来不自信,或者你没有专业知识,或者你很粗鲁,或者你没有眼神交流。有时候我真的相信;我不是故意欺骗别人,找借口,因为我更喜欢一个裙带关系的候选人。然而,有了人工智能,你总是可以对支撑算法的决策过程进行逆向工程。 Algorithms are basically like recipes. And the only thing that is novel about AI is that it's a self generating recipe. You give it data and then can find out what the key ingredients are and identify patterns, and then influence or make decisions on the basis of those patterns. AI that is ethical by design has competent humans overseeing these algorithms, testing them for bias and adverse impact, and ideally still being involved in the decision making process. So I think it's very unlikely today that anybody is hired purely as a function of what a fully autonomous AI or algorithmic system does, which is also quite interesting because sometimes adding a human in the loop actually increases the bias and doesn't decrease it. I'll give you an example. Some of the video interviewing software technologies that have been developed in the last 5 or 10 years can actually give us a sense of whether, for example, you are more confident, whether you're more narcissistic, whether you have a higher or a lower integrity score. And when these scores are confirmed or checked by humans that come in the loop and they look at the same videos of people, actually they don't become more accurate. They often become less accurate because the person is driven by a lot of signals that actually have to do with things like race or class or attractiveness. Humans are very good at learning, but very bad at unlearning. No matter how much unconscious or conscious bias training you undergo, you cannot suddenly forget that the person sitting in front of you is male or female, white or black, old or young, attractive, you know? And in fact, the more you try to suppress that information, the more prominent it becomes in your mind. In the near future, we're probably going to see humans enhanced by AI, including assessments of people's personalities, scored with machine learning and artificial intelligence enhanced by human expertise. And the combination of both will be better than one way or the other.

评论

添加注释