事实证明,如果我们轮流让每个人为其他人定义“真实”的分析,然后对结果进行平均,我们将得到一个统计上可靠的人类表现数字——无需考虑必须选择他们中的任何一个人作为掌握最终“真理”的人。这将为我们提供一个可以称为人类平均表现的数字。 2 如果我们想知道我们的系统是否良好,我们会将其与人类的平均表现进行比较。这又是同样的想法,这次是将系统与人类进行比较,而不是将人类与人类进行比较。即:将第一个人的分析视为“事实”,然后看看系统如何运作。将第二个人视为“真相”,再重复一次。第三个人。对这三个数字进行平均,我们就得到了原始系统性能。 最后一步:我们真正想知道的是,原始系统性能与人类平均性能有多接近?为了得到这个,你可以将前者除以后者,得到人类表现的百分比。例如,假设人类的平均表现是 74%。也就是说,平均而言,人类在 74% 的时间里意见一致。(如果这个数字看起来很低,是的,您猜对了;第二段。)假设系统 A 和 B 的原始系统性能分别为 69% 和 59%。一个系统真的比另一个更好吗?你怎么知道?系统 A 实现了人类绩效的。系统 B 达到了人类绩效的 59/74 = 80%。从所有这些数字中得出一些你可以翻译成可以理解的术语的东西:系统 A 与人类的表现相差不远,但系统 B 甚至不在喊叫的范围内。