数据可视化也可能有意或无意地造成误导。幸运的是,如果你知道自己在寻找什么,那么大部分的欺骗还是很容易辨别的。
许多数据图形(包括条形图和散点图)在轴上显示信息。这些轴就是我们将数值绘制成图时使用的水平和纵向标尺。只要看到包含轴的数据图形,就一定要看一看这些轴。
设计者有很多技巧来处理图形的轴。年,专栏作家安德鲁·波特教授在加拿大新闻杂志《麦克林》上发表的一篇评论引起了轩然大波。他在文中指出,魁北克的很多问题可以追溯到一个事实:“与加拿大其他地区相比,魁北克是一个与世隔绝到近乎病态的低信任度社会,缺乏很多基本的在其他加拿大人看来是理所当然的社会资本。”为了支持波特的观点,该杂志随后发表了下面这张数据图表。
乍一看,这幅图表似乎为波特的观点提供了有力的支持。魁北克的信任度条形远低于加拿大其他地区的条形。但是别急,我们先看看纵轴(y轴)。所有这些条形都不是从0开始的,它们的最低点分别是35、45和50。通过将魁北克条形截短,只留顶部一小截,设计者在视觉上夸大了魁北克和加拿大其他地区之间的差异。如果让这些条形从0开始,图形就会给人一种不同的印象:
在这个新的视觉化图形中,我们看到魁北克的信任度确实有些低,但我们对信任度的差距有了更好的认识。在读者发现原始图形有对轴进行操纵的行为并写信投诉后,作为修正,《麦克林》发表了第二幅图。他们本应该在一开始就发表这幅图。
条形图即使没有明确的轴也可以误导人。下面这个例子是希拉里·克林顿竞选团队在照片墙上发布的条形图。
图中的条形是从左到右,而不是从下往上。这没有问题,因为每个条形代表的是一个没有自然排序的类别,而不是一个数值(例如年份,年龄,收入范围)。不恰当的是,尽管这些条形的长度看上去与它们所代表的数字成比例,但实际上并非如此。前4个条形的长度大致正确,在从最左端到最右端的完整长度中所占的百分比接近于条形上标注的值。从代表的值来看,最后两个条形远远长于它们应有的长度。代表女性白人的条形标注为75%,但实际长度是全长的78%。代表亚裔女性的条形更具有误导性:它被标注为84%,但实际长度足足达到了90%。其结果是我们感知到的支付给非亚裔有色人种美国女性的工资与支付给女性白人和亚裔美国女性的工资之间的差异变大了。我们可以读出条形上的数字,但我们是通过感觉来理解条形长度差的。
虽然条形图中的条形应该从零开始,但线形图不要求表示因变量的轴必须包含零。下面这张线形图表示的是加利福尼亚州自年以来父母都工作的家庭比例的增长情况。就像表示魁北克省信任度的第一幅图一样,本图中的纵轴并非从零开始。
有什么不同吗?为什么条形图的纵轴必须包含零,而线形图不需要呢?这是因为这两种图传递的信息不同。条形图强调不同类别相关值之间差别的绝对量,而线形图着重表示因变量(通常是y轴的值)随自变量(通常是x轴的值)变化而发生的变化。
事实上,如果线形图纵轴真的从零开始,有时反而会引起误解。
“从现在开始你唯一需要的全球变暖图”就是一个著名的反面例子。这幅图是史蒂文·海沃德为Powerline博客创建的,在年年底被《国家评论》发布到推特上后被人们进一步分享。海沃德对他的图7–27做出了如下解释:
这不太容易让你激动起来,不是吗?事实上,你几乎察觉不到气候正在变暖。
这个设计很愚蠢。绝对温度无关紧要,没有必要把图形缩得那么小,以至于所有的模式都看不清了。如果我们想要在气候是否发生变化这个问题上得出结论,就需要一个类似于图7–28的比例尺。
海沃德为Powerline创建这幅线形图时,在图形显示方面做出的选择与他传递的信息不相符,这是这幅图阴险的一面。海沃德声称,他要讨论的是地球温度变化(或缺乏变化)的情况,但他没有选择用于揭示变化情况的数据图,而是选择了一幅模糊了变化情况、有利于呈现绝对量相关信息的数据图。7
当一幅图中使用两个不同的纵轴标尺时,我们必须更加小心。通过有选择地改变坐标轴的相对比例,设计者可以让数据传递他们希望传递的任何信息。例如,年一篇发表在低级期刊上的研究论文试图重新提出早就被人们揭穿的关于孤独症与麻疹—流行性腮腺炎—风疹(MMR)疫苗有关的阴谋论,并给出了一张类似于下图的图表作为证据。
即使我们暂时不考虑数据选择和分析中的重大问题,也该考虑如何理解这幅图暗示的对应关系。乍一看,孤独症发病率似乎与
MMR疫苗接种覆盖率密切相关。但是看看坐标轴。表示孤独症发病率的标尺从零开始到0.6%结束,而表示MMR疫苗接种覆盖率的标
尺从86%开始到95%结束。可以看出,在这段时间里孤独症患者的比例发生了很大的变化———年大约增加了10倍,但MMR疫苗接种覆盖率发生了一个很小比例的变化。如果我们重新对图进行缩放,就能清楚地看到这一点。我们不需要用相同的比例显示这两种趋势,但必须保证两条轴都包含零。
从图7–30中可以清楚地看出,MMR疫苗接种覆盖率的较小变化不太可能是导致孤独症发病率发生较大变化的原因。
下面是另一个例子,摘自一份鲜为人知的科学期刊上的一篇研究论文。这幅图旨在说明甲状腺癌与除草剂草甘膦(农达)的使用之间存在时间相关性:
的确,接触农达可能会造成严重的健康后果,但无论有何后果,这幅图都不具有说服力。首先,相关性不是因果关系。例如,人们可以在手机使用和甲状腺癌之间找出类似的相关性,甚至手机使用和草甘膦的使用之间也存在类似的相关性。下面,我们将手机拥有量添加到图表中。
如果我们相信原论点的逻辑,那么我们或许应该担心手机会导致甲状腺癌,甚至是草甘膦会导致我们使用手机。
现在,我们看看那幅图中的坐标轴:左边与条形图相对应的纵轴不是从零开始的,我们已经指出这有可能会导致问题。但还有更严重的问题,该图作者对右边纵轴的刻度及截取部位都进行了调整,目的是让代表草甘膦的曲线沿着癌症发病率条形的峰值延伸。最引人注目的是,为了让曲线做到这一点,纵轴必须包括草甘膦用量为–吨的点。这没有任何意义。我们说过线形图的纵轴不必从零开始,但如果只能为正的量出现了负值,就应该引起重视。
虽然我们在纵轴上看到的骗人伎俩可能更多一些,但横轴也有可能被用来误导人,最简单的方法或许就是通过选择数据范围掩盖部分信息。年7月,脸书发布了令人失望的季度收益报告后,股价大幅下跌。《商业内幕》的头条是“脸书的收益灾难抹去了亿美元的市值——这是美国股市历史上损失最大的一次灾难”。标题旁边是脸书4天内的股价图。
方面,市值损失确实很大,但另一方面也是因为脸书的初始估值太高。总的来说,脸书的业绩一直很好,我们可能应该结合这个背景,用一个跨度为5年而不是4天的图表来分析年7月的损失。
用图7–34表示后,人们对脸书股价暴跌的看法就大不相同了。可以看到,股价在前几次暴跌后又迅速反弹。我们对《商业内幕》中的图表是否具有误导性不太感兴趣,更希望指出图表的倾向性在多大程度上依赖于所表现的时间范围。在查看线形图和相关可视化形式时,请记住这一点:一定要保证所描述的时间跨度适合图形要说明的观点。
再看看横轴误导我们的另一种方式。图7–35暗示二氧化碳排放量已经达到了一个稳定的水平。文章中的描述是:“在过去几年里,全球二氧化碳排放量相对于前几十年已经稳定下来。”
但是看看横轴上发生了什么。在年之前,每一格表示30年
的时间间隔,接下来的一格是10年间隔,再下一个是9年。此后,每格仅表示一年。我们重新绘制该图,使x轴有一个恒定的比例,就会得到一个不一样的图形:
二氧化碳排放量的增长速度可能正在变慢,但看来还没有接近平稳期。
一般来说,我们需要注意x轴上的刻度是否不均匀、是否发生变化。对于条形图来说,在把数据分组以形成条形时,也可能发生类似的情况。下面的条形图选自《华尔街日报》关于奥巴马总统税收计划的文章。
这幅图是要表示美国税收主要基础所在的位置。每个条形代表一定收入范围内的纳税人;这就是我们所说的把数据分组。这些收入范围沿横轴显示,纵轴则表示给定范围内所有申报人的总收入。根据该图,大部分应税收入来自“中产阶级”,即5万~20万美元这个区域,这里的条形最高。(还有一大块应税收入在20万~50万美元这个收入范围,但即使按照《华尔街日报》的标准,也很难想象这些人是中产阶级。)
作者认为,奥巴马税收计划的大部分负担将不可避免地落在中产阶级而不是富人身上。
即使在奥巴马的医疗保健计划生效之前,富人的财富也远不足以为他的福利国家的雄心提供资金。那么,还有谁可以征税呢?年,所有纳税人的应税收入总额约为5.65万亿美元,其中大部分来自中等收入者。上图显示了分布情况,中间的那个大驼峰是民主党人不可避免地要去的地方,原因和威利·萨顿抢银行是一样的8。
但仔细看看这幅图。图中构成每个条形的“组”的宽度差异很大。前几个组表示的增幅是或1万美元,难怪这些条形都不高:这些组都很窄!然后,一提到中产阶级——正是作者声称税基最大的地方,各个组表示的增幅就急剧增大。有两个组的增幅是2.5万美
元,还有一个达10万美元。从那之后,组的宽度继续增大。以这种方式选择分组宽度,导致了大部分应税收入看起来都在分布范围的中间位置。
政治学家肯·舒尔茨认为,如果允许选择变量分组宽度,设计者可以传递出截然不同的信息。为了突出这个问题,他利用相同的税收数据,通过选择不同的分组宽度,传递出三种不同的信息。
通过改变分组宽度,舒尔茨成功地传递了我们必须向穷人、中产阶级(现在的定义是应税收入低于10万美元)和富人征税的三条信息。
《华尔街日报》可能无意误导读者,因为他们描述的组和美国国税局报告中的组一模一样。不过,不管作者的动机是什么,我们都需要注意数据的排列对传递信息的影响。
再看一个分组数据可能具有欺骗性的例子。图7–39中的数据旨在说明遗传对教育成就的预示性。横轴是表示遗传组成的指标,纵轴是中学班级的平均成绩。这一趋势看起来非常明显——粗看之下,你
可能会认为遗传有很强的决定教育结果的作用。
但如果用这种方式绘制图形,数据就会误导我们,原因是它们被“分组”了。所有的点都以数轴上的10个间隔为单位归总在一起,然后以它们的平均值绘制成图。9这种计算平均值的做法掩盖了个体得分的巨大差异。在图7–40中,可以看到原始数据传递了一个不同的信息。这些数据与前面那幅图使用的数据完全相同。然而,它们看起来更像是猎枪射击留下的痕迹,而不是一个明显的线性趋势!后来,人们发现遗传得分只能解释教育成就上9%的差异。如果一定要将数据分组,那么所谓的箱形图可以更好地表示每个组中值的范围。
幸运的是,这篇论文的作者同时提供了数据传递的两种观点,因此我们可以看到,用分组数据的平均值绘制图形可能具有很强的误导性。但并非所有作者都会如此公开透明。有时科学论文或关于研究结果的新闻报道只提供分组数据的平均值。因此,一定要小心,以免受到误导,错误地以为存在非常明显的趋势。
本文摘自:《拆穿数据胡扯》
《拆穿数据胡扯》
卡尔·伯格斯特龙,杰文·韦斯特著
胡小锐译
中信出版·鹦鹉螺
年3月