本福特定律所描述的现象十分有意思,它针对的是在大自然中出现的数字分布所体现出来的某种内在规律。甚至不会受到单位和数学进制的变化而变化。
举一个例子来说明这个定律。
思考一个问题,比如中国有13亿人,统计每一个人的总资产折合成人民币。那么总数是几十万几百万几千万或者几个亿的话,那么开头的那个数字几的出现概率应该是什么样的呢?
是1的概率和是9的概率是否应该是相同的呢?
从直觉上来想的话,1出现的概率和9出现的概率应该是均等的,均为19。所以财产总额以1开头的人数,应该也只占总人数的19。
但是事实上却不然。
以1为开头的财产总量的人口,能占到全部人口的30还要多出一些;而财产总量以9为开头的人,却只能占到百分之4多一些。
开头数字越小,那么它所占总数的概率也就越高,这就是所谓的本福特定律。
它的适用范围异常广泛,几乎所有日常生活中,没有被人为干扰的数字的统计规律,都会满足这个定律。
比如说人口的数量、国土的面积、甚至一些物理学常数等等。
而且在物理学上非常重要的波尔兹曼分布、波色爱因斯坦分布还有费米分布,也都会满足本福特定律。
所以当你发现,如果一个不存在任何人为干涉的数据集合,它的开头数字的分布不满足本福特定律的时候。那么有极大的可能性,就说明这组数据被人为修改过。
比如2001年,美国最大的能源交易商安然公司宣布破产。当时就传出了该公司高层管理人员涉嫌做假账的新闻。
事后人们调查发现,安然公司在20001年到2002年所公布的每股盈利数字就不符合本福特定律,这在数学上间接证明了安然的高层领导确实改动过这些数据。
本福特定律也曾经被应用于校验选举投票中。票数的数据也应当符合这个定律,如果有人修改选票数量,就会露出蛛丝马迹来。
一些人依据这一定律发现在2004年美国的总统选举中,佛罗里达州的投票存在欺诈行为;而在世界范围内,2004年委内瑞拉和2006年墨西哥的总统选举中也有篡改选票数量的现象。
而这个定律被发现的伊始也非常的神奇,是天文学家西蒙纽康在19世纪偶然间发现。
他发现在学校阅览室里的公共工具书《对数表》中,以1位起首的那几页要比其他的数字起首的页数磨损的状况更加严重。
所以他认为这很有可能是因为在自然界中,1开头的数字存在的概率要比其他数字存在的概率要大出很多。
无论这个充满趣味的传说故事是否真的属实,但本福特定律已经被数学上严谨地证明了。
白夜明现在需要做的事情,就是把这个他们递给自己的情报里提到的同一类数字全部都挑出来,然后看一看首位为1的数字出现的概率是多少。
如果是人为刻意造假的话。1的概率应该远远低于30;而处于中间的数字,比如说456的概率会多于它们应该有的。
因为从人的直觉上来讲,他们倾向于在造假的时候写出一个高不成低不就的数字来作为谎报的数字。
白夜明在深入了解这个世界之后,知道这个世界的数学水平不算太差。
但是这个世界对于对数的认识,也就仅仅刚处在开始萌芽的阶段,更不用提基于对数才能够得到很好理解的本福特定律了。
所以白夜明相信那些造假的人员,是不会刻意的将自己伪造的数据去向本福特定律所需要呈现的规律上靠拢。于是情报真假就可以通过这样的手段来得到很好的验证。
而情报并没有让白夜明直觉失望。他发现,确实他所