Закон первой цифры (Закон бенфорда)

Это звучит странно, необычно, дико, но, однако, есть самая встречаемая цифра среди прочих и она вполне конкретная.

В 1881 году американский астроном Саймон Ньюком в логарифмических таблицах обнаружил, что страницы с логарифмами чисел, начинающихся с 1, были потрепаны, а страницы с логарифмами чисел, начинающихся с 9, были целы. Явление очень заинтересовало астронома и дальнейший анализ различных таблиц показал, что единица встречается с вероятностью в 30 процентов. Именно единица и является самой часто встречаемой цифрой, двойка встречается реже, тройка еще реже ну и так далее вплоть до 9, которая встречается реже всех.

Закон не будет выполняться для данных с минимальными и максимальными значениями (компании с определенным доходом), или выборками, которые были специально отредактированы. Но! При наличии достаточно большого количества некоторых случайных данных закон снова начинает работать. :)

Отсюда можно достаточно быстро проверять некоторые случайные значения на отсутствие фальсификаций, так как цифры в данных должны более или менее удовлетворять закону Бенфорда и встречаться с частотой, указанной в таблице:

цифра123456789
частота30%17%12%9,7 %7,9 %6,7 %5,8 %5,1 %4,6 %

Важно понимать, что не все выборки будут обязательно удовлетворять закону Бенфорда. Например, у нас есть перечисление годов с 2000 по 2020 года. Даже невооруженным взглядом будет видно, что чаще всего будет встречаться 0 (40%), 2 (28%). Единица займет только третье место с результатом в 14%, все остальные цифры встречаются каждая ровно по два раза.

цифра0123456789
частота40%14%28%2,3%2,3%2,3%2,3%2,3%2,3% 2,3%

Как выше было сказано, набор значений с минимумом и максимумом может вполне себе не удовлетворять требованиям закона Бенфорда.

Таким образом, числа, которые не поддаются закону Бенфорда, нуждаются в дополнительном осмыслении и/или расширении массива значений.

Читайте также:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.