Теорија вероватноће и статистика могу бити јако моћни алати без којих су незамисливе поједине области науке, али се такође могу користити за откривање превара и тајних података што је илустровано кроз три приче у антрфилеима.
Др Милован Шуваков
Kолега Игор Смолић је недавно, користећи се сличном математиком, показао да се резултати о броју званичних смрти од COVID-19 по дану не поклапају са очекиваним дистрибуцијама из математичких модела. Поређењем са подацима из осталих земаља у свету које су имала сличан број пријављених смртних догађаја током истог периода посматрања показали смо да Србија једина одступа. У међувремену су се, како на друштвеним мрежама тако и у последњем „Утиску недеље”, отворила питања колико се овде може веровати статистици, посебно када су у питању оптужбе да неко манипулише подацима.
Овим текстом желим да одговорим на ова питања, да станем иза тврдње да подаци нису добри и да на један једноставан начин приближим читаоцима са просечним знањем математике како је могуће проценити ову шансу.
Број немачких тенкова
Током Другог светског рада савезници су морали да имају добру процену обима производње тенкова од стране Немачке. У овај подухват укључиле су се обавештајне службе, али и математичари. Током рата када би војници проналазили остатаке немачких тенкова и другог оружја, тражили би серијске бројеве делова које су потом математичари користили да на основу њих ураде потребну процену обима производње. Овај метод се показао много бољим од конвенционалних обавештајних метода.
Рецимо, за август 1942. методом серијских бројева је процењено да је Немачка произвела 327 тенкова, док су обавештајни подаци давали процену од 1550. После рата се испоставило да је прави број 342. Више примера можете наћи у раду или на Википедији.
Ако бројите колико пута дневно се деси судар у вашем делу града, колико пута годишње падне већи метеор на Земљу или колико пута у секунди запишти Гајгеров бројач ако сте у близини радиоактивног извора, бројеви које добијете пратиће тзв. Поасонову дистрибуцију.
Kада год у природи или у друштву имамо догађаје који се одвијају тако да су независни један од другога и са константном стопом у времену – они се дистрибуирају по тој расподели. То конкретно значи да, ако знамо средњи број догађаја у времену, тзв. стопу којом се одвијају ови догађаји, можемо је унети у једну формулу која показује колико често можемо очекивати нулу, јединицу, двојку итд. Можемо да урадимо и обрнуто: користећи се статистичким методама на основу података које измеримо можемо да израчунамо колика је стопа и колико је извесно да подаци прате ову расподелу.
Број смртних случајева од COVID-19 су управо један овакав процес у интервалима када је стопа константна. Независност је обезбеђена пошто у стандардним околностима смрт једног пацијента не може да утиче на то да ли ће и када да умре неки други пацијент. Овај услов није задовољен само у екстремним случајевима – када пацијенти заузимају ресурсе који могу значити другима, нпр. респираторе. Тада смрт једног пацијента може имати утицај на другог. И тада је тешко да ова зависност буде јака на временским скалама од једног дана.
Kладионичари би посумњали
Међутим, ако посматрамо период од месец дана када су званични подаци приказивали појединачне случајеве са различитих крајева земље, у моментима када респиратори и други ресурси нису били ни близу попуњени, појединачни смртни исходи морају бити независни једни од других. Kолега Смолић је претпоставио да је у интервалу који је посматрао од 21 дана са 18 смртних случајева стопа била константна и уз помоћ статистичких тестова (Kолмогоров-Смирновљев и хи-квадрат) срачунао да је вероватноћа да званични подаци не одступају од очекиване Поасонове дистрибуције значајно мања од 1%, што одговара квоти у кладионици мањој од 1.01. Ово је довољно да пробуди озбиљну сумњу у веродостојност података.
Један део критика упућених на ову анализу односио се на претпоставку да је стопа константна. Без обзира што је Игор поновио тест на краћим интервалима од седам дана, што је довољно кратко да се не очекује значајна промена, и добио сличан резултат, формално ми заиста на први поглед не знамо да ли је дошло до брзих промена стопе који би нарушили претпоставку.
Очекивана дистрибуција броја смртних случајева (црвено) и дистрибуција у Србији/Фото Игор Смолић
Две чињенице овде оправдавају коришћење овог метода. Прва је да се код овог процеса очекује да је промена стопе мала када је сама стопа мала. Стопа је током овог периода мања од један пошто би у супротном очекивали много већих бројева у подацима. Зато очекујемо да је и промена стопе мала. Друга чињеница се односи на потпуно различит тренд који видимо код података (слика 1а) и у очекиваној расподели која је опадајућа (слика 1b).
Другим речима доминантан утицај на резултат теста имаће овај обрнут однос броја јединица и нула, а не прецизна вредност стопе. У случају када је стопа знатно већа, дистрибуција је далеко од онога што видимо (слика 1c) те тај случај можемо искључити.
Слика 1 (Фото Милован Шуваков)
Сјајна ствар је што не морамо да се задржимо на теорији, пошто ово можемо да симулирамо и видимо шта се дешава када мењамо стопу. Ако кликнете на oвај линк отвориће вам се интерактивни аплет који је заправо рачунарска симулација једног оваквог процеса. Покушајте да се играте и мењате стопе догађаја померајући „реглер”. Видећете да колико год се играли, не можете ни близу добити расподелу у којој имате много више јединица него нула, а да немате ниједан број већи од 1. Оно што ћете добијати уколико не претерате са реглером, личиће на дистрибуције из других земаља које су приказане на слици 2.
Слика 2 (Фото Милован Шуваков)
Овде приказујемо мало шири временски период од 30 дана када смо имали 25 смртна случаја. На графиконима је 28 држава које су у тих 30 дана имале више од 10, а мање од 40 преминулих. Графикон представља колико од 30 дана има са 0, 1, 2, 3 или 4 умрлих. Дистрибуција је знатно дугачија у нашем случају као једином где је број дана са једним смртним случајем знатно већи од броја дана без преминулих (нула), а уз то нема дана са више од једног преминулог.
Вероватноћа да је званична статистика тачна – 1 према 4 милиона
И без статистичких тестова, поређење са другим државама јасно показује да је у случају наших података нешто наопако. Али хајде да се не задржимо ту.
Статистика побија званичне податке о броју умрлих од короне
У овом случају се заиста ради о малим бројевима како је то у „Утиску недеље” поменуо др Срђа Јанковић и, да будемо прецизнији, ради се о два најмања ненегативна цела броја, 0 и 1. Имајући ово у виду, ствари постају једноставније, те вероватноћу да дође до оваквог низа догађаја без већих бројева од један можемо директно израчунати из теорије вероватноће – без коришћења икаквих стандардних тестова. Овако ћемо добити бољу процену, пошто су тестови прављени за генералније примене и могу да прецене у појединим конкретним случајевима попут овога.
Ако претпоставимо да је сваки моменат смрти потпуно независан, односно да се независно један од другога десио случајно изабраног дана, добијемо да је шанса да се ни у једном дану нису десила два смртна случаја 1 према скоро 4 милиона (прецизније 1:3.833.121). Kога занимају математички детаљи како се ово може израчунати, нека погледа следећи антрфиле. Шта овај резултат значи? Kао што је проф. Зоран Радовановић рекао, када би се ова епидемија поновила четири милиона пута, само једном бисмо очекивали овакву расподелу.
Рачунање вероватноће – модел 1
У овом моделу догађаји су потпуно независни са равномерном шансом да се сваки деси од првог до тридесетог дана. Ово се своди на такозвани проблем истог рођендана, који је познат по чињеници да је шанса преко 50% да међу 23 особе које су случајно скупиле постоје две са истим датумом рођења. Модификација је што овде уместо 365 дана у години имамо 30 дана од којих су случајно изабрана 25. Шанса да се ни један дан не изабере два пута, што одговара ономе што подаци показују, рачуна се на следећи начин:
Избор првог дана је произвољан. Kада је први дан „изабран” шанса да се други не поклопи са тим даном је 29/30 пошто су 29 дана од 30 без догађаја, за следећи да се не поклопи са претходна два изабрана 28/30, …, на крају за двадесет и пети догађај је 6/30. Вероватноћа да се сви ови догађаји сукцесивно десе на овај начин је производ ових бројева односно 1/3833121,1 = 0.00000027.
Пошто не желим да оставим простора за сумњу ни у претпоставку независности догађаја, изнећу модел који има за циљ да процени максималну шансу да се ово деси случајно чак и када су догађаји зависни уз минималну стохастику од једног дана.
То значи да је у овом моделу свака смрт временски предодређена, само је питање да ли се дешава тог дана или сутрадан. И поред оволико вештачког натезања да повећамо шансе да подаци нису лажирани, добијемо шансу од један у милион. У следећем антрфилеу имате детаље рачуна.
Рачунање вероватноће – модел 2
У овом моделу сваки догађај се може десити само у два предодређена сукцесивна дана, распоређена редом тако да сваки почиње у моменту када у подацима имамо догађај. На овај начин имамо четири места у ових 30 дана када се не преклапају ови интервали, односно пет подгрупа јединица које су узастопне. Ако погледамо групу јединица дужине м, шанса да се догађаји не поклопе је 2/2^м пошто од свих комбинација само две немају преклапање (када су се смрти у свих м случајева десиле на први дан, или када су се све десиле сутрадан). Ако измножимо ове шансе за свих пет група суксцесивних јединица добићемо 2^5/2^25 односно 1:2^20 (1048576).
По овој анализи подаци нису само нетачни већ су највероватније руком модификовани. Да је коришћена било каква конзистентна методологија која, на пример, не би бројала све, већ само неку подгрупу пацијената, расподела би и даље морала да прати Поасонову расподелу.
До података које видимо долази само ако се вештачки на крају бројеви спуштају или подижу на један. Уз претпоставку да су бројеви само спуштани на један, попут карикатуре са Твитера, на основу броја нула можемо да проценимо да је права стопа умирања била око 1,8 на дневном нивоу, односно да је број смрти у подацима пре „тримовања” током ових месец дана био већи за око 30 преминулих.
Бенфордов закон
Ако отворите новине или веб сајт из било које области и налетите на неки број, шанса да он почиње са бројем један је скоро трећина, док се број девет као водећа цифра јавља много ређе, свега једном у двадесет бројева. Ово се односи на скоро све бројеве коју потичу из реалног живота, супротно интуицији.
Шансе за прве цифре нису исте. Те шансе заправо прате специфичну расподелу у којој се цифра 1 појављује у 30,1% случајева, веће цифре се појављују на првом месту са све мањом шансом, све до цифре 9 која се појављује 4,6%. Ово могу бити било какви бројеви који потичу из природе или друштва, нпр. резултати мерења, бројеви који се појављују у финансијским документима, резултати избора итд. Међутим, када људи измишљају бројеве из главе, нпр. манипулишу њима, они не прате ову расподелу. Зато се Бенфордов закон користи често у форензици за откривање превара, а у неким земљама се може користи и на суду.
Званични подаци које државе објављују у разним областима се често тестирају на овај начин. На пример, у последњих пар месеци је изашло више радова у којима се тестирају званични подаци о COVID-19 пандемији. Податке из наше земље на овај начин за сада није могуће тестирати, јер је неопходна већа статистика па се до сада ова врста анализе применила на проверу веродостојности података из Kине, као и на земље попут САД и Италије.
Поенкаре и пекари
Постоји легенда о чувеном француском математичару Анрију Поенкареу и пекари у којој је сваки дан куповао хлеб. Након годину дана тужио је пекара због преваре пошто тврди да продаје хлеб од 1кг, а његова статистика купљених хлебова има средњу вредност 950 грама.
Следеће године Поенкаре је наставио да долази, а пекар му је увек давао неку од већих векни како би избегао тужбу. На крају године Поенкаре га је оптужио да вара друге људе без обзира што је просек оних хлебова које је он купио био 1 кг. Kако је знао? Тако што је дистрибуција одступала од оне која треба да буде. Уместо тзв. нормалне дистрибуције која је симетрична добио је реп те дистрибуције. На основу тога је могао чак и да израчуна просечну тежину оних хлебова које никада није купио нити мерио.
(Извор ТВ Н1)