Dobre ocene lahko zdravstvenim organom pomagajo pri pripravi ustreznih ukrepov in vladam služijo kot vodilo pri njihovem rahljanju. V ta namen smo za uradno potrjene primere in smrti v številnih državah na svetu skoraj dnevno od 20. marca dalje objavljali napovedi v realnem času. Te so bile v veliki meri zanesljivi kazalniki tega, kaj se lahko v prihodnjem tednu pričakuje. Številni uradni modeli za napovedovanje pandemije – kot je dobro oglaševain model Imperialnega kolidža v Londonu, po katerem je ukrepe pripravljala britanska vlada – poskušajo s pomočjo matematike razložiti osnovne procese izbruha in v ta namen uporabljajo manjše število opredeljivih parametrov, kot je število R. Napovedi izdelajo na podlagi razumevanja splošnega delovanja izbruhov.
Z našimi napovedmi pa po drugi strani ne poskušamo pojasnjevati, zakaj do sprememb prihaja. Temeljijo izključno na podatkih sedanje pandemije, pregledu stanja njenega razvoja in se usmerjajo v napovedovanje prihodnjih dogajanj. To pogosto privede do bolj natančnih napovedi.
Pomanjkljivosti epidemioloških modelov
Predstavljajte si, da iz Bostona do Kalifornije potujete po cesti. Iz dosedanjih poti vemo, da je vaš cilj Kalifornija, zato spremljamo vašo pot in poskušamo napovedati dnevni načrt. V primeru cestnih zapor, na kratko naredite obvoz, zato so naše napovedi nekaj časa netočne, kasneje se ponovno obnovijo. Številni modeli imajo vgrajeno tovrstno »vrnitev v sredino«, s čimer lahko te majhne spremembe rešujejo.
Običajno takšen model dobro deluje. Toda, kaj pa če izveste za gozdne požare v Kaliforniji in se namesto tega odločite za obisk Kanade? Napovedi seveda postajajo vedno slabše, če ostanemo pri tem, da greste v Kalifornijo. Model se mora po takšni »strukturni prekinitvi« ponovno vzpostaviti.
Večina modelov za družboslovje in epidemiologijo se nanaša na teorijo, ki temelji na razpoložljivih dokazih iz preteklosti. Ta preprost primer potovanja nam kaže, zakaj takšni modeli niso najbolj ustrezni za izdelavo napovedi. Preveč so odvisni od svojih teoretičnih formulacij, kot je ta, da gremo v Kalifornijo.
Eden vidnejših primerov, ko gredo stvari pri takšnih modelih narobe, so napovedi angleškega Urada za upravljanje in proračun glede gospodarske rasti po finančni krizi leta 2008. Če si pogledate čudovite grafe, ki jih imajo na voljo v njihovi zgodovinski podatkovni bazi, lahko vidite, da skrajno nepravilne napovedi spominjajo na ježeve bodice, ki se odmikajo od potrjenih podatkov.
V epidemiologiji ima večina modelov trdno teoretično osnovo. Upoštevajo dejstvo, da se epidemija začne počasi, nato eksponentno narašča in sčasoma upočasni. Vendar pa vedenje ljudi in odzivi politike privedejo do nenadnih sprememb, ki pa jih je težko omogočiti, kot je npr. nepričakovan obisk Kanade. Podatki se lahko tudi nenadoma spremenijo v pandemijo – pospešena testiranja lahko razkrijejo številne nove okužbe ali pa se nizu podatkov pridružijo primeri v domovih za ostarele. Naprave za napovedi morajo biti v takšnih okoliščinah dovolj zanesljive, da obvladujejo probleme spreminjajočih trendov in nenadnih sprememb v rezultatih in meritvah. Naše kratkoročne napovedi jih lahko rešujejo na način, na katerega jih uradni modeli pogosto ne morejo.
Kako naše napovedi delujejo in se izvajajo
Za izdelavo napovedi, recimo skupnega števila primerov okuženih s COVID-19 v državi, moramo na osnovi potrjenih podatkov, ki so nam na voljo, najprej izdelati trendne črte. Z vsako dodano podatkovno točko se ustvari nova prilagajoča krivulja, zato je krivulj toliko, kolikor je podatkovnih točk. Algoritem strojnega učenja nato med razpoložljivimi trendi izbere tiste pomembne in izračuna njihovo povprečje, ki kaže postopen razvoj procesa, tj. trend podatkov. Napovedi izhajajo iz tega pripadajočega trenda, upošteva pa se tudi razlika med prvimi napovedmi in trenutnimi rezultati.
Morda se zdi presenetljivo, vendar to deluje. Graf, ki ga prikazujemo spodaj, kaže napoved, ki smo jo izdelali 22. maja, glede porasta skupnega števila obolelih s COVID-19 v Veliki Britaniji za naslednjih nekaj tednov. Naša napoved za 30.maj je bila ocenjena na skoraj 272 000 primerov. Uradno število na koncu je bilo 272 826. Drugi graf kaže napovedi za število smrtnih primerov zaradi COVID-19 v EU, ki smo jih pripravili med mesecem marcem in aprilom.
Vendar je za natančnejše napovedi treba pogledati meritev povprečne absolutne napake (MAE). Absolutne napake so numerične razlike med napovedmi in vrednostmi, ki se izkažejo za dejanske. Povprečna absolutna napaka je povprečje teh razlik za določeno obdobje. Predstavlja splošno meritev odstopanja vaših napovedi.
Do 4. aprila je bila povprečna absolutna napaka za našo enotedensko napoved za število smrtnih primerov v pretežno evropskih državah 629, medtem ko so povprečne napovedi odzivne skupine Imperialnega kolidža v Londonu za iste države v istem obdobju objavilo število smrti zaradi COVID-19 1 068.
Pri vključitvi podatkov za naslednji teden so bile naše napovedi v povprečju na približno isti ravni – 678 – medtem ko se je povprečna absolutna napaka Imperialnega kolidža v Londonu povečala na število 1 912. Po 11. aprilu so si vrednosti MAE postajale vse bolj podobne, toda naše napovedi so bile vsaj v začetni fazi pandemije precej bolj točne.
Med pandemijo so te napovedi zagotavljale koristne vpoglede za teden vnaprej in zdaj jih za Latinsko Ameriko, ki je trenutno žarišče izbruha, uporabljajo agencije, kot je Medameriška razvojna banka. Naša zanesljiva metoda napovedovanja pa ni imela ključne vloge samo pri trenutni pandemiji, temveč menimo, da bo pomembna tudi pri naslednjem valu.
Avtorji prispevka:
Izbor, prevod in priredba besedila: Monika Dežela Grkman