Paistab, et praegu ei möödu enam tundigi, kui ei ilmuks mõnda uudist AI ehk tehisintellekti või masinõppe kohta. Kuid teemas vähem orienteerujate jaoks võivad kõik need jutud üsna segased tunduda: mida see tehisintellekt ikkagi suudab? Kuidas teda “masinõpetatakse”? Ja kas üks ilma teiseta üldse midagi tähendab?
Miks mitte selles natuke selgust saada ja kuidas oleks seda lihtsam teha, kui mõne konkreetse firma näitel: näiteks Inforegister ja Storybook äriinfo portaale haldava OÜ Register loodud krediidi- ja maineskoorid toimivad juba aastaid puhtalt tänu masinõppele. Aga kuidas need loodi?
AI ja masinõpe – mis neil vahet?
Alustuseks peab ütlema, et väljendeid masinõpe ja tehisintellekt kasutatakse küll sagedasti koos ja mõnikord isegi justkui sünonüümidena, kuid tegelikult on need siiski erinevad asjad.
Tehisintellekti kohta on muidugi raske öelda, mis see täpselt on. Näiteks entsüklopeedia Britannica ütleb, et AI tähendab arvuti või arvuti juhitud roboti võimet täita ülesandeid, mida tavaliselt seostatakse intelligentsete olenditega. Terminit kasutatakse sageli ka selliste süsteemide kohta, mis imiteerivad inimeste intellektuaalseid protsesse nagu arutlemine, üldistamine ja õppimine. Ehk just viimaste hulka võiks liigitada viimasel ajal tohutu arenguhüppe teinud ning populaarsust kogunud juturobotid ehk üldotstarbelised tehisintellektid.
AI termin on ajas kahtlemata ka muutuv, sest ilmselt poleks 30 aastat tagasi paljud aimanud, milliseid inimeste ülesandeid arvutid peatselt täitma hakkavad. Samuti peeti mitte väga ammu võimatuks, et inimene võiks arvutiga mõtestatud vestlust pidada, mida sageli silmas peetakse, kui tehisintellektist räägitakse. Nüüdseks on aga Turingi test, mille sisu seisneb selles, kas inimene teeb kahte kirjalikku vestlust pidades vahet, kumb vestluskaaslastest on inimene ja kumb arvuti, tehisintellekti poolt sisuliselt läbitud.
Masinõpe tähendab aga … ikka õpetamist. Täpsemalt masinate õpetamist ning muuhulgas kasutatakse seda ka AI õpetamiseks või treenimiseks. Selleks kasutatakse väga suurt hulka infot, mis “söödetakse” arvutile ette ning mille põhjal see õpib. Kui andmeid on piisavalt ning nende kvaliteet hea suudab õpetatud mudel hiljem muid sarnaseid andmeid töödeldes leida mustreid ning teha tuleviku kohta ennustusi. Enamasti kasutataksegi masinõpet sellistes süsteemides, mis palumise peale kassipilte ei tee ja inimesega juttu ei räägi – kuid see ei tähenda, et need kasulikud poleks.
Erinevus tavalistest ehk sellistest õppimismeetoditest, millel masinõppega seost pole, seisneb suuresti arvutile antavas infos. Traditsioonilises programmeerimises antakse ette andmed ja reeglid info töötlemiseks ning tulemusena saadakse kätte mingid soovitud vastused. Masinõppe puhul antakse aga ette mingi info ja mõnikord ka “õiged” või “valed” vastused. Tulemina saadakse reeglid ehk programm või algoritm, mille põhjal mudel edaspidi uute andmete põhjal tegutseb ehk näiteks ennustusi teeb või neist keerukaid mustreid tuvastab. Õppimisviise ja algoritme on aga hulganisti erinevaid ning siinkohal neil pikemalt peatuma ei hakka.
Kreedix lõi krediidiskoori määramiseks ainulaadse masinõppe mudeli
Aga kuidas mõne sellise mudeli loomine ja kasutamine praktikas siiski käib? Näiteks Register OÜ kasutab eri masinõppe mudeleid ning töö tulemused on paljuski kättesaadavad kõikidele. Üks suurimaid ja keerukamaid ettevõtte enda loodud lahendusi on krediidiskoor, mis sisuliselt näitab ühe numbri abil ära juriidiliste isikute krediidivõimekuse. Väga lihtne! Ja seda tegelikult isegi tööpõhimõttelt, kuigi selle loomine oli lihtsast kaugel.
Klassikaliselt on krediidihinnangute andmisel lähtutud paljuski tagantjärele saadavatest majandusandmetest. Paraku tulevad need andmed enamasti kord aastas ehk korraliku viivitusega, mis tähendab, et jooksvat riskihindamist sisuliselt teha ei saa. Pealegi tähendab see müügikrediiti andvate firmade jaoks pidevat tööd ja märkimisväärset kulu. Eriti väiksemate firmade puhul pole aga partnerite krediidivõimekuse aktsepteeritava täpsusega hindamine isegi võimalik.
Kuidas siis saaks hinnata, millisel firmal on suurem tõenäosus sattuda tulevikus probleemidesse? Ja tagada, et võimalikest riskidest saada teada varem, kui aastase viivitusega ehk halvemal juhul tagantjärele, kui probleemid juba ilmnenud on? Muidugi kasutades pidevalt uuenevat infot ja masinõppe algoritme.
Inforegister ja Storybook äriinfo portaalides kuvatava krediidiskoor esimene versioon loodi juba üle viie aasta tagasi. Ning üks selle loomisel kasutatud põhimõte oli mitte jääda kinni raamidesse. See tähendab, et ettevõtte finantsseisu ennustamiseks ei pea sugugi kasutama vaid finantsnäitajaid ja muid traditsioonilisi mõõdikuid.
Selle asemel võeti firmade andmete hulka näiteks omanike ja juhatuse liikmed ning nendega seotud muutused ja võrgustikud. Teadupärast on mõningaid juhatuste liikmeid, kelle juhtimise alla sattunud ettevõtted mõnda aega pärast juhatuse koosseisu muutust maksuvõlgadesse satuvad või pankrotistuvad. Kui sellised seosed andmetesse lisada, näeb arvuti seoseid mustrites ning võtab seda tulevikus krediidiskoori loomisel arvesse.
Muidugi ei saa tavapäraste kriteeriumite kasutamisest siiski ümber. Näiteks on endiselt olulised aastaaruanded kui ka maksu- ja tolliameti avaldatavad andmed maksuvõlgade kohta. Teisalt – kui olulised need on ja kui sageli tähendab näiteks maksuvõla tekkimine hilisemat pankrotti? Ning milliste mustritega koosmõjus riskid suurimaks osutuvad? Sellistele küsimustele vastuse leidmine jäi juba arvutile.
Treenimise sisendandmetena võeti kasutusele ajavahemikus 2015 kuni 05.2017 registris olnud ettevõtted, mis olid loodud enne seda vahemikku – kuna neil puudub ajalugu, millest mudeli loomisel kasu oleks. Firmad jaotati sündmuste alusel kahte gruppi: pankrotistumine või kustutamine loeti negatiivseks sündmuseks ning kui seda ei juhtunud ehk firma tegevus lihtsalt jätkus, oli tegu positiivse sündmusega. Pärast andmete mõningast puhastamist ja korrastamist jäi valikule 208 757 ettevõtet, millest umbes 18 000 olid negatiivsed ehk pankrotti läinud või kustutatud ning 190 000 positiivsed näited.
Infot ettevõtete kohta sokutati mudelisse samuti hulgaliselt: alates maksehäireregistrites leiduvast infost ja töötajate arvust ning neile makstud palkadest kuni juriidilise isiku vormi, vanuse, võlgade info ning juhatuse vahetuste ja deklaratsioonide esitamiseni välja. (Vahemärkusena olgu öeldud, et suur osa nendest andmetest uuenevad juba töös olevas krediidiskoori mudelis sisuliselt reaalajas.)
Kokku loodi 13 mudeli: neist 12 abil lasti arvutil leida andmetest seoseid firmade tegevusmustrite ja kustutamise või pankrotistumise vahel kindlaks määratud ajavahemikel enne taolise sündmuse juhtumist. Viimase ehk 13. mudeli sisenditeks võeti aga teiste väljundandmed, et leida tõenäosus negatiivse sündmuse juhtumiseks ühe aasta jooksu.
Loodud krediidiskoori täpsus on üle 99 protsendi
Kandes loodud mudelisse suvalise ettevõtte andmed, oligi seejärel võimalik ennustada, kui suur on tõenäosus, et firma järgmise 12 kuu jooksul pankrotti läheb või kustutatakse. Äriportaalide kasutajate jaoks on see tõenäosus aga juba teisendatud viiepalliskooriks: alates esimesest ehk usaldusväärsest firmast kuni viienda ehk juba riskantse ettevõtteni.
Muidugi tuleb saadud algoritmide efektiivsust ka testida ning selleks lasti neist läbi Register OÜ hilisemate ajaperioodide andmed ning lisaks võrreldi mudeli väljastatud skoore ettevõtte krediidispetsialistide antud skooridega. Selgus, et mudeli täpsuseks oli ligikaudu 99 protsenti ning korrelatsioon oli tugev spetsialistide poolt üksikutele ettevõtetele antud hinnangute ja mudeli tulemuste vahelgi.
Muidugi ei olnud täpsus täielik ja tulemused polnud ideaalselt täpsed. Põhjuseid selleks on erinevad, näiteks polnud treeningandmetes värskelt loodud ettevõtteid, mis omakorda tähendab töötava mudeli puhul neile madalamat krediidiskoori, kui see võib-olla muidu olla võiks. Muidugi on see mõneti reaalse eluga kooskõlas, sest ajaloota ettevõtete potentsiaalne risk ongi kõrgem. Teisalt on krediidihinnanguid andvad spetsialistidki inimesed ning seetõttu võivad oma osa mängida ka inimlikud eksimused – masinõppe mudel võib olla inimeste antud hinnangutest isegi täpsem.
Praeguseks on krediidiskoori mudelit juba veelgi täiustatud, mis tähendav äriinfo otsijale üht: teaduspõhine krediidiskoor koondab ettevõtete taustainfo vaid ühte lihtsasti hoomatavasse numbrisse ning hindab maksejõulisust ja rahade laekumise tõenäosust järgneva aasta jooksul 99,5 protsendilise tõenäosusega.