Dokumentų tipų automatinis grupavimas naudojant neuroninį tinklą

Iššūkio partneris
Linden

Trumpai

Linden duomenų bazėje yra apie 100000 neapdorotų dokumentų iš teismų sistemos, šis dokumentų kiekis nuolat auga (dokumentai yra pdf ir word formate, dokumentai yra su teismo suteiktais neretai klaidingais ir neinformatyviais pavadinimais, data ir sugrupuota pagal bylas, Pdf’ai dažnai su paveikslėliais vietoje teksto).

Tikslas: Sukurti neurotinklą unsupervised learning būdu, kuris “išrastų” grupavimą pagal dokumento tipą. T.y. (a) išrastų patį grupavimą/tipizavimą; (b) vėliau galėtų priskirti naujus dokumentus tipui/grupei/kategorijai. Žr. What is Unsupervised Learning – GeeksforGeeks

Apie įmonę

Linden advokatų bendrija yra sukūrusi ir jau 5 metus naudoja teisminio skolų išieškojimo proceso valdymo programinį įrankį, kuris leidžia kreditoriams greičiau atgauti įsiskolinimus dėl visų išieškojimo proceso grandžių automatizavimo (įrankis apima integracijas su teismų, Registrų centro ir antstolių elektroninėmis sistemomis). Įrankiu klientai naudojasi per paslaugų (pilno išieškojimo proceso valdymo iš mūsų pusės) arba nuomos modelius. Vienu metu administruojame tūkstančius bylų teismo ir vykdymo (anstolių) procese.

Poreikis

Sąvokos:

dokumentas – elektroninis dokumentas + jo metaduomenys (data ir teismo suteiktas pavadinimas). Dokumentai gaunami iš elektroninės teismų sistemos (EPP). Dokumentai gali būti docx arba pdf formatu, pasitaiko ir paveikslėlių jpg, png ir pan., bet tokie dokumentai sudaro labai mažą dalį, juos galima ignoruoti (nors idealiai būtų gerai traukti ir juos). Dokumento metaduomuo – teismo suteiktas pavadinimas – neinformatyvus ir neretai klaidingas.
byla – rinkinys chronologiškai surūšiuotų elektroninių dokumentų, priskirtų konkrečiai bylai.
bylos stadija – vadybinė kategorija, apibūdinanti proceso byloje eigą/stadiją, atsako į klausimą – kas šiuo metu vyksta byloje, pvz., “Laukiama ieškinio priėmimo”, “Laukiama teismo posėdžio”, “Rengiamas atsiliepimas į skolininko prieštaravimus” ir t.t.
bylos įvykis – reikšmingas įvykis byloje, informaciją apie kurį tikslinga įtraukti į bylos eigos santrauką bei informuoti mūsų atstovaujamą šalį byloje. Dažiausiai siejama su proceso perėjimu į kitą stadiją (pvz., įvykis “Gautas skolininko prieštaravimas” lemia bylos stadijos perėjimą iš “Laukiama skolininko prieštavimų” į “Rengiamas atsiliepimas į skolininko prieštaravimus”), bet gali būti ir be perėjimo (pvz., įvykis “Teismas nutarė įteikti dokumentus skolininkui viešo paskelbimo būdu” bylos stadijos nekeičia). Bylos įvykiai gali aktyvuoti automatinius veiksmus, pvz., įvykis “Teismo sprendimas įsiteisėjo” aktyvuoja automatinį veiksmą “pateikti teismui prašymą išduoti vykdomąjį dokumentą”.

Poreikis – automatizuotai analizuojant bylą atpažinti (naujus) bylos įvykius ir atitinkamai juos automatiškai sukurti.

Įgyvendinimo problemos:

Nėra žinomas baigtinis dokumentų tipų sąrašas (net apytiksliai), tam reikalinga tūkstančių dokumentų analizė – žmogui akivaizdžiai nerealistinė užduotis.
Neurotinklų (tiek LLM, tiek ir specializuotų ML modelių) išvestis visada yra tikimybinė, t.y. tikslus rezultatas negali būti garantuotas matematine prasme nepriklausomai nuo konkrečių technologijų. Bylų įvykiai yra komunikuojami mūsų klientams, o tam tikrais atvejais teismams automatiškai teikiami dokumentai (pagal fiksuotus šablonus). Todėl klaidų tolerancija yra itin maža – klaidos gali sukurti realias neigiamas pasekmes. Atitinkamai automatizuotiems veiksmams yra būtinas rezultato perpatikrinimas alternatyviu metodu. Tik jei abu metodai pateikia tą patį atsakymą, jį galima laikyti pakankamai patikimu.
Tiesioginė bylų analizė neurotinklais (“vienu žingsniu”) netinkama dėl (a) mažas tikslumas; (b) performance (kiekviena analizė “skaito” ir analizuoja visus dokumentus, itin didelė apkrova); (c) nėra perpatikrinimo alternatyviu metodu.

Galimas sprendimas

Galutinis sprendimas galėtų atrodyti taip:

Dokumentų klasifikatorius (ML modelis) priskiria naujam dokumentui tipą;
Bylos būsenos analizatorius pagal žinomą esamą bylos stadiją ir dokumentų (tipų) chronologinę seką pasiūlo (a) naują įvykį byloje (arba null, jei nieko reikšmingo neįvyko); ir (b) įvykiui reikšmingą dokumentą;
Atitinkamo dokumento tipo analizatorius išanalizuoja įvykiui reikšmingą dokumentą (formatą, teksto struktūrą, keywords) ir patvirtina arba paneigia Bylos būsenos analizatoriaus pasiūlytą įvykį. T.y. atlieka alternatyvų perpatikrinimą.

Siekiant bandyti įgyvendinti galutinį sprendimą reikalingas pirmas elementas – dokumentų klasifikatorius (ML modelis) ir galimų dokumentų tipų sąrašas (padengiantis >99% dokumentų).

LLM kaip dokumentų klasifikatoriaus naudojimas negalimas, nes: (a) per didelė dokumentų apimtis, ekonomiškai neprasminga pagal esamas kainas; (b) LLM kaip dokumentų klasifikatoriaus efektyvumas (tiek performance, tiek tikslumas) yra mažesnis nei specializuotų ML modelių; (c) nėra pramoninio sprendimo, kaip LLM naudoti unsupervised learning būdu, iš anksto nežinant tipų sąrašo; naudojant ciklu kaštai 100.000 dokumentų pirminiam apdorojimui būtų astronominiai.

Atitinkamai šiame etape sprendimas apimtų:

pirminis dokumentų apdorojimas (teksto/paveiksliukų nuskaitymas, galbūt OCR, duomenų paruošimas ML modeliui);
ML modelio apmokymas unsupervised learning būdu, dokumentų tipų sąrašo sudarymas;
Dokumentų tipų sąrašo perpatikrinimas (mes padarytumėme) įsitikinant, kad klasifikatoius priimtinas;
ML modelio papildomas apmokymas pagal koreguotą klasifikatorių (alternatyviai – naujo ML apmokymas naudojant pirmojo rezultatus);
ML modelio tikslumo testavimas.

Pirminis dokumentų apdorojimas priklausys nuo ML modelio įvesties, pvz., yra dokumentas – voko nuotrauka su atžyma ant jo, kad gavėjas neatsiėmė per pašto terminą – (paveiksliukas pdf ar docx viduje arba tiesiog paveiksliukas). Kaip teisingai perduoti duomenis ML, kad suklasifikuotų? T.y. apdorojant neprarasti duomenų, svarbių klasifikavimui

Pageidaujama sprendimo kalba c#, bet galima siūlyti ir kitus variantus.

Rezultatai:

techninis sprendimas pirminiam dokumentų apdorojimui;
dokumentų tipų sąrašas/klasifikatorius;
ML modelis klasifikavimui su žinomu (statistiniu) tikslumu.

REGISTRUOKIS