Dokumentų tipų automatinis grupavimas naudojant neuroninį tinklą
Dokumentų tipų automatinis grupavimas naudojant neuroninį tinklą
Iššūkio partneris
Linden

Trumpai
Linden duomenų bazėje yra apie 100000 neapdorotų dokumentų iš teismų sistemos, šis dokumentų kiekis nuolat auga (dokumentai yra pdf ir word formate, dokumentai yra su teismo suteiktais neretai klaidingais ir neinformatyviais pavadinimais, data ir sugrupuota pagal bylas, Pdf’ai dažnai su paveikslėliais vietoje teksto).
Tikslas: Sukurti neurotinklą unsupervised learning būdu, kuris “išrastų” grupavimą pagal dokumento tipą. T.y. (a) išrastų patį grupavimą/tipizavimą; (b) vėliau galėtų priskirti naujus dokumentus tipui/grupei/kategorijai. Žr. What is Unsupervised Learning – GeeksforGeeks
Apie įmonę
Linden advokatų bendrija yra sukūrusi ir jau 5 metus naudoja teisminio skolų išieškojimo proceso valdymo programinį įrankį, kuris leidžia kreditoriams greičiau atgauti įsiskolinimus dėl visų išieškojimo proceso grandžių automatizavimo (įrankis apima integracijas su teismų, Registrų centro ir antstolių elektroninėmis sistemomis). Įrankiu klientai naudojasi per paslaugų (pilno išieškojimo proceso valdymo iš mūsų pusės) arba nuomos modelius. Vienu metu administruojame tūkstančius bylų teismo ir vykdymo (anstolių) procese.
Poreikis
Sąvokos:
Poreikis – automatizuotai analizuojant bylą atpažinti (naujus) bylos įvykius ir atitinkamai juos automatiškai sukurti.
Įgyvendinimo problemos:
Galimas sprendimas
Galutinis sprendimas galėtų atrodyti taip:
Siekiant bandyti įgyvendinti galutinį sprendimą reikalingas pirmas elementas – dokumentų klasifikatorius (ML modelis) ir galimų dokumentų tipų sąrašas (padengiantis >99% dokumentų).
LLM kaip dokumentų klasifikatoriaus naudojimas negalimas, nes: (a) per didelė dokumentų apimtis, ekonomiškai neprasminga pagal esamas kainas; (b) LLM kaip dokumentų klasifikatoriaus efektyvumas (tiek performance, tiek tikslumas) yra mažesnis nei specializuotų ML modelių; (c) nėra pramoninio sprendimo, kaip LLM naudoti unsupervised learning būdu, iš anksto nežinant tipų sąrašo; naudojant ciklu kaštai 100.000 dokumentų pirminiam apdorojimui būtų astronominiai.
Atitinkamai šiame etape sprendimas apimtų:
Pirminis dokumentų apdorojimas priklausys nuo ML modelio įvesties, pvz., yra dokumentas – voko nuotrauka su atžyma ant jo, kad gavėjas neatsiėmė per pašto terminą – (paveiksliukas pdf ar docx viduje arba tiesiog paveiksliukas). Kaip teisingai perduoti duomenis ML, kad suklasifikuotų? T.y. apdorojant neprarasti duomenų, svarbių klasifikavimui
Pageidaujama sprendimo kalba c#, bet galima siūlyti ir kitus variantus.
Rezultatai: