Mokslinių publikacijų duomenų srauto vystymas
Mokslinių publikacijų duomenų srauto vystymas
Iššūkio partneris
VTEX, UAB
Trumpai
Įmonė „VteX“ teikia sprendimus ir paslaugas mokslinės literatūros leidėjams. Moksliniai straipsniai įmonę pasiekia įvairiais formatais. Dokumentai gali būti parengti skirtingomis sistemomis (MS Word ar LaTeX), galimi įvairūs grafikos formatai ir paruošimo būdai, todėl su kiekviena publikacija pasiekia ir didelis kiekis nestruktūrizuotos informacijos. Norint šią informaciją efektyviai panaudoti, reikalinga inžinerinė duomenų sistema.
Iššūkis – sukurti duomenų inžinerijos srautą (pipeline) kuris padėtų efektyviai susisteminti ir išanalizuoti mokslinių publikacijų autorinę medžiagą.
Apie įmonę
UAB „VTeX“ teikia naujausiomis technologijomis grindžiamus sprendimus ir paslaugas mokslinės literatūros leidėjams, didžiausias dėmesį skiriant mokslo leidybos paslaugoms matematikos ir fizikos mokslų srityse. Tarp įmonės klientų – ne tik didžiosios mokslo leidybos kompanijos pasaulyje, bet ir Lietuvos mokslo leidyklos, daugiausiai universitetų mokslo bendruomenės.
Plačiau: https://vtex.lt/
Problema
Šiuo metu informacija apie autorinės medžiagos struktūrą nėra vertinama automatiškai. Pirminė autorinė medžiaga apdorojama pasitelkiant rankinį darbuotojų darbą, pvz. darbuotojai turi atskirti, kuris failas yra pagrindinis, atlikti pirminį grafikos apdorojimą, parinkti tolimesnius maketavimo ir redagavimo procesus. Darbuotojams padeda loginiais algoritmais grįsti įrankiai.
Šiuo metu autorių rankrasčiai apdorojami pasitelkiant euristinių taisyklių algoritmus ir rankinį darbą. Dauguma įrankių ir procedūrų parenkama nuosekliai dirbant su autorine medžiaga. Straipsnis apdorojamas nuoseklaus proceso metu, nežinant specifinių rankrasčio savybių. Todėl iš anksto gauti duomenys apie straipsnio unikalius požymius žymiai palengvintų mokslinio straipsnio tolimesnį apdorojimą
Galimas sprendimas
Informacija apie straipsnį gali būti nuo elementarių statistinių požymių iki įvairių natūralios kalbos apdorojimo (NLP) algoritmų sugeneruotos informacijos. Norimas sprendimas turėtų apjungti skirtingų požymių generavimą į vieną efektyvų srautą. Sugeneruotus duomenis galima analizuoti neprižiūrimo mašininio mokymosi algoritmais ir juos sugretinti su straipsnio apdorojimo procesais. Šiuo iššūkiu grįsite pamatus dinaminei kainodarai, duomenimis grįstam darbų skirstymui, įrankių parinkimui, ir procesų automatizavimui dirbtinio intelekto pagalba.
Kviečiami studentai
Iššūkyje dalyvauti galėtų įvairių sričių studentai, pavyzdžiui: duomenų mokslo, duomenų inžinerijos, taikomosios matematikos, dirbtinio intelekto, informacinių sistemų ar kitų tiksliųjų mokslų Pagrindiniai lūkęsčiai, jog studentai mokės naudotis bent viena, užduočiai pritaikoma, programavimo kalba ir turės noro bei ambicijų panaudoti savo kurybinius gebėjimus, bei praplėsti kompetencijų ribas.
Iššūkio metu suteiksime reguliarias konsultacijas, atgalinį ryšį ir pavyzdinius duomenis. Sėkmės atveju bus suteiktos galimybės tęsti darbus prie šio ar kitų įmonėje vykdomų projektų.