Corpus Albaruthenicum як частка міжнароднага праекта «BalticGrid-II»

У 2005 г. пачаўся міжнародны праект «BalticGrid» (www.baltiсgrid.org), мэтай якога была распрацоўка грыд-сеткі для краін Балтыі і ўсталяванне ўстойлівай е-інфраструктуры з мэтай выкарыстання ў розных навуковых даследаваннях Еўропы і далучэння яе да агульнаеўрапейскай е-інфраструктуры. З 2008 г. у межах 7-й Рамкавай праграмы Еўрапейскага саюзу ажыццяўлялася другая фаза гэтага праекта. Яго мэтай было пашырэнне і развіццё існай інфраструктуры і пераўтварэнне яе ў штодзённы інструмент працы для вучоных рэгіёна і па-за яго межамі. Пры гэтым поўнамаштабная рэалізацыя праекта прадугледжвала пашырэнне інфраструктуры «BalticGrid» на Беларусь з улікам патрэб новадалучаных беларускіх навуковых супольнасцей, якія займаюцца нанатэхналогіямі, машынабудаваннем і г.д.
Адным з кірункаў у праекце «ВаlticGrid-II» была распрацоўка лінгвістычных рэсурсаў для краін Балтыі і Беларусі. У прыватнасці, Літва (Вільнюскі універсітэт) і Беларусь (Беларускі нацыянальны тэхнічны універсітэт пры ўдзеле спецыялістаў з Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі) распрацоўвалі тэкставыя корпусы навуковай мовы, адпаведна літоўскай і беларускай.
Корпус беларускамоўных навуковых тэкстаў (Corpus Albaruthenicum) — першая спроба стварэння публічнага вузкаспецыяльнага корпусу, які мае на мэце распрацоўку даведачнай базы звестак для карыстання лінгвістамі, выкладчыкамі, студэнтамі і інш. Мэта праекта — прадастаўленне шырокай аўдыторыі беларускамоўных навуковых рэсурсаў.
Корпус адыгрывае важную ролю ў апрацоўцы натуральнай мовы і з’яўляецца значным рэсурсам для розных тыпаў адукацыйных праграм, праграм машыннага перакладу для правядзення лінгвістычных даследаванняў у галіне лексікаграфіі, а таксама для распрацоўкі тэрміналагічнай базы беларускай мовы. Параметры, адлюстраваныя ў корпусе, дадуць магчымасць выкарыстоўваць яго ў якасці анлайн-даведніка па лексіцы і граматыцы.
У практычным плане анатаваны пры дапамозе лексіка-граматычнай базы корпус дазволіць не толькі атрымаць інфармацыю пра ўласна тэкст (структуру, аўтара і г.д.), але і праводзіць рознаўзроўневы моўны аналіз (статыстычны, марфалагічны, стылістычны, семантычны і г.д.). У сферы лексікаграфіі пры стварэнні традыцыйных слоўнікаў рознага тыпу будзе забяспечана большая ступень аб’ектыўнасці ў падачы інфармацыі, што з’яўляецца праблемным для беларускай лексікаграфіі.
Корпус размечаны адпаведна сістэме кадзіравання тэкстаў TEI P5, у аснове якой ляжыць мова XML (www.tei-c.org). Схема разметкі корпусу ўтрымлівае наступныя характарыстыкі:
• агульная інфармацыя пра тэкст;
• базавая структурная анатацыя тэксту: главы, загалоўкі, змест тэксту да ўзроўню асобных слоў;
• граматычная інфармацыя.
Агульная інфармацыя пра тэкст складаецца з апісання структуры дакумента (апісанне файла, заяўленне загалоўка, выдання і аб’ёму, апісанне крыніцы і інш.), параметраў (паходжанне тэксту, мова, раскладка знакаў і інш.). Такім чынам, агульная інфармацыя змяшчае ўсе параметры тэксту, якому яна папярэднічае, а таксама выконвае шэраг важных функцый: фарміруе архітэктуру корпусу; дапамагае кантраляваць працэс яго інфармацыйнага напаўнення, ацэньваць прадстаўнічасць і збалансаванасць; забяспечвае магчымасць пошуку і адбору карыстальнікам для складання падкорпусаў з зададзенымі ўласцівасцямі.
Базавая структурная анатацыя ўключае выдзяленне структурных элементаў тэксту і падзяляецца на тры ўзроўні: узровень тэксту, узровень абзаца, узровень падабзаца. Першы ахоплівае пазначэнне змесціва тэксту, глаў, раз¬дзелаў і абзацаў. У другім пазначаюцца загалоўкі, трэці ўключае пазначэнне сказаў, слоў, пунктуацыйных знакаў.
Для граматычнай разметкі корпусу выкарыстоўваецца лексіка-граматычная база беларускай мовы, створаная ў Інстытуце мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі. Яна налічвае прыблізна 130 тыс. парадыгм, больш за 2 млн словаформаў.
На падставе лексіка-граматычнай базы вядзецца распрацоўка і ўдасканаленне аўтаматычнага аналізатара (парсэра), які дазволіць аўтаматызаваць, наколькі гэта магчыма, марфалагічны аналіз у тэкстах корпусу.
Марфалагічная разметка складаецца з некалькіх частак: пачатковай формы словаформы (пазначаецца як lemma) і граматычных прыкмет лексемы (часціна мовы, адушаўлёнасць і род для назоўнікаў, пераходнасць, трыванне для дзеяслова і г.д.), граматычныя прыкметы словаформы (напрыклад, склон, род, лік для назоўнікаў) ігнаруюцца.
На сённяшні дзень аб’ём корпусу складае каля 400 тыс. слоў са знятай аманіміяй і ўключае тэксты з розных галін мовазнаўства, літаратуразнаўства, эканомікі, фізікі, хіміі, генетыкі, медыцыны і г.д. Для яго быў распрацаваны анлайнавы сэрвіс, які прадастаўляе выбаркі інфармацыі з Корпусу. Утыліта дазваляе шукаць словы ў іх зыходнай форме (удрукаванай карыстальнікам), словы з іх словаформамі і камбінацыі слоў (уключна з іх словаформамі), выкарыстоўваючы лагічны аператар AND і ўлічваючы адлегласць паміж словамі. Пошук дазваляецца ў межах сказа, абзаца і ўсяго тэксту. Сэрвіс даступны па адрасе http://grid.bntu.by/corpus/.
У дадзены момант вядзецца праца па ўдасканаленні сэрвіса, будуць уключаны новыя магчымасці пошука:
• інфармацыі пра тэкст, у якім слова было знойдзена (аўтар, назва і г.д.);
• слоў паводле граматычных характарыстык;
• слоў з улікам аманіміі;
• па асобных тэкстах (з улікам іх жанравай прыналежнасці), аўтарах і г.д.;
• з улікам рэгістру (што важна пры аналізе ўласных імёнаў і абрэвіятур);
• з дапамогай лагічных аператараў OR, XOR, NOT;
• па рэгулярным выразе;
• у загалоўку () альбо ў звычайным абзацы ();
• у першым/апошнім сказе абзаца;
• у пачатку сказа;
• слоў у вызначаным парадку альбо ў адвольным.
У перспектыве анатаваныя корпусы будуць мець шырокае прымяненне ў сферы лексікаграфіі: выкарыстанне анатаваных корпусаў пры стварэнні традыцыйных слоўнікаў рознага тыпу (тлумачальных, граматычных, частотных і інш.) дасць магчымасць дасягнуць большай ступені аб’ектыўнасці ў падачы інфармацыі. Асабліва востра адсутнасць корпусу адчуваецца ў сувязі з патрэбай стварэння новага фундаментальнага тлумачальнага слоўніка беларускай мовы, працу над якім Інстытут мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі плануе пачаць з 2011 г. у рамках дзяржаўнай падпраграмы навуковых даследаванняў «Беларуская мова і літаратура ў кантэксце цывілізацыйнага развіцця Рэспублікі Беларусь: гісторыя, сучасны стан, тэндэнцыі». Базай для слоўніка паслужаць Корпус і Электронная лексіка-граматычная база беларускай мовы. Параметры новага слоўніка вымагаюць выпрацоўкі новых навукова абгрунтаваных прынцыпаў (пры фарміраванні рэестра, адборы ілюстрацый, распрацоўцы сістэмы памет і дэфініцый і г.д.).
На сённяшні дзень існуе некалькі корпусных праектаў: Вялікі корпус беларускай мовы, створаны выкладчыкамі Мінскага дзяржаўнага лінгвістычнага універсітэта сумесна з навуковымі супрацоўнікамі Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі, і корпус навуковых тэкстаў беларускай мовы Corpus Albaruthenicum, падрыхтаваны спецыялістамі Беларускага нацыя-нальнага тэхнічнага універсітэта разам з навукоўцамі гэтай жа акадэмічнай установы. У бліжэйшай перспектыве дадзеныя корпусы павінны быць аб’яднаны ў адзін, што стане асновай для будучага Нацыянальнага корпусу беларускай мовы. Яго стварэнне з’яўляецца ўнікальным інавацыйным праектам беларускага мовазнаўства, ажыццяўленне якога дазволіць выйсці беларускім вучоным на новы ўзровень лінгвістычных даследаванняў.