Прийоми обробки природних мов для корпусів текстів: підходи до калькуляції вірогідності послідовності лем

  • Моніка Порвол State University of Applied Sciences in Racibórz, Institute of Modern Language Studies

Анотація

Дослідження штучних надбудов для обробки природних мов (ОПМ) вимагає подолання низки проблем у багатьох напрямах традиційних досліджень, пов’язаних із комп’ютерними науками, формальною лінгвістикою, логікою, цифровою гуманітаристикою, етичними традиціями  тощо. Як напрям всередині комп’ютерних наук ОПМ вивчає взаємодію між мовами програмування та людськими (природними) мовами. Завдяки застосуванню машинних алгоритмів навчання  до  текстів (письмових і усних) утворюються такі системи, як машинний переклад (міжмовне  накладання з однієї мови на іншу), реферування документів (накладання довгого тексту та ско роченого відповідника), розпізнавання номінацій, інтелектуального уведення тексту і таке інше. Безсумнівно, технології ОПМ глибоко інкорпоровані у наше повсякдення. Наприклад, машинний  переклад (МП) вбудовано в соціальні мережі та Інтернет, віртуальні помічники (Сірі, Кортана,  Алекса тощо) розпізнають голос або диференціюють текст електронної пошти для відфіль тровування спаму. Однак мета цієї розвідки  — окреслити лінгвістичні й ОПМ методи та під ходи до обробки текстів. У зв’язку з цим розглядаються поняття N-грамних кластерів як один  із підходів до деталізації текстуальних даних у потоці певних послідовностей лем. Представле на в цій розвідці мовна N-грамна модель (що приписує вірогідність певним послідовностям лем  у текстових корпусах), базується на даних, отриманих за допомогою Sketch Engine, а також при кладах мовних даних, опрацьованих у бібілотечних пакетах природних мов мови програмування  Python. Питання обчислення вірогідностей послідовностей лексем вирішує очевидні труднощі:  виконання команд у різних системах потребує природних формулювань тексту. Відповідно, не обхідно мати вузол, який обчислює вірогідність тексту на виході. Опрацювавши інформацію про  частоту вживань мовних N-грам у текстах великого корпусу, можна передбачати наступне слово. Калькуляція окремих слововживань може мати свої недоліки, наприклад виникають проблеми  з обмеженнями збереження. Проте викладені в статті мовні моделі та окремі прийоми обчислень мають широкий спектр застосування, наприклад у машинному перекладі, реферуванні, лінійних діалогових системах тощо. Важливо зазначити, що ця розвідка є частиною тривалого  проєкту LADDER — мовний аналіз даних в епоху цифрових досліджень, який стосується параме трування даних2 і допомагає створити інтелектуальну систему міждисциплінарної інформації. 

Ключові слова: лінгвістика, oбробка природних мов, мовне моделювання, лексемізація, частот ність термінів, N-грамний кластер, N-грамна модель, Скетч Енджін, Python, бібілотечний пакет  природніх мов.

Завантаження

Дані завантаження ще не доступні.

Переглядів анотації: 36
Завантажень PDF: 14
Опубліковано
2021-09-18
Як цитувати
Порвол, М. (2021). Прийоми обробки природних мов для корпусів текстів: підходи до калькуляції вірогідності послідовності лем. Studia Philologica, (2), 6-13. https://doi.org/10.28925/2311-2425.2021.151
Розділ
Мовознавство