Јазични репрезентации и општествени импликации на обработка на природен јазик NLP (II дел)

Развојот на техниките за јазична репрезентација во NLP еволуира од сиболички модели, кои се базираат на строги правила и формални граматики кон статистичките и невралните модели кои користат големи количини податоци и машинско учење за да ја доловат контекстуалноста и динамичноста на јазикот. Преминот од симболичко кон невронско моделирање го поставува прашањето за филозофските импликации на тоа како машините „разбираат“ јазик и дали можат во целост да ја репрезентираат човечката свест и значење.

Клучни NLP задачи и нивни решенија

Обработката на природниот јазик (NLP) се реализира преку низа специфични задачи кои ја деконструираат комплексноста на јазикот во податоци погодни за компјутерска обработка. Основните задачи на NLP започнуваат со претпроцесирање на текстот за негова нормализација. Една од основните техники е токенизацијата, при што текстот се дели на помали единици, како зборови или реченици, за полесна понатамошна анализа. Потоа следуваат лематизацијата и стемингот, кои служат за редуцирање на зборовите до нивната основна или коренска форма за да се намали варијабилноста во јазикот. Означувањето на делови од говорот (POS tagging) претставува процес на етикетирање на секој збор според неговата граматичка категорија, како што се именка, глагол или придавка за да се разбере синтаксичката структура на речениците. Препознавањето на именувани ентитети (NER) овозможува идентификување и класифицирање на клучни поими во текстот, како имиња на личности, локации и организации.

Посложените задачи се фокусираат на разбирање на намерата и контекстот. Ова вклучува препознавање на намерите (intent recognition), следење на состојбата на дијалогот и управување со контекстот низ повеќе сесии на разговор. Современите системи користат напредни техники како векторизација на зборови (Word Embedding), кои ги претвораат зборовите во математички вектори во повеќедимензионален простор, овозможувајќи му на системот да ги пресметува семантичките сличности меѓу поимите. Архитектурите засновани на Трансформери со механизмите за „внимание“ (attention) овозможуваат паралелна обработка на податоците и подобро разбирање на долгорочните зависности во текстот.

Синтаксичка анализа (Парсирање)

Синтаксичката анализа се фокусира на идентификација на структурата на реченицата и граматичките односи помеѓу зборовите. Современите алатки овозможуваат препознавање на делови од говорот и зависно парсирање, што помага во разбирањето на логиката на изразот. Сепак, традиционалната симболичка ВИ често се соочува со проблемот на „кршливост“ (brittleness), бидејќи крутите граматички правила често не можат да го опфатат „здравиот разум“ или неформалниот говор кој излегува надвор од нивниот ограничен домен.

Семантичка анализа

Втората клучна задача, семантичката анализа се стреми да го долови значењето на зборовите преку техники како векторизација (Word Embedding), каде зборовите се претставуваат како математички точки во повеќедимензионален простор. На овој начин системите препознаат синонимија и контекстуална сличност. Семантичките модели често автоматски ги преземаат човечките пристрасности од податоците за обука, како што се родовите стереотипи (на пр. поврзување на одредени професии со машки или женски род). Постои јасна разлика помеѓу денотативното (површинско) и конотативното (симболичко) значење, кое често останува недостапно за машините поради недостаток на социјален контекст.

Прагматика и контекстуална употреба

Прагматиката се занимава со тоа како значењето се менува во зависност од ситуацијата и намерата на говорникот. Таа е важна при разбирањето на „поправката“ (repair) на недоразбирањата во разговорите, каде истражувањата покажуваат дека постојат родови разлики. На пример, жените често вложуваат повеќе труд во одржувањето на конверзацијата и поправањето на недоразбирањата во мешани групи. Ваквото сведувањето на сложените социјални интеракции на едноставни „планови“ или алгоритми може да претставува обид за алгоритамска контрола врз социјалниот поредок.

Генерирање на природен јазик (NLG)

Генерирањето на јазик се однесува на способноста на системите, како што се Трансформерите (на пр. GPT-3), да создаваат кохерентен текст преку статистичко предвидување на следниот збор. Иако овие системи симулираат „човечко“ однесување, постои суштинска интерпретативна асиметрија. Додека луѓето ги поврзуваат зборовите со реалниот физички и социјален свет, машините само трансформираат низи од битови без реално разбирање на поимите како „болка“ или „емпатија“. Што значи дека генерираната содржина, иако граматички точна, може да биде фактички неточна или да рефлектира вградени историски предрасуди.

Родова и критичка анализа на NLP системите

Анализата на системите за обработка на природен јазик (NLP) открива дека овие технологии функционираат како социо – технички системи кои ги впишуваат вредностите, претпоставките и пристрасностите на своите креатори. Пристрасноста кај ВИ се појавува кога наизглед инокултното програмирање ги презема предрасудите на создавачите или на податоците со кои се храни, со што родовите односи на моќ се вградени во самиот технолошки развој.

Механизмите на пристрасност во NLP системите се најочигледни кај јазичните вградувања (word embeddings), кои ги претставуваат зборовите како математички вектори во повеќедимензионален простор. Овие модели автоматски ги учат и квантифицираат родовите стереотипи од текст – корпусите, репродуцирајќи асоцијации каде мажот се поврзува со професии како „програмер“, а жената со „домаќинка“. Дури и кај најнапредните генеративни системи често ги засилуваат социјалните пристрасности, при што женските ликови во генерираните приказни се почесто се поврзуваат со семејството и изгледот и се опишуваат како помалку моќни во споредба со машките ликови.

Од перспектива на феминистичката лингвистика, јазикот не е само средство за комуникација, преку него се конституира и одржува општествената моќ. Формализацијата на јазикот кај ВИ често води кон маргинализација на „женските начини на знаење“ (како што е искуственото знаење поврзано со грижата), фаворизирајќи го пропозиционалното знаење како супериорно и „рационално“. Овој процес на „феминизација на ВИ“ е видлив кај виртуелните асистенти како Alexa, Siri и Cortana, кои стандардно користат женски имиња и гласови за да проектираат „послушни личности“, со што се нормализира дигиталната послушност и се зацврстуваат традиционалните родови стереотипи за жената како верна помошничка.

Интерсекционалната аналитичка рамка е клучна за разбирање зошто грешките кај NLP системите не се рамномерно распределени низ популацијата. Истражувањата покажуваат дека пристрасноста најмногу ги погодува оние кои се наоѓаат на пресекот на повеќе маргинализирани идентитети, како што се жените од расни малцинства. Оваа „алгоритамска опресија“ потврдува дека нееднаквоста е вградена во самите модели и во целокупната инфраструктура и екосистем на производство на ВИ технологиите.