машинскоучење Archives - AI Платформа на Филозофскиот факултет, Скопје

Алгоритамската пристрасност е сериозен социо-технички предизвик кој произлегува од човечките предрасуди вградени во податоците за обука и во самиот дизајн на системите. Таа се манифестира кога алгоритмите за машинско учење статистички ги репродуцираат историските и структурните нееднаквости под превезот на математичка објективност што дава „илузија на неутралност“.

„Илузијата на неутралност“ кај вештачката интелигенција претставува погрешна перцепција дека алгоритмите, поради нивната математичка и логичка основа, се инхерентно објективни и ослободени од човечките предрасуди. Оваа верба во „непогрешливоста“ на автономните системи често се заснова на претпоставката дека пресметковните процеси, како деривати на математиката, се неутрални и автоматски способни да бидат праведни. Сепак, ова е само привид кој го замаглува фактот дека дизајнот и имплементацијата на ВИ се општествено обликувани и ги рефлектираат вредностите, приоритетите и пристрасностите на нивните создавачи.

Наместо да ја отстранат дискриминацијата, алгоритмите честопати ја кодираат и „перат“ (Bias Laundering), претворајќи ги длабоко политичките и социјалните одлуки во привид на објективни факти кои изгледаат природни и неизбежни. Како што истакнуваат критичарите, моделите не се ништо повеќе од „мислења вградени во математика“. Игнорирањето на овие вградени пристрасности под маската на неутралност води кон „алгоритамска опресија“, каде историските нееднаквости се засилуваат и проектираат во општеството преку системи кои изгледаат технички точни, но произведуваат социјално неправедни исходи.

Алгоритамската опресија е системски и инхерентен дел од функционирањето на современите информациски системи кои ги напојуваат пребарувачите и другите веб-апликации. Преку процесот на т.н. „софтверизација“ на дискриминацијата, постоечките општествени нееднаквости се кодираат и перпетуираат во нетранспарентни и интелектуално заштитени машини, а маргинализираните групи се подложени на автоматизирана опресија без реална можност за оспорување на одлуките.

Студии на случај

COMPAS (Correctional Offender Management Profiling for Alternative Sanctions)

Овој систем се користел во американското правосудство за предвидување на ризикот од рецидивизам (висок ризик за повторување на делото). Меѓутоа, студиите открија сериозна расна пристрасност каде црните обвинети биле означувани како „лажно позитивни“ со двојно поголема стапка од белите обвинети. Бидејќи алгоритмот е заштитен како трговска тајна, на обвинетите им е оневозможено да ја оспорат неговата логика, што го загрозува правото на праведен правен процес.

Amazon Rekognition

Во овој случај, Amazon мораше да ја повлече својата тајна алатка за регрутирање бидејќи систематски ги дискриминирала жените. Системот учел од историски успешни апликации (кои во технолошкиот сектор доминантно биле машки) и ги казнувал резимеата за вработување што вклучувале „женски“ карактеристики, како на пример, студирање на женски колеџи или учество во женски хобија. Дури и кога се отстрануваат директните индикатори за пол, вештачката интелигенција користи proxy варијабли кои сепак водат до пристрасни одлуки.

Комерцијалните системи за препознавање лица покажуваат драстични интерсекционални разлики во точноста. Истражувањата покажуваат дека системите имаат највисока стапка на грешки кај жените со потемна кожа, додека кај белите мажи грешката е минимална. Ова се должи на податочните збирки кои се во голем дел составени од субјекти со посветол тен како и недостатокот на диверзитет кај тимовите што ги развиваат.

Математичко претставување на праведноста (Fairness)

Математичкото претставување на праведноста во машинското учење е исклучително сложено прашање, бидејќи во академската заедница постојат повеќе од 20 различни математички дефиниции за овој концепт. Истражувачите нагласуваат дека праведноста не може да се сведе на еден концизен статистички или математички проблем, бидејќи различните дефиниции често се меѓусебно некомпатибилни. Овој технички предизвик е всушност обид за математичко моделирање на моралните интуиции, што го прави процесот подложен на вредносните претпоставки и политичките позиции на развивачите. Честопати, овие математички модели се обидуваат да ги претворат двосмисленоста и контекстот во објективно мерливи квантитети, што може да доведе до т.н. заблудата дека квантитативните мерки се инхерентно подобри и пообјективни од другите набљудувања.

Клучните математички пристапи се поделени на групна праведност (Group Fairness) и индивидуална праведност (Individual Fairness). Групната праведност се фокусира на еднаквоста на исходите за различни заштитени групи, често користејќи го „правилото 4/5“ (adverse impact ratio), каде стапката на успех за маргинализираната група не смее да биде пониска од 80% од стапката на доминантната група. Индивидуалната праведност, пак, налага сличните поединци да добиваат слични резултати од алгоритмот. Дополнително, се разликуваат дистрибутивна праведност, која ја мери праведноста на конечниот исход, и процедурална праведност, која се фокусира на етиката и транспарентноста на самиот процес на одлучување. Посовремените методи вклучуваат контрафактичка праведност (Counterfactual Fairness), која го тестира алгоритмот во „симулација“ со замислување свет во кој поединецот би припаѓал на друга демографска група за да се види дали предвидувањето на системот би се променило. Друга важна техника е multi-accuracy ревизијата, која гарантира дека системот постигнува добра прецизност не само на агрегатно ниво, туку и кај специфични интерсекционални потпопулации, како што се повозрасните жени од малцинските етнички групи. Преку овој пристап се овозможува квантифицирање на перформансите низ пресекот на расата, возраста и полот, идентификувајќи ги специфичните комбинации на вештачки неврони одговорни за пристрасните класификации.

Тензии и предизвици

Главниот предизвик е математичката неможност истовремено да се задоволат сите дефиниции за праведност во сите услови. Постои инхерентна некомпатибилност помеѓу калибрацијата на системот и балансирањето на стапките на лажно позитивни и лажно негативни резултати помеѓу групите. Поради ова, развивачите често се соочуваат со компромис (trade-off) помеѓу точноста на моделот и неговата праведност, каде што процесите на де-биасирање можат да ја намалат предвидливата моќ на системот.

Најексплицитниот компромис во машинското учење е оној помеѓу точноста (accuracy) и праведноста (fairness). Честопати, процесите на де-биасирање (отстранување на пристрасноста) на моделите можат да доведат до полошо обучени системи или да ја намалат нивната ефикасност во реална употреба. Постои тензија помеѓу стремежот ВИ системот да не биде сексистички и истовременото обезбедување на податочни збирки кои овозможуваат тој да биде ефективен за својата примарна намена. Ова значи дека оптимизацијата на еден параметар често доаѓа на трошок на друг, што во високоризични сектори како вработувањето или правосудството може да претставува сериозна етичка дилема. Изборот на специфична метрика за праведност е всушност вредносно-ориентирана одлука која рефлектира одредена политичка или социјална позиција на развивачите.

Друг клучен компромис се појавува во областа на документацијата и транспарентноста, поточно помеѓу информираноста и претпазливоста (judiciousness). Иако, за ревизија на пристрасноста е неопходна детална документација за податочните збирки , прекумерното откривање информации може да ја загрози приватноста на поединците чии податоци биле користени за обука или да им помогне на малициозни актери. Истражувачите во владината сфера исто така забележуваат постоење на компромис помеѓу минимизацијата на податоци (заради приватност) и потребата од собирање демографски податоци за да се извршат прецизни проценки за расни или родови диспаритети.

Во поширок социо-технички контекст, овие компромиси поставуваат прашања на одговорност. Научниците мораат да донесуваат одлуки за тоа колкава грешка е дозволена и кој тип на грешка е поприфатлив (на пр. лажно позитивни наспроти лажно негативни резултати во медицината), што директно зависи од проценката на потенцијалната штета врз луѓето. Крајниот предизвик за институциите е да одредат дали социјалните трошоци на овие алгоритамски компромиси се оправдани во однос на придобивките што ги нуди технологијата.

Tag: машинскоучење

Алгоритамската пристрасност и нејзините општествени ефекти

Студии на случај

Математичко претставување на праведноста (Fairness)

Тензии и предизвици