Поиск
    Дата публикации новости 29 декабря 2025

    Исследование выявило предвзятость ИИ-моделей к диалектам

    Исследование выявило предвзятость ИИ-моделей к диалектам

    Крупные языковые модели предвзято относятся к носителям диалектов, приписывая им негативные стереотипы. К такому выводу пришли ученые из Германии и США, пишет DW. 

    «Я считаю, мы видим действительно шокирующие эпитеты, приписываемые носителям диалектов», — отметил один из ведущих авторов исследования Минь Дук Буй в комментарии изданию. 

    Анализ Университета имени Йоханнеса Гутенберга показал, что десять протестированных моделей, включая ChatGPT-5 mini и Llama 3.1, описывали носителей немецких диалектов (баварского, кельнского) как «необразованных», «работающих на фермах» и «склонных к гневу».

    Предвзятость усиливалась, когда ИИ явно указывали на диалект.

    Другие случаи 

    Аналогичные проблемы ученые фиксируют глобально. В исследовании Калифорнийского университета в Беркли от 2024 года сравнили ответы ChatGPT на различные диалекты английского (индийский, ирландский, нигерийский). 

    Выяснилось, что чат-бот отвечал на них с более выраженными стереотипами, унизительным содержанием и снисходительным тоном по сравнению с обращением на стандартном американском или британском английском. 

    Аспирант Корнеллского университета США в области информатики Эмма Харви назвала предвзятость в отношении диалектов «значимой и тревожной». 

    Летом 2025 года она и ее коллеги также выявили, что ИИ-ассистент для покупок Amazon Rufus давал расплывчатые или даже неверные ответы людям, пишущим на афроамериканском диалекте английского. Если в запросах были ошибки, модель отвечала грубо. 

    Еще один наглядный пример предубеждений нейросетей — ситуация с соискателем из Индии, который обратился к ChatGPT для проверки резюме на английском. В итоге чат-бот изменил его фамилию на ту, что ассоциируется с более высокой кастой. 

    «Массовое внедрение языковых моделей грозит не просто консервацией укоренившихся предубеждений, а их масштабным усилением. Вместо того, чтобы нивелировать вред, технологии рискуют придать ему системный характер», — сказала Харви.

    Однако кризис не ограничивается предвзятостью — некоторые модели просто не распознают диалекты. Например, в июле ИИ-ассистент городского совета Дерби (Англия) не смог распознать диалект радиоведущей, когда та использовала в прямом эфире слова вроде mardy («нытик») и duck («дорогуша»). 

    Что делать? 

    Проблема заключается не в самих ИИ-моделях, а скорее в том, как они обучаются. Чат-боты читают гигантские объемы текстов из интернета, на основе которых потом дают ответы. 

    «Главный вопрос — кто пишет этот текст. Если в нем есть предубеждения против носителей диалектов, ИИ их скопирует», — пояснила Каролин Хольтерманн из Гамбургского университета.

    При этом она подчеркнула, что у технологии есть преимущество: 

    «В отличие от людей, у ИИ-системы предвзятость можно найти и „выключить“. Мы можем активно бороться с такими проявлениями».

    Некоторые ученые предлагают в качестве преимущества создавать кастомизированные модели под конкретные диалекты. В августе 2024 года компания Acree AI уже представила модель Arcee-Meraj, которая работает с несколькими арабскими диалектами. 

    По словам Хольтерманн, появление новых и более адаптированных LLM позволяет рассматривать ИИ «не как врага диалектов, а как несовершенный инструмент, который может совершенствоваться».

    Напомним, журналисты The Economist предупредили о рисках ИИ-игрушек для детской психики. 

    Темная эра ИИ: почему этика искусственного интеллекта важна