Системы распознавания голоса спроектированы сексистскими

Системы распознавания голоса являются сексистскими. Они с меньшим успехом умеют обрабатывать женские голоса в сравнении с мужскими.

Это не новая проблема, но она вновь была поднята в последнем посте в блоге Делипа Рао (Delip Rao), CEO и сооснователя R7 Speech Sciences, стартапа, который использует ИИ для обработки речи. И вместе с распространением голосовых помощников, таких, как Siri, Alexa или Google Home, важность этой проблемы только увеличивается.

«В речи мы измеряем значение фундаментальной частоты, которая коррелирует с нашим восприятием ‘тона’. Она также называется собственной частотой F0. Диапазон тонов, которые создает наш речевой аппарат, является функцией от распределения вокруг нее», — замечает Рао.

«Если у нас есть значение F0 для аудиозаписи, можно написать простой, основанный на правилах гендерный классификатор. Из множества источников известно, что значение F0 для мужчин составляет примерно 120 Гц, а для женщин значительно выше (~ 200 Гц)».

Рэйчел Татман (Rachael Tatman), аналитик в Kaggle и PhD в области лингвистики из Вашингтонского университета, считает, что причина такого положения дел далеко не только в отсутствии примеров женских голосов во время обучения нейронных сетей.

Это внутренняя техническая проблема, которая связана с тем, что у женщин обычно более высокие голоса. Женская речь также часто звучит тише и с придыханием.

Чтобы сопоставить аудиосигналы с отдельными словами или звуками, их обрабатывают и преобразуют в MFCC (Mel-frequency cepstral coefficients; мел-частотные кепстральные коэффициенты) — таков общий метод, используемый во многих моделях автоматического распознавания речи.

Татман сказала, что в методе MFCC нет ничего, что хуже подходило бы для моделирования женской речи по сравнению с мужской. Но «у женщин акустический сигнал немного менее сильный, он легче маскируется шумом, например, вентилятора или шумом улицы на заднем плане, и это затрудняет работу системы распознавания голоса. Это будет влиять на все, что вы используете для акустического моделирования и для чего используется MFCC».

Недостаток разнообразных обучающих примеров показывает, насколько системы ИИ могут быть усеяны ошибками производительности. Недавнее исследование обнаружило, что коммерческие системы распознавания лиц хуже справляются с идентификацией пола для женщин в сравнении с мужчинами и с распознаванием черных людей в сравнении с белыми.

Хотя системам распознавания речи трудно справляться с женскими голосами, проблема с гендерной ошибкой может еще более усугубиться, если системы будут обучаться на несбалансированных наборах данных.

«Глубокое обучение очень хорошо подходит, когда нужно, в частности, научить систему распознавать те вещи, множество которых она уже видела. И если вы будете обучать систему на данных, где будет 90% мужских атрибутов и 10% женских (что маловероятно, но возможно, особенно если вы не учитываете гендерную специфику в своих данных), в конце концов вы получите систему, которая будет очень хорошо определять мужские данные и очень плохо — женские. Тревожит то, что это относится и к таким вещам, как раса или этническая принадлежность, где нет такой причины, как в акустических данных, для худшего понимания одной из групп», — говорит Татман.

Многие системы распознания речи ориентированы только на западные акценты. «Вызовы реального мира очень существенны, — говорит Рао. — Представьте, что большое количество людей могут быть лишены доступа к продукту из-за их пола или этнической принадлежности. Говоря от себя, замечу, что я расстроен из-за того, что большинство систем распознавания речи работают ужасно с индийскими акцентами. Я бы хотел использовать голосовые интерфейсы, но в основном мне это недоступно.

Представьте теперь, если бы у меня было какое-то увечье, и я мог бы пользоваться только голосовым интерфейсом. Это не тот мир, в котором я бы хотел оказаться; не с нынешними голосовыми системами, по крайней мере. Также я представляю, насколько ограниченными они могут быть для женщин. Я думаю, мы, научное сообщество, должны сосредоточиться на том, чтобы сделать технические достижения в равной мере доступными для всех групп населения».

Katyanna Quach