Наши клиенты
Малоизвестные ошибки систем распознавания лиц. Как с ними жить и как избежать.
Компании, которые используют или собираются использовать системы распознавания лиц, знают, что системы допускают ошибки.
Они могут не сопоставить известного пользователя – ложное отрицание, они могут неправильно связать разных пользователей – ложное срабатывание.
Подобные интерпретации возникают из-за многих факторов, например от свойств входных фотографий или даже от демографической группы распознаваемых лиц.
Основные проблемы систем распознавания лиц. Специалисты выделяют следующие основные проблемы:
Большинство изображений лиц собираются с помощью камер, которые не распознают лица. Это контрастирует с ситуацией с биометрическими данными по отпечаткам пальцев и радужной оболочке глаза, когда датчики позволяют точно определить тип изображения, которое следует собрать.
В итоге некоторые изображения включают два лица, возможно от кого-то на заднем плане или от рисунка футболки. Такие случаи могут подорвать узнаваемость.
Фотографии собираются без какой-либо оценки качества, полагаясь только на фотографа.
Оценка качества отделена от момента получения фото. Во многих случаях фотография собирается и позже отправляется на внутренний сервер, где она оценивается по качеству. Если обнаруживается низкое качество (человеческим или автоматическим способом), повторный сбор изображений лиц начинается через несколько часов или дней и с дополнительными расходами.
Плохое предъявление. Основные причины неудачи в распознавании возникают из-за того, что субъекты не демонстрируют прямое, нейтральное выражение лица, с открытыми глазами, без очков, их лица не находятся в правильном положении.
Доверие к повышению точности распознавания лиц. Алгоритмы распознавания лиц тщательно исследованы, а повышение точности подтверждено документально. Тем не менее нет подобных исследований в области улучшения качества изображения лица.
Автоматизированное и ручное распознавание лиц работают с разными типами изображений. Людям нужны фото с высоким разрешением, тогда как автоматизированные алгоритмы в основном построены на стандартизированных фронтальных видах с относительно низким разрешением.
Проблема 1. Оценка рисков ошибок
На рынке биометрии по лицу давно и прочно установился негласный стандарт оценки эталонного качества в виде тестов, проводимых Национальным институтом стандартов и технологий (NIST) при Министерстве торговли США. Это самый известный и независимый тест с закрытым дата-сетом. Практически все крупные производители систем распознавания в нем принимают участие и по праву гордятся своими результатами в нем. Алгоритмы теста проверяются на скорость и точность работы по нескольким разным фото-базам. Эти базы условно разделены по качеству лица на фото и имеют достаточно широкий разброс ошибок, в зависимости от набора данных.
Например, ошибки FNMR (false non-match rate) одного и того же алгоритма на базе VISA Photos и WILD Photos при одном и том же FMR (false match rate) могут различаться на порядки. На какой уровень ошибок тогда ориентироваться условному банку при оценке рисков оказания услуг, связанных с распознаванием лиц?
Проблема 2. Оценка точности на собственном дата-сете
Хорошо иметь многомиллионные дата-сеты для тестов. Но как быть компании, которая владеет своим набором данных? Как оценить работу конкретного алгоритма в конкретных условиях? Как понять, какой уровень ошибок здесь и сейчас? Добавим к этому понимание того, что качество алгоритма зависит от расы и демографических групп. Ответ прост: собрать свой тестовый набор данных, провести разметку и построить ROC-кривые. Но такая работа может занять не один месяц, при этом маловероятно, что размер базы фото позволит оперировать оценкой ошибок десять в минус шестой степени.
Общие рекомендации для владельцев систем распознавания
Ищите быстрые и много-платформенные системы оценки качества фото. Идеально, если оценка сразу даст прогноз по уровню ошибок сравнения. Тогда часть вышеописанных проблем и задач решится автоматически. Подобных систем на рынке немного, но они есть.
Отдавайте предпочтение производителям, которые предлагают встроенный механизм тестирования на собственных дата-сетах заказчика, а в идеале могут передать часть дата-сета для разбавления собственной базы фото. И да, вы опять будете удивлены, насколько немного таких предложений.
Не экономьте на фронтальных компонентах получения фото. Селфи клиента, снятое одним кадром, – не лучшая идея, если вы хотите работать с качественной базой.
Ошибки распознавания лиц неизбежны, но уровень этих ошибок можно прогнозировать и оптимизировать.
источник: https://www.secuteck.ru/articles
17.02.2023