РАСПОЗНАВАНИЕ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА В РЕАЛЬНОМ ВРЕМЕНИ.
Статья посвящена обзору наиболее известных средств (платформ) распознавания эмоционального состояния человека в режиме реального времени, которые получают изображение лица человека напрямую с веб-камеры, фото или изображений. Приведено сравнение основных возможностей всех рассмотренных средств распознавания. А также методика, при помощи которой возможно улучшить точность распознавания эмоционального состояния человека, основанная на захвате и обработке, помимо карты лица, информации о движении кистей рук человека при помощи контроллера LeapMotion.
Введение
При сегодняшнем уровне развитии информационных технологий все больше значение имеет человеко-компьютерное взаимодействие. С каждым днем информационные системы становятся в се более дружелюбными к человеку, они все проще в использовании, но, до сих пор, они не способны в полной мере распознавать эмоции человека. Эмоции играют важную роль в жизни человека, поэтому важно распознавать эмоции и использовать их. На сегодняшний день разработано огромное множество API и SDK для определения эмоций человека. Причем, источником для таких систем может быть не только видео ряд, но и текст, звуковые ряды, изображения. Несмотря на все разнообразие представленных средств, использование из по отдельности не даст достаточной точности в определении эмоционального состояния человека. Но, при комбинировании различных средств можно добиться значительного увеличения точности распознавания. В статье приведены наиболее известные средства распознавания эмоций по видео и изображениям, а также приведем метод, при помощи которого возможно увеличить точность распознавания. Она основывается на применении, в дополнении к средствам анализа видео и изображений, контроллера LeapMotion, который позволяет захватывать движение кистей рук человека с достаточно высокой точностью, что позволит, значительно увеличить точность распознавания текущего эмоционального состояния.
Обзор средств распознавания эмоций
Affectiva
Affectiva AI идентифицирует человеческое лицо в режиме реального времени. В качестве источника информации может выступать изображение или видео файл. Алгоритмы компьютерного зрения определяют ключевые ориентиры на лице - например, углы бровей, кончик носа, углы рта. В дальнейшем, алгоритмы глубокого обучения анализируют пиксели в этих регионах для классификации выражений лица. Комбинации этих выражений лица затем отображаются на эмоции. Affectiva AI способен определять 7 показателей эмоций: гнев, презрение, отвращение, страх, радость, печаль и удивление, а также 20 показателей выражений лица. В предоставляемых SDK и API имеются возможности по определению эмоции, пола, возраста, этнической принадлежности и ряда других показателей.
Kairos
В своей работе Kairos использует проприетарные алгоритмы машинного обучения. Благодаря этому технология Kairos способна определять все те же эмоции, что и технология Affectiva. Но, несмотря на это, Kairos имеет ряд ключевых особенностей, таких как: автокорректировка изображения при низкой освещенности, невосприимчивость к аксессуарам, таким как очки, алгоритмическое изучение лица человека с течением времени и адаптируемость к уникальным чертам и выражениям каждого человека. Для работы с видео и изображениями Kairos предлагает свой собственный SDK и облачный API (Cloud APIs).
Project Oxford by Microsoft.
Проект состоит из четырех групп самодостаточных облачных API: Face APIs, Computer Vision APIs, Speech APIs, Language Understanding Intelligent Services (LUIS). В набор служб Face APIs входят облачные алгоритмы обнаружения и распознавания человеческих лиц на фотографиях, а именно: Обнаружение границ лиц в виде описывающих прямоугольников с выделением дополнительных характеристик, вроде координат частей лица, положения головы, пола и эвристической оценки возраста; Широкий набор сервисов для распознавания, представляющих такие возможности как оценка схожести двух лиц, поиск похожих лиц на серии фотографий по заданному образцу, автоматическая группировка фотографий и идентификация (распознавание) людей на основе заранее подготовленной обучающей выборки.
EmoVu
Предоставляет новые методы, использующие Deep Learning, в которых используются сверточные нейронные сети (CNN). Методология распознавания выражений лица имитирует человеческое видение и позволяет алгоритму изучать прототипические выражения непосредственно с лица. Кроме того, методология вычисляет информацию о форме и текстуре, что приводит к беспрецедентной точности в вариантах неконтролируемой среды. Сложные ковариационные факторы, такие как изменения позы и освещения, смягчаются за счет использования надежного отслеживания лица, нормализации и синтеза положения и локальных дескрипторов признаков освещения. Разметка минимизируется с помощью строгой схемы классификации, состоящей из правил принятия решения / фильтрации, классификации и проверки.
Nviso
Специализируется на анализе эмоциональных видеоизображений, используя технологию 3D-обработки изображений лица для мониторинга множества различных точек и способна работать в самых сложных природных условиях. Технология nViso, полностью свободна от вмешательства человека и рассчитанная на работу в режиме реального времени, устойчива к плохому освещению, отсутствию фокусных изображений, окклюзии, а также размыванию движения в мобильных устройствах. Алгоритмы nViso захватывают сотни точек лица, отслеживая 43 лицевые мышцы в реальном времени. Полностью автоматизированная и не требует калибровки, специализированного лабораторного оборудования или экспертного персонала для работы.
Face Reader
Используется в академической сфере. API-интерфейс Face Reader основан на компьютерном обучении. API использует 500 ключевых лицевых точек для анализа 6 основных выражений лица, а также нейтральности. Face Reader также определяет направление взгляда и ориентацию головы.
Face Reader работает в три этапа[Face Reader, 2014]. Первым этапом является распознавание лица. FaceReader использует алгоритм Виолы-Джонса для обнаружения присутствия лица. Следующим этапом является точное моделирование лица с использованием алгоритмического подхода, основанного на методе Active Appearance. На последнем этапе модель обучается с помощью базы данных аннотированных изображений.
Sightcorp.
Sightcorp предоставляет свою собственную SDK CrowdSight[CrowdSight, 2017]. Это кроссплатформенная программная библиотека для автоматического семантического анализа людей в видео и изображениях. CrowdSight SDK может использоваться для автоматического анализа лиц в реальном времени с помощью простой веб-камеры и передачи полученной информации в стороннее приложение. В настоящее время CrowdSight SDK позволяет оценить местоположение глаз, позы головы, настроение, возраст, пол, цвета одежды, шесть общих выражений лица, внимание и этничность предметов. В дополнение к этому, CrowdSight SDK может использоваться для отслеживания и распознавания лиц в широком диапазоне условий съемки.
Методика улучшения точности распознавания эмоций
Для увеличения точности распознавания эмоций возможно использовать, помимо веб-камеры, контроллер Leap Motion[LeapMotion, 2017]. При помощи контроллера необходимо считывать динамику движения рук человека и, затем, сопоставлять полученную информацию с той, которая получена при помощи веб-камеры. Данная методика заключается в следующем: сперва происходит считывание карты лица человека и определение его эмоций, затем эта информация сопоставляется с данными полученным с помощью контроллера Leap Motion, что поможет подтвердить, либо опровергнуть те эмоции, которые человек проявляет в данный момент. Не всегда удается абсолютно точно определить, какую эмоцию проявляет человек в данный момент, так, например, широко открытые глаза могут говорить о том, что человек удивлен, либо напуган, возникает неопределенность. В этом и состоит преимущество использования контроллера Leap Motion совместно с веб-камерой. Если контроллер показывает, что у человека трясутся руки, то это с большой долей вероятности страх, если же они находятся в спокойном состоянии, то, скорее всего это удивление. В данном исследовании не рассматриваются случаи, в которых человек может быть болен чем-либо, что может сказываться на характере его жестов и мимики.
Для определения эмоций необходимо зафиксировать динамику движения рук человека, например, резкое изменение положения рук в пространстве будет означать испуг и, как следствие страх. Сопоставив эти данные с данными, полученными с веб-камеры, можно с уверенностью сказать, является ли данная эмоция страхом.
Рисунок 1 – Резкое изменение положение рук в пространстве при испуге.
На рисунке 1 изображен график изменения координат руки человека во времени. При испуге характерны резкие, кратковременные движения. Если сопоставить эти данные с данными полученными с веб-камеры, показывающей, что у человека сильно открыты глаза, то можно с уверенностью сказать, что этот человека, в данный момент, испытывает чувство страха.
Данный метод позволит, в целом позволит улучшить точность распознавания эмоций, в частности те эмоции, которые являются наиболее труднораспознаваемыми, такие как: страх, отвращение и злость.
Заключение
В рамках статьи был проведен обзор наиболее известных средств (платформ) распознавания эмоционального состояния человека в режиме реального времени, которые получают изображение лица человека напрямую с веб-камеры, фото или изображений. Приведено сравнение основных и наиболее ценных возможностей всех рассмотренных средств распознавания, все данные были приведены в таблице 1. А также методика, при помощи которой возможно улучшить точность распознавания эмоционального состояния человека, основанная на захвате и обработке, помимо карты лица, информации о движении кистей рук человека при помощи контроллера LeapMotion.