Исследователи из Германии разработали модели машинного обучения, способные распознавать эмоции в коротких голосовых фрагментах продолжительностью всего 1,5 секунды с точностью, сравнимой с человеческой.В новом исследовании, опубликованном в журнале Frontiers in Psychology, ученые сравнили три типа моделей: глубокие нейронные сети (DNN), сверточные нейронные сети (CNN) и гибридную модель (C-DNN).Модели обучались на немецких и канадских наборах данных с бессмысленными предложениями, произнесенными актерами с разными эмоциональными оттенками, чтобы исключить влияние языка и смысла на распознавание."Наши модели достигли точности, аналогичной человеческой, при классификации эмоциональных предложений, произнесенных актерами", — заявил ведущий автор Ханнес Димерлинг (Hannes Diemerling) из Института человеческого развития Макса Планка (Max Planck).Исследователи обнаружили, что DNN и гибридная C-DNN, комбинирующая аудио и визуальные данные, работают лучше, чем CNN с использованием только спектрограмм.
В целом все модели превзошли случайные догадки в точности распознавания эмоций.По словам Димерлинга, тот факт, что люди и модели ИИ показали сопоставимые результаты, может означать, что они опираются на схожие закономерности в звуке для выявления эмоционального подтекста.Ученые отметили, что подобные системы могут найти применение в областях, требующих интерпретации эмоций, таких как терапия или технологии общения.
Вместе с тем необходимо дальнейшее изучение оптимальной продолжительности аудиофрагментов и анализ спонтанных эмоциональных проявлений.Источник: TechXplore
Читать на gagadget.com