Германия county Frontier технологии люди общество Психология и отношения Германия county Frontier
/ gagadget.com

Машинное обучение предсказывает эмоции по голосу за 1,5 секунды с человеческой точностью

Исследователи из Германии разработали модели машинного обучения, способные распознавать эмоции в коротких голосовых фрагментах продолжительностью всего 1,5 секунды с точностью, сравнимой с человеческой.В новом исследовании, опубликованном в журнале Frontiers in Psychology, ученые сравнили три типа моделей: глубокие нейронные сети (DNN), сверточные нейронные сети (CNN) и гибридную модель (C-DNN).Модели обучались на немецких и канадских наборах данных с бессмысленными предложениями, произнесенными актерами с разными эмоциональными оттенками, чтобы исключить влияние языка и смысла на распознавание."Наши модели достигли точности, аналогичной человеческой, при классификации эмоциональных предложений, произнесенных актерами", — заявил ведущий автор Ханнес Димерлинг (Hannes Diemerling) из Института человеческого развития Макса Планка (Max Planck).Исследователи обнаружили, что DNN и гибридная C-DNN, комбинирующая аудио и визуальные данные, работают лучше, чем CNN с использованием только спектрограмм.

В целом все модели превзошли случайные догадки в точности распознавания эмоций.По словам Димерлинга, тот факт, что люди и модели ИИ показали сопоставимые результаты, может означать, что они опираются на схожие закономерности в звуке для выявления эмоционального подтекста.Ученые отметили, что подобные системы могут найти применение в областях, требующих интерпретации эмоций, таких как терапия или технологии общения.

Вместе с тем необходимо дальнейшее изучение оптимальной продолжительности аудиофрагментов и анализ спонтанных эмоциональных проявлений.Источник: TechXplore

Читать на gagadget.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA