Почти год Whisper от OpenAI удерживал лидерство среди открытых решений для распознавания речи, но теперь пальму первенства среди API сервисов перехватила новая модель Universal-1 от AssemblyAI.
Обученная на более чем 12,5 миллионах часов многоязычных аудиоданных, Universal-1 превосходит предыдущего лидера - Whisper от OpenAI, а также другие коммерческие решения по ключевым параметрам.В основе Universal-1 лежит архитектура Conformer RNN-T с 600 миллионами параметров.
Энкодер модели состоит из стека сверточных слоев для 4-кратного субдискретизации, позиционного кодирования и 24 слоев Conformer, использующих chunk-wise attention с размером чанка 8 секунд.
Читать на habr.com