Stability AI рассказала в блоге о релизе модели машинного обучения Stable Audio 2.0. После обновления нейросеть может генерировать музыкальные композиции длительностью до трёх минут в стерео и с частотой дискретизации 44,1 кГц.
Кроме того, пользователи могут загружать свои треки и изменять их с помощью промптов. Нововведения в Stable Audio: На выходе получаются треки с когерентной музыкальной структурой длительностью до трёх минут.
Это значит, что каждая композиция включает в себя вступление, основную тему, завершение и переходы между частями произведения.Нейросеть генерирует аудио с частотой дискретизации 44,1 кГц.Применяется эффект стерео для разделения частей композиции на правый и левый каналы.Кроме базовой функции генерации из текста в аудио появился новый режим.
Читать на habr.com