Инженеры Пенсильванского университета разработали SmartDJ — редактор на основе искусственного интеллекта, позволяющий пользователям изменять иммерсивные звуковые среды с помощью простых инструкций на понятном языке. Он может найти применение в виртуальной реальности, дополненной реальности, играх и звуковом дизайне. Вместо того чтобы требовать от
пользователей указания отдельных параметров редактирования, SmartDJ может реагировать на запросы высокого уровня, например, «сделать так, чтобы это звучало как оживленный офис», а затем планировать и выполнять необходимые шаги для достижения этого результата. Система устраняет два основных недостатка более ранних инструментов редактирования аудио с использованием ИИ.
Во-первых, большинство предыдущих систем лучше всего работали с жесткими, шаблонными командами, требуя от пользователей идентификации звуков для добавления или удаления. Во-вторых, эти инструменты, как правило, работали с одноканальным или «моно» аудио, теряя пространственные нюансы, необходимые для полного погружения в звук. SmartDJ, напротив, способен интерпретировать
инструкции высокого уровня и предназначен для стереофонического звука, что позволяет ему вносить изменения, которые лучше сохраняют или изменяют пространственную структуру сцены. Более того, система является интерпретируемой: пользователи могут видеть каждый шаг, который предпринимает SmartDJ. Например, запрос типа «сделайте так, чтобы это звучало как оживленный офис» может привести к тому,
что SmartDJ сгенерирует инструкцию типа «Добавьте звук звонка телефона справа на 3 дБ». Затем пользователи могут изменять, удалять или добавлять отдельные шаги, обеспечивая больший контроль над конечным результатом. «С помощью SmartDJ пользователи могут описать желаемый результат на естественном языке, а система сама определит, как этого добиться», — говорит Минмин Чжао, доцент кафедры
компьютерных и информационных наук (CIS). «Мы показываем, что ИИ может помочь людям редактировать аудио интуитивно понятным способом, используя простой язык». Чжао является ведущим автором исследования, представленного на этой неделе на Международной конференции по изучению представлений ( ICLR 2026 ), проходившей в Рио-де-Жанейро. Статья также доступна на сервере препринтов arXiv. Сочетание языковых и диффузионных моделей
Одна из главных проблем редактирования аудио с помощью ИИ заключается в том, что понимание запроса пользователя и генерация звуков обычно обрабатываются различными типами систем ИИ. «Мы используем языковые модели для работы с текстом», — говорит Цзитун Лан, аспирант кафедры электротехники и системотехники (ESE) и
первый автор исследования. «Кроме того, мы используем модели диффузии для редактирования звуков». Разница сводится к тому, чему каждая система была обучена. Языковые модели — та же технология, которая лежит в основе чат-ботов — изучают закономерности в словах, помогая им интерпретировать смысл, который вкладывают пользователи, и генерировать текст в ответ. Диффузионные модели, напротив, предназначены для создания
медиаконтента путем постепенного преобразования шума в связный сигнал. Чтобы преодолеть этот разрыв, команда внедрила в процесс редактирования аудиоязыковую модель (ALM). Обученная как на звуке, так и на тексте, ALM анализирует исходный аудиоматериал вместе с запросом пользователя, а затем
разбивает этот запрос на последовательность более мелких действий редактирования, таких как добавление, удаление или изменение положения звука. Затем модель диффузии выполняет эти действия шаг за шагом, позволяя SmartDJ как интерпретировать язык, так и редактировать аудио. По сути, языковая модель выступает в роли продюсера, определяя, как должно меняться звуковое оформление, в то время как модель диффузии действует как студийный музыкант, воплощая эти указания в аудио.
«Языковая модель задает системе направление», — говорит Идуо Хао, аспирант CIS и соавтор исследования. «Модель диффузии выполняет эти указания». Обучение SmartDJ Чтобы научиться преобразовывать общие запросы пользователей в пошаговые аудиоредактирования, SmartDJ
потребовались примеры, которые объединяли бы сразу три вещи: общую инструкцию, последовательность действий по редактированию, необходимых для ее выполнения, и аудио до и после каждого изменения. К сожалению, таких обучающих данных не существовало. «Для решения этой проблемы требовался совершенно необычный набор данных, — говорит Лан. — Он должен был одновременно отражать цель, этапы и результат». Поэтому команда
разработала его самостоятельно. Опираясь на общедоступные звуковые библиотеки, исследователи создали конвейер, который использовал большую языковую модель для генерации высокоуровневых подсказок для редактирования и промежуточных шагов, необходимых для их выполнения, в то время как обработка аудиосигнала производила
соответствующие отредактированные выходные данные. «Для того чтобы это работало, мы не могли просто показать модели входные и выходные данные, — говорит Хао. — Мы должны были показать ей цепочку рассуждений между ними». К более доступному редактированию аудио Для проверки SmartDJ исследователи сравнили его с более ранними системами
редактирования звука и обнаружили, что он выдает более реалистичные и лучше согласованные результаты. Как в количественных оценках, так и в исследованиях с участием людей, SmartDJ превзошел предыдущие методы по таким показателям, как качество звука, соответствие результатов инструкциям пользователя и
реалистичность размещения звуков в пространстве. Исследователи видят потенциальные области применения в виртуальной реальности, дополненной реальности, играх, звуковом дизайне, виртуальных конференциях и других формах интерактивных медиа, где пользователи могут захотеть изменить звуковую среду, не указывая вручную каждое отдельное изменение. В конечном итоге, цель исследователей — сделать редактирование аудио более доступным, позволив любому человеку с творческим видением редактировать
звуковые ландшафты. «Для других медиа, таких как текст и изображения, пользователи уже могут использовать ИИ для выполнения запросов на высокоуровневое редактирование», — говорит Чжао. «SmartDJ открывает аналогичные возможности для аудио, упрощая для большего числа людей воплощение своих идей в жизнь».
Сообщает android-robot.com
Новость из рубрики: Технологии и Hi-Tech
Поделиться новостью:
Топ Новости Недели
- СПАС - гармония здоровья и эстетики улыбки...
- Доставка мебели из Китая...
- Отличный производитель сэндвич панелей - Компания МОСПАНЕЛИ...
- Летние шины 225/65 R17 - уверенность на каждом километре...
- Канализационные трубы ПВХ и фитинги...
- Ремонт промышленной электроники с компанией X Plata в Москве...
- Регистрация товарного знака в Казахстане с BROCS...
- Доставка экзотических фруктов из Таиланда с FRUITIQUE в Москве...
- Нетканый геотекстиль: невидимая основа долговечных решений...
- Aurus Residences - высота статуса в сердце Москва Сити...
- Качество Семяныча как ответ на неопределённость рынка...
- Искусство сияния: браслеты с драгоценными камнями...
- Погружение в мир Lineage 2: серверы, которые удивляют...
- Антигравийная пленка для авто в Минске...
- Переезд в другой город из Москвы без стресса и лишних забот...
- VIP Neva - комфортный трансфер и бизнес-такси в сердце Северной столицы...
- Инструмент - важнейший помощник...
- Доходность гостиничного бизнеса...
- Искусство цифрового роста - создание и продвижение сайтов с SEORA...
- Компрессоры ЗИФ от ОАО МЗ "Арсенал"...
12:17, 27 Янв Google наконец-то позволяет пользователям заменять неудобные адреса Gmail без потери данных Google наконец-то откликнулся на просьбы пользователей, позволив пользователям Gmail заменить нелепые подростковые адреса электронной почты. Теперь в...
22:17, 03 Фев Как включить пространственное звучание на AirPods и какие модели наушников его поддерживают Прелесть беспроводных наушников Apple не только в их автономности и качестве звучания. В каждом эйрподсе находится полноценный микрокомпьютер, которы...
04:17, 10 Апр "Мне это даже нравится". Ведущая премии "Золотой глобус" Никки Глейзер рассказала, что разрешает своему бойфренду изменять ей Бессменная ведущая премии "Золотой глобус" и комикесса Никки Глейзер заявила на подкасте Call Her Daddy, что ей всё равно, если её возлюбленный, прод...
06:17, 22 Мар Microsoft возвращает пользователям контроль над обновлениями Windows 11 Изображение сгенерировано в Nano Banana В 2015 году Microsoft решила, что пользователи Windows больше не должны контролировать установку обновлений о...
10:17, 07 Апр Windows 11 даст пользователям ручные флаги функций Новая страница «Feature Flags» уже засветилась в свежих Insider-сборках Windows 11. По сути, это знакомая по Chrome логика, только перенесённая в Win...
06:17, 31 Мар Судьба Telegram решена: эксперт сказал, что делать пользователям В преддверии 1 апреля информационное пространство вновь всколыхнули слухи о тотальной блокировке Telegram. Появились сообщения о том, что Роскомнадзо...
22:17, 13 Фев 3D-печать с вращающимся соплом позволяет создавать мягких роботов Мягкие роботы, изготовленные из гибких, биосовместимых материалов, пользуются большим спросом в самых разных отраслях — от здравоохранения до произво...
19:17, 19 Фев Платформа 3D-печати позволяет быстро создавать сложные электрические машины Поломка двигателя в автоматизированном станке может парализовать производство на загруженном заводском цехе. Если инженеры не смогут найти запасную ч...
14:17, 15 Мар Новый чип позволяет роботам видеть в 4D, одновременно отслеживая расстояние и скорость Современные системы машинного зрения для роботов и дронов основаны на 3D-датчиках, которые, несмотря на свою мощность, не всегда успевают за быстрыми...
20:17, 20 Мар Samsung заплатит пользователям Galaxy S22 за то, что ограничивала производительность смартфонов в играх Многолетний спор вокруг Game Optimizing Service (GOS) в смартфонах серии Galaxy S22, похоже, официально завершён. Как сообщают корейские СМИ, Высокий...
01:17, 02 Мар Чем грозит пользователям Telegram возможное признание мессенджера экстремистской организацией Противостояние владельца Telegram с российскими властями продолжается. Несмотря на уже принятые Роскомнадзором меры по замедлению мессенджера, Павел ...
14:17, 05 Фев Как улучшить отношения в паре: 4 простых ежедневных ритуала Используйте этот чеклист как быструю самопроверку. Если большинство пунктов вы выполняете регулярно, отношения получают нужную эмоциональную подпитку...
09:17, 09 Апр Как сбросить роутер до заводских настроек: два простых способа Бывают ситуации, когда тщательно настроенный роутер приходится скидывать до параметров по умолчанию. Например, вы подключились к другому провайдеру и...
14:17, 27 Апр Как читать больше книг и не бросать: 5 простых лайфхаков Хочешь читать больше? Вот 5 лайфхаков для читающих Книги — одно из величайших удовольствий в жизни, и это хорошо известно каждому, кто когда-либо час...
08:17, 22 Фев 5 простых хитростей, которые упрощают стирку одежды Стирку одежды можно сделать гораздо проще и приятнее Казалось бы, что может быть проще стирки? Открыл стиралку, загрузил белье, нажал кнопку и забыл ...
19:17, 19 Фев Сверхбыстрый метод 3D-печати позволяет создавать сложные объекты менее чем за секунду Высокоскоростная 3D-печать стала намного быстрее. Исследователи из Университета Цинхуа в Китае разработали новую высокоскоростную технологию печати, ...
07:17, 17 Фев Почему пользователям не нравится iOS 26? Apple рассказала, сколько iPhone обновились на новую ОС Apple наконец раскрыла официальную статистику распространения iOS 26 и iPadOS 26. И цифры получились интересными. С одной стороны, обновление уже сто...
09:17, 13 Фев Почему флорариум запотевает и что с этим делать: простой гид без страшных слов Разбираемся, как ухаживать за флорариумом Флорариум — это декоративная экосистема в стеклянной емкости, где растения, воздух и вода создают собственн...
10:17, 24 Мар "Сняли со всех баннеров". Дмитрия Нагиева "отменяют" после слов об СВО Дмитрия Нагиева "отменяют" после его недавней публичной речи об СВО и состоянии российского кинематографа. По данным СМИ, с 58-летним актёром разрыва...
09:17, 21 Апр Командующий США выразил протест Сеулу из-за слов о ядерном объекте КНДР Публичное заявление южнокорейского министра о третьем ядерном объекте Пхеньяна в Кусоне вызвало резкое недовольство военного командования США из-за в...
18:17, 31 Мар Как определить версию телефона Xiaomi: четыре простых способа При покупке смартфона Xiaomi важно понимать, для какого региона он был изначально предназначен. Ведь от этого напрямую зависят не только локализация ...
12:17, 05 Фев Два простых правила: эксперт рассказал, как отличить обычный звонок от мошенника С сентября 2025 года все компании обязаны маркировать звонки и СМС, как вы знаете. На экране теперь видно, кто звонит — магазин, автосалон или другая...
16:17, 21 Фев Новый метод изготовления микросхем позволяет создавать «двойные» отпечатки пальцев для прямой аутентификации Подобно тому, как у каждого человека уникальные отпечатки пальцев, каждый CMOS-чип имеет свой неповторимый «отпечаток», обусловленный мельчайшими слу...
18:17, 18 Мар Депутата Андрея Свинцова исключили из ЛДПР из-за его слов о том, что "телеграм не будет работать даже с ВПН" Заместитель председателя комитета Госдумы по информполитике Андрей Свинцов лишился членства во фракции ЛДПР. Решение, по данным РБК, связано с его гр...
14:17, 19 Мар Сочетание данных умных часов и анализов крови позволяет более точно прогнозировать инсулинорезистентность и диабет По оценкам, примерно 20–40% населения страдают от инсулинорезистентности — состояния, при котором эффективность инсулина в организме снижается, а рег...
16:17, 13 Мар Epic Games Store дарит своим пользователям шутер Isonzo и симулятор жизни Cozy Grove В Epic Games Store проходит очередная бесплатная раздача. На этот раз можно бесплатно получить две игры: военный шутер про Первую мировую войну Isonz...
16:17, 24 Фев Ноутбуки Apple тяжело справляются с игрой Cronos: The New Dawn. Система на M4 вообще не позволяет нормально играть Современные ноутбуки Apple на платформах M4/M5 вполне неплохо справляются со многими играми. Однако, похоже, проекты на Unreal Engine 5, как минимум ...
18:17, 03 Фев Ученый предложил ограничить использование мата, "чтобы не потерять этот уникальный пласт слов" 2 февраля отмечался Всемирный день борьбы с ненормативной лексикой. В этот день научный сотрудник Института русского языка имени Виноградова Владимир...
15:17, 10 Мар "Это будет стоить ему "Оскара". Тимоти Шаламе "отменяют" из-за его слов о том, что "никому нет дела" до оперы и балета На днях 30-летний Тимоти Шаламе спровоцировал скандал, который, по мнению пользователей и коллег, может стоить ему победы на "Оскаре". Актёр неоднозн...
06:17, 02 Апр Коровки из магазина уже не те: варю "бабушкин сахар" - натуральный десерт за 30 минут из 4 простых ингредиентов pxhere.com Магазинные конфеты «Коровка» знакомы с детства, но их состав давно вызывает вопросы. Оказывается, приготовить такой же нежный молочный дес...
18:17, 17 Мар Ипотеки не нужны: как китайцы экономят деньги и покупают дорогие квартиры - 5 простых правил pxhere.com Китайцы умеют зарабатывать и копить. При этом недвижимость в Пекине или Шанхае стоит бешеных денег — небольшая квартира может тянуть на 40...
15:17, 10 Фев "Они читают и не понимают слов. Ломаются от любой трудности". Константин Богомолов назвал современных актёров "плюшевым поколением" Константин Богомолов, который недавно попал в скандал после назначения исполняющим обязанности ректора МХАТа, раскритиковал современных актёров.50-ле...
16:17, 15 Мар Стоят копейки, пользы на миллион: 5 простых, но гениальных идей для дачи - все соседи растащили себе мои "придумки" Фото сгенерировано Дачный сезон — время экспериментов. Но не всегда есть смысл тратить деньги на дорогие конструкции. Многие полезные вещи делаются и...
14:17, 16 Фев Чем подкормить жимолость весной? Использую 3 простых удобрения и собираю 4 кг ягод с куста — урожай вырос втрое commons.wikimedia.orgЖимолость не прощает любительского подхода. Магазинные смеси «для всех ягодных» чаще всего бесполезны, а то и вредны. Результат ...
01:17, 17 Фев Глейзеры были «в ужасе» от слов Рэтклиффа про мигрантов. Клуб сознательно пытался дистанцироваться от этих высказываний в своем заявлении (BBC) Стало известно, как Глейзеры отреагировали на слова Джима Рэтклиффа про мигрантов. Ранее совладелец « Манчестер Юнайтед » заявил: « Великобритания ко...
16:17, 26 Фев Рябыкин об отъезде Ларионова на ОИ: «Много громких слов – дошло до дипломатии и чуть ли не до шпионских романов. Не надо держать людей за дураков – о целях нужно говорить честно» Бывший тренер клубов FONBET КХЛ Дмитрий Рябыкин высказался о поездке главного тренера СКА Игоря Ларионова на финал олимпийского хоккейного турнира в ...
22:17, 18 Апр В России ускорили рекомендательные системы с помощью ИИ Исследователи Центра практического искусственного интеллекта Сбербанка вместе с коллегами из AIRI, Университета Иннополис и ИТМО нашли способ перенос...
20:17, 24 Апр В Новосибирске изучили древние черепа с помощью КТ В пресс-службе Новосибирского госуниверситета (НГУ) сообщили, что специалисты вуза провели компьютерную томографию (КТ) четырех черепов из археологич...
10:17, 19 Апр Как создать песню с помощью нейросети — бесплатно и за 5 минут Искусственный интеллект пишет стихи, рисует картины и придумывает сценарии — теперь очередь дошла до музыки. Сегодня любой желающий найдет, как сдела...
07:46, 27 Янв Виза в Тайвань с помощью визового центра Online Поездка в Тайвань привлекает сочетанием древних традиций, высоких технологий и удивительной природы. Чтобы путешествие началось без лишних волнений, ...
18:17, 12 Мар Россияне смогут отказаться от услуг, которые оказывают с помощью ИИ Минцифры России разработало законопроект, который закрепляет право граждан на отказ от обслуживания с применением искусственного интеллекта. В таких ...
00:17, 11 Фев Команда Гуменника пыталась подобрать музыку к программе с помощью ИИ Команда российского фигуриста Петра Гуменника использовала искусственный интеллект для подбора музыки к короткой программе мужского одиночного турнир...
22:17, 25 Мар Учёные ускорили движения робота в 30 раз с помощью квантового компьютера Исследователи из Центрального университета, Университета Иннополис и других институтов нашли способ в 30 раз быстрее рассчитывать оптимальные движени...
11:17, 09 Апр В России создали упаковку из углекислого газа с помощью бактерий В пресс-службе Тульского государственного университета (ТулГУ) сообщили, что ученые вуза разработали способ перерабатывать углекислый газ в биоразлаг...
18:17, 03 Фев Правозащитница Дуб: мошенники обманывают россиян с помощью «Тайного Санты» По словам эксперта, новую схему аферисты активно используют в соцсетях в преддверии Нового года, чтобы обманом вытянуть из людей деньги. Рассказываем...
21:17, 12 Апр Мирослава Дума представила платформу для создания одежды с помощью ИИ Мирослава Дума запустила модный проект, основанный на работе искусственного интеллекта. Генеральный директор инвестиционного фонда Future Tech Lab и ...
01:17, 26 Фев Как открыть карусель приложений на айфоне с помощью Action Button Кнопка Action Button на Айфоне штука классная, но только по словам Apple. Потому что на практике владельцы айфонов про нее вообще не вспоминают: уж л...
22:17, 18 Апр «Норникель» будет создавать сплавы с помощью ИИ в новом центре при МГУ В научно-технологической долине МГУ «Воробьёвы горы» открылся Центр палладиевых технологий «Норникеля». Главная задача — создавать новые материалы и ...
14:17, 04 Фев Apple представила Xcode 26.3 с поддержкой автономной разработки приложений с помощью ИИ В Xcode 26.3 появилась функция agentic coding, которая позволяет разработчикам использовать ИИ‑помощников, таких как Claude Agent от Anthropic и Code...
10:17, 15 Мар Как изменить фото с помощью ИИ: полный список нейросетей и готовые промпты Нейросеть — это алгоритм, обученный на миллионах изображений. Модель «видит» фотографию так же, как человек: распознаёт объекты, лица, фон, освещение...
12:17, 08 Мар Как сделать открытку к 8 Марта с помощью нейросети — легко, бесплатно и красиво На самом деле, все просто. Вы описываете словами, какую картинку хотите получить — и нейросеть её рисует. Вы пишете что-то вроде: «Нарисуй весе...
06:17, 14 Мар Более 50 тыс. нарушений чистоты устранили в Подмосковье с помощью ИИ с начала года "ИИ-контроль за чистотой во дворах ведется в Подмосковье с 2023 года. Задействовано около 80 тыс. камер, оборудованных искусственным интеллектом. За ...
10:17, 20 Фев Учёные нашли способ бороться с лунной пылью с помощью электричества Лунная пыль остаётся одной из главных проблем для долгосрочного пребывания человека на Луне. Её острая и липкая структура заставляет частицы прилипат...
10:17, 22 Мар Как снимать красивые селфи на камеру iPhone с помощью Apple Watch На Apple Watch есть встроенное приложение Camera Remote, которое превращает часы в пульт управления камерой iPhone. С его помощью можно снимать на ос...
10:17, 22 Мар Как управлять AirPods с помощью жестов: новые функции наушников Apple в iOS 26 С выходом iOS 26 у AirPods Pro накопилось больше десяти жестов и команд, привязанных к ножкам наушников. Часть из них знакома давно, но некоторые поя...
14:17, 20 Фев Google Play с помощью ИИ заблокировал 1,75 млн вредоносных приложений в 2025 году Компания Google сообщила, что в 2025 году с использованием искусственного интеллекта заблокировала 1,75 миллиона приложений, нарушавших правила платф...
00:17, 28 Апр Политика: Германия прощупывает российские «красные линии» с помощью чеченского террориста В Германии снова испытывают терпение России. На этот раз один из самых радикально настроенных депутатов Бундестага встретился со знаковой фигурой чеч...
16:17, 28 Янв В новогодние выходные на треть больше клиентов Билайна звонили с помощью VoWiFi Фото: пресс-служба БилайнаВ новогодние праздники функцией VoWiFi, с которой можно звонить и обмениваться смс через сети Wi-Fi, воспользовались на 31%...
10:17, 25 Апр Как сделать презентацию с помощью нейросети — подборка хороших сервисов и простой гайд Раньше сделать нормальную презентацию значило убить вечер: придумать структуру, набрать текст, найти картинки, не облажаться с оформлением. Сейчас вс...
07:17, 17 Фев Как сделать фото на паспорт с помощью нейросети. Ловите советы и готовый промт для ИИ Сделать фото на паспорт или другой документ все равно что заставить себя проснуться пораньше в выходной. Нужно собраться, причесаться, поехать в фото...
18:17, 12 Мар Яндекс Карты с помощью ИИ отметили входы, доступные для людей на инвалидных креслах Яндекс Карты с помощью ИИ-технологий расширили базу точек питания, доступных для маломобильных людей. Две нейросети — визуально-языковая и большая яз...
10:17, 02 Фев Suzuki Jimny превратили в миниатюрный Toyota Land Cruiser с помощью стайлинг-пакета Разработкой комплекта занимались тюнеры из ателье Jimmy Land совместно с инженерами Garage Ill. Стоимость полностью переоборудованного внедорожника с...
03:17, 18 Апр Учёные приблизились к потенциальной генетической терапии синдрома Дауна с помощью модифицированного CRISPR Модифицированный CRISPR/Cas9 может частично «выключать» лишнюю копию 21-й хромосомы, открывая путь к возможной хромосомной терапии трисомии 21Предста...
17:17, 07 Фев На шаг впереди: голосовой бот решает более 80% вопросов клиентов «Ростелекома» с помощью предиктивной модели «Ростелеком» внедрил в голосовой бот новую предиктивную модель, благодаря которой он в четырех из пяти случаев предугадывает тему обращения и автомат...
09:17, 06 Мар Лунный грунт спекли с помощью лазера, создав прочные заготовки для будущей инфраструктуры на Луне Команда исследователей из Университета штата Огайо представила инновационный метод преобразования лунного реголита в строительные материалы с помощью...
16:17, 15 Мар Американский стартап Mantis Space создаёт орбитальную сеть для передачи солнечной энергии спутникам с помощью лазеров Современные спутники зависят от солнечных панелей, но треть времени проводят в тени Земли, используя тяжёлые аккумуляторы для поддержания работы. Аме...
20:17, 18 Мар Как добавить MagSafe в iPhone 16e с помощью деталей от iPhone 17e Разборы iFixit нередко показывают то, что Apple не рассказывает со сцены и не пишет крупно на странице устройства. На этот раз специалисты полностью ...