Нейросети всё более прочно укрепляются в нашей жизни. На их основе создаётся инструмент ранее не доступный для математических алгоритмов обработки. Это, в основном, касается тех случаев, когда исходная информация безвозвратно утрачена или попросту никогда не существовала. В данном случае хотелось бы поговорить про медиаконтент и инструмент для его обработки.
Ещё сравнительно недавно специалисты по ретуши вручную восстанавливали повреждённые фото и видео, "красили" старые ч/б фильмы. Дело это достаточно кропотливое и муторное ибо необходимо было обработать 100500 кадров, следующих с частотой 24 штук в секунду. На это уходило огромное количество сил и времени. Искусственный интеллект (ИИ) теперь справляется с этой задачей за считанные минуты. Кому это интересно, можете сами попробовать Чат GPT, Media.io, или подобные сервисы.
Что же касается работы со звуком, то до появления инструментов на основе ИИ многие задачи были попросту невыполнимы. Если убрать шум и щелчки с помощью математической обработки ещё как-то получалось, то отделить вокал от музыки без заметных на слух искажений было практически нереально. Дело в том, что вокалист, стараясь попасть в ноты, заглушает своим голосом слабые звуки музыкальных инструментов и наоборот. Это достаточно протяжённые по времени фрагменты, которые методом копирования похожих незаметно заменить не получится. В результате приходилось перезаписывать звуковую дорожку к фильму (клипу) заново. А как быть, если перезапись невозможна? Например, певца уже нет в живых, или запись была сделана на концерте (стриме). И только сейчас появилась возможность решить эту проблему. Покажу на конкретном примере.
В не столь далёком 2021 году на Ютуб мне попались два стрима
Саши Капустиной, где она исполнила одну и ту же песенку. Оба исполнения были весьма неплохи, но содержали небольшие косяки, которые я собирался устранить методом замены. Параллельно было решено добавить двухголосье на припевах. В результате вот что из этого получилось:
Даже человек, не имеющий музыкального слуха, может отчётливо различить неудачное вступление вокала и несовпадение тональностей мастер- и вэк-вокала на первом и четвёртом припеве. Изменение тональности вклеек даёт ещё больший диссонанс из-за наложения минусовок с разной тональностью. Короче, это всё, что тогда мне удалось сделать.
И вот наконец-то в моём распоряжении появился замечательный инструмент
Vocal Remover из набора Media.io С помощью него удалось устранить вышеперечисленные недостатки и теперь песенка звучит так:
Неправда ли, теперь получилось гораздо лучше!

(Кому интересно, по данной методике могу сделать обучающее видео.)
Ещё один пример: на стриме
Ната Павлова исполнила "
Ma philosophie" под гитарный аккомпанемент. Мне показалось, что под минусовку это бы звучало гораздо лучше. Сказано - сделано:
Звучит действительно неплохо, но вот проблема: гитарный бой ну никак не попадает в ритм минусовки. Рассинхрон всего несколько миллисекунд, но этого достаточно чтобы испортить впечатление. Решение тут только одно - гитару надо убирать. Теперь стало гораздо проще подобрать тональность минуса под имеющийся вокал и композиция зазвучала совсем по-другому:
Справедливости ради нужно отметить, что ИИ, хоть и является достаточно мощным инструментом, но сам петь толком ещё не научился. Впрочем, в сети уже появились композиции АВВА и Майкла Джексона, которые они никогда сами не исполняли. Без участия ИИ тут точно не обошлось.
