Обработка аудио для ютуба и стримов: как сделать дикторский голос программными средствами

Обработка аудио для ютуба и стримов: как сделать дикторский голос программными средствами
9 мин
8
Содержание

Создание видеороликов, трансляция подкастов и стримов — все это становится популярнее с каждым годом. Растущая конкуренция выдвигает больше требований к качеству контента, особенно к технической части — мало кто будет терпеть хрипящий звук и едва различимую речь, которую заглушает фоновая музыка. В этой статье рассматриваются базовые методы обработки голоса, которые помогут сделать его сопоставимым по качеству с речью профессионального диктора или радиоведущего.

Общие советы

Стоит сразу оговориться: хорошего результата не получится без хороших «сырцов» — исходный материал должен быть качественным. В идеале, речь должна не только записываться на хороший микрофон и звуковую карту, но и быть начитанной с дикцией, произношением, интонациями, выразительностью, характером, манерой и правильным дыханием. Возможные дефекты речи — ярко выраженная картавость или гнусавость — обработкой не исправляются.

Идеально, если речь записана в акустически обработанной комнате. Если таковой нет, можно обойтись акустическим экраном для микрофона. Расстояние до микрофона индивидуально и зависит от громкости голоса, экспрессии и динамики. Главное, чтобы не было перегрузов или откровенно тихого сигнала. Оптимальное значение — от -18 до -12 дБ.

На микрофоне обязательно должна быть либо ветрозащита, либо поп-фильтр. Взрывные согласные сложно поддаются компьютерной обработке, так что лучше приобрести недорогой аксессуар, который избавит от большинства проблем с ними.

Набор неплохих бесплатных плагинов от DAW Reaper можно скачать с официального сайта — там есть все необходимое. Для тех, кто всерьез увлечется звукорежиссурой, можно посоветовать более продвинутые пакеты плагинов от Waves, Fabfilter, Softube — их существует множество на любой вкус.

Обработку стоит выполнять на студийных мониторах или в наушниках студийного уровня. Без качественного контроля будет сложно разобрать, что вообще происходит с аудиосигналом.

Обрабатываем звук для оффлайн-видео

Итак, голос записан, и теперь нужно его обработать.

Начать стоит счистки материала: убрать все шумы в паузах, если необходимо — вдохи, вздохи и другие артефакты. Можно сделать все вручную, а можно поставить нойз-гейт. Он должен находится в самом начале цепи обработки. Настроить гейт очень просто: параметр threshold означает порог его срабатывания, здесь нужно взять самый громкий участок с шумами и сделать уровень thrershold чуть выше его. Attack — как быстро гейт «открывается» для пропуска полезного сигнала, release — как быстро он «закрывается» для удаления шума. Главное, чтобы гейт не откусывал слишком тихие слова.

Следующий шаг — шумоподавление. Нужно найти участок записи без какого-либо сигнала, чтобы на нем присутствовал только шум цепи звукозаписи. Если уровень шума ниже 50 дБ (как на скриншоте выше) — можно смело махнуть на него рукой и не делать ничего, такой шум никто не услышит. Если шум явно заметен, можно использовать специальные плагины (например, reafir от Reaper или denoiser в Cubase) для его удаления, либо подрезать эквалайзером пару самых шумных частот — точно так же, как будут удалятся резонансы в следующем пункте.

Фильтрация и удаление резонансов. Бывает, что низкий мужской голос начинает неприятно бубнить в районе 100–200 Гц, либо высокий женский тембр в сочетании с не самым лучшим микрофоном неприятно режет по ушам. Так и проявляются резонансы. Избавиться от них просто: нужно поставить в цепь обработки эквалайзер и узкой полосой с большим усилением (10–30 дБ) “пройтись” по всему частотному спектру, вычисляя самые неприятные места с режущим ухо свистом, звоном или гудением. Их необходимо ослабить узкой полосой на 3–5 дБ. Главное здесь не перестараться — удаления всего двух-трех основных резонансов обычно хватает для дикторского голоса.

Поиск и подрезание резонанса

Помимо этого, можно вовсе удалить целые куски спектра, в которых нет никакого полезного сигнала. Это делается с помощью low-pass и hi-pass фильтров, которые обрезают высокие и низкие частоты соответственно.

Чаще всего проблемы встречаются в следующих областях:

●     Ниже 75–100 Гц — здесь находится, в основном, низкочастотный бубнящий шум. Можно смело применить hi-pass фильтр и обрезать все до этих значений.

●     100–150 Гц — тут нередко находятся гудящие частоты, особенно это касается мужского вокала, записанного в небольшой комнате. Можно подрезать их узкой полосой.

●     800–1000 Гц — здесь может располагаться «гундосый» назальный тон, который также имеет смысл подрезать узкой полосой.

●     4–9 кГц — тут находятся сибилянты — шипящие согласные звуки «с-с-с», «ш-ш-ш», «щ-щ-щ», которые могут неприятно свистеть при записи. Для борьбы с ними обычно используется деэссер — специальный прибор, который смягчает резкость свистящих согласных. Но можно не заморачиваться, найти самую неприятную частоту и также подрезать ее узкой полосой.

●     Выше 16 кГц — в человеческой речи редко присутствует что-то полезное выше этой частоты, так что можно смело применять low-pass фильтр.

Так выглядит эквалайзер после вырезания резонансов и ненужных частот

Добавление недостающих частот. Теперь, когда остался только полезный сигнал, нужно сделать его четче и ярче. В качестве отправной точки будут полезны следующие данные:

●     180–240 Гц — прибавление 3–5 дБ широкой полосой в этой области сделает мужскую речь более полной и читаемой. Для женской речи это будет 200–300 Гц.

●     1.5–2 — 5 кГц — это самый важный диапазон для голоса, так называемая область разборчивости. Человеческий слух наиболее чувствителен именно к этим частотам, стоит прибавить их широкой полосой на 3–8 дБ.

●     9–11 кГц — эти частоты отвечают за яркость голоса. Их очень часто не хватает в речи, записанной даже на студийный микрофон, особенно в заглушенной комнате, которая с аппетитом пожирает верха вокала. Нередко приходится значительно прибавлять этот диапазон — на 6–12 дБ, чтобы придать речи ясности. Но нужно следить за шипящими согласными.

●     Выше 12 кГц — это область «воздуха», поднятие которой позволит сделать речь более натуральной и яркой. Обычно для этой и предыдущей области частот используется параметр эквалайзера hi-shelf, который выглядит как «планка» и позволяет моментально «осветлить» голос.

При эквализации низких частот лучше использовать узкие полосы, а при высоких — широкие, это сделает работу эквалайзера менее заметной.

Компрессия. Компрессором убирается разница между громкими и тихими участками записи. В итоге голос будет звучать равномерно, от хлопков и кашля слушатель не будет вздрагивать, а при шепоте ему не придется прибавлять громкость. Понять работу компрессора поможет аналогия с громкой музыкой в комнате, которая не нравится соседу за стенкой. Параметр threshold будет тем критическим уровнем громкости музыки, при превышении которого сосед начинает тарабанить по батарее монтировкой; attack — как быстро он бежит к батарее при превышении этого уровня; ratio — насколько нужно убавить громкость, чтобы успокоить соседа; а release — как долго сосед перестает возмущаться после убавления громкости. Сосед-компрессор заставляет несчастного меломана держать уровень громкости музыки в определенных пределах. Начать настройку можно со следующих значений:

●     Ratio: 4:1 (таким образом, если сигнал превышает порог на 4 дБ, то он скомпрессируется до 1 дБ выше порога)

●     Attack: как правило, для голоса хорошо работает быстрая атака в районе 5–10 мс, она позволяет компрессору срабатывать мгновенно. Если при этом компрессия начинает съедать согласные — атаку нужно увеличить.

●     Release: если в компрессоре есть функция авторелиз, можно ей и воспользоваться. Если нет — начать стоит с 40–50 мс.

●     Output или make-up: если в компрессоре есть функция автомейкапа, можно применить ее. В противном случае компенсацию громкости можно выполнить вручную на слух — главное, чтобы итоговый сигнал не попадал в красную зону.

●     Threshold: здесь нужно смотреть по уровню громкости исходного трека. Начать можно с -8 дБ.

Есть проверенный метод настройки компрессора «на слух» для новичков: нужно выкрутить ratio и threshold на максимум, attack и release — на минимум. Так будет лучше слышно, что прибор делает с сигналом. Далее подбирается атака, потом релиз, а параметрами ratio и threshold регулируется уровень до желаемых значений. Как правило, уровень компрессии отображается на индикаторе «вверх ногами», ведь компрессор работает на понижение сигнала. Параметр threshold следует установить таким образом, чтобы компрессор срезал около 6 дБ для тихого голоса и около 12 дБ для громких участков.

Лимитеринг. Это операция позволяет ограничить максимальный уровень громкости. Сигнал на мастер-шине не должен зашкаливать, и лимитер выступает в роли очень жесткого компрессора, который не позволяет сигналу выбраться за пределы установленного значения. Как правило, среднее арифметическое уровня сигнала (RMS) должно быть около -16 дБ. При рендере на мастер-шине нужно выставить уровень -0.5 дБ, потому что финальная конвертация аудио может сделать звук громче и добавить искажений. При отсутствии лимитера его роль может сыграть компрессор: достаточно выставить ratio на максимум, threshold на -0.5 дБ, и атаку на минимум.

Лимитер и компрессор в роли лимитера

Если фоновая музыка в видео заглушает речь, нужно выставить RMS музыки и RMS голоса одинаковыми, после чего убавить музыку на 5–10 дБ. Если в некоторых местах слова все еще неразборчивы, можно применить к музыкальной подложке эквализацию. Достаточно посмотреть на эквалайзер для речи и сделать все наоборот в эквалайзере для музыки: например, если в речи 5 кГц приподнято широкой полосой, то в музыке эти же 5 кГц нужно убавить.

Обрабатываем звук в онлайне

У стримов и подкастов есть своя специфика при обработке голоса — здесь важно, чтобы плагины не были ресурсоемкими и не сильно грузили компьютер. Поэтому стоит использовать минимально необходимый набор эффектов.

Чаще всего для стримов используется программа OBS Studio. В ней можно загружать точно те же VST-плагины для обработки звука, что и в DAW. Если используется не OBS Studio, то для обработки голоса можно воспользоваться отдельной программой для потоковой обработки звука VSTHost, она работает с любыми приложениями для стримов.

Так выглядит плагин ReaFIR в OBS Studio

Для обработки голоса потребуется необходимый минимум:

1. Шумоподавление. В отличие от оффлайн-видео, звук к которым нередко записывается отдельно на качественный микрофон, в стримах часто используется не самое лучшее оборудование. Недорогой микрофон вкупе со встроенной звуковой картой и включенной функцией Microphone Boost в настройках звука Windows будут сильно шуметь. Для того, чтобы избавиться от этого шума, можно использовать встроенный в OBS фильтр Noise Suppression. У него всего одна настройка — уровень шумоподавления, начать стоит со значения около -20 дБ.

2. Гейт. Если в звуке для оффлайн-видео можно вручную вырезать все крики детей за окном и рев соседского перфоратора за стеной, то с онлайном такой фокус не провернуть. Понадобится гейт.

●     Release можно сделать длинным, около 200 мс, поскольку работа гейта будет слишком слышна при быстром релизе. Правильно настроенный гейт почти незаметен для слушателя и удаляет лишь шумы и призвуки в паузах между фразами.

●     Уровень гейта нужно сделать чуть выше, чем фоновый шум, не стоит выставлять уровень рядом с уровнем голоса.

●     Простой способ настройки гейта для речи — нужно сложить губы трубочкой и шумно выдохнуть воздух в сторону от микрофона, запомнить на индикаторе значение уровня этого шума и выставить его на гейте.

3. Эквалайзер. Здесь все то же самое, что и для оффлайн-видео: нужно отфильтровать лишние частоты, вырезать пару самых противных резонансов и добавить частот в области разборчивости. Также стоит посмотреть на индикатор: если звук после обработки эквалайзером «пикует» в красной зоне, нужно прибрать выходной Gain, если, наоборот, слишком тихий — прибавить.

4. Компрессор. Для стримов он имеет даже большее значение, чем для оффлайн-видео — в онлайне ни один диктор не сможет уследить за динамикой своего голоса на протяжении нескольких часов. Следует быть готовым к тому, что речь будет то едва слышной, то слишком громкой. Поэтому нужно использовать более жесткие настройки компрессора, чем для оффлайн-видео. Начать можно с ratio 10:1, атаки 5 мс и релиза в 30 мс или автоматически.

При подобных настройках нет необходимости в лимитере — компрессор будет выполнять его роль. Но если динамика речи очень большая и не позволяет настроить гейт (то слова начинают обрезаться, то шум просачивается в эфир), тогда можно использовать два компрессора: первый, с более мягкими настройками (ratio 3:1) поставить перед гейтом, второй, в качестве лимитера — в конце цепи (ratio выкрутить на максимум, threshold — так, чтобы компрессор срабатывал только при очень громких фразах).

Дайте послушать результаты!

Разобраться в обработке звука по тексту бывает непросто, но результат того стоит. Смотрите сами. Точнее, слушайте.

Качественный звук в современных видео и стримах значит ничуть не меньше, чем видео в высоком разрешении. А порой и больше — ведь многие ставят ролики на фон, смотря их вполглаза и воспринимая происходящее в основном на слух.

При этом стоит учесть, что данное руководство дает лишь базовые настройки в качестве точки отсчета. Конечный результат должен подбираться аудиально, ведь главный инструмент в работе звукорежиссера — это его собственные уши.

8
Как вам материал?

    Комментарии 3

    Наслаждайтесь общением. Критикуйте сообщения, а не авторов. Меньше токсичности, больше любви ❤️

    Аватар пользователя
    4 года назад
    Изменено автором

    эт конечно всё прекрасно, но цифереки для конкретных компрессоров, потому что у одного атака определяет задержку после превышения порога, а у другого определяет опережение перед превышением порога, + разные кривые, и обс не завает vst3 собакая такая

    ну и вишенка на торте) набор лицензионных VST указанных в статье по ценнику перешагивает за 300 евро) одно дело пиратить когда об этом никто не знает и другое когда у тебья крашнется игруха и вылетит окошо с пиратским софтом вот смеху то будет если про лицуху спросят) у знакомых знакомых уже домагались за лицензию премьера, и было не смешно =)

    -2
    Аватар пользователя
    4 года назад
    Изменено автором

    Можете съесть и вишенку и торт: в статье рекомендуется набор бесплатных плагинов, а те платные только "Для тех, кто всерьез увлечется звукорежиссурой" :)

    Как "отправная точка" в формате "что-где крутить и к чему стремиться" материал мне, например, понравился. :)

    0
    Аватар пользователя
    4 года назад
    Изменено автором

    на самом деле когда меня просили настроить машину для стрима

    первое требование было таким - чтобы звук из войсчатов не пролетал в стрим, люди существа эмоциональные и в выражениях не сдерживаются, на твиче это просто бан =) ну тесть для реального стриминга статья ниочём))

    PS кому интересно гуглить бананометр

    -2