Как искусственный интеллект помогает создавать аудиоконтент и экономить ресурсы: кейс Smart Reading и Speechki

В России и странах СНГ растёт интерес к саммари — краткому изложению ключевых мыслей нехудожественных книг.

Рассказываем, почему популярны краткие содержания книг и как библиотека Smart Reading начала использовать искусственный интеллект для создания подкастов и озвучивания материалов блога при помощи сервиса Speechki.

Как искусственный интеллект помогает создавать аудиоконтент и экономить ресурсы: кейс Smart Reading и Speechki

Юлия Лебедева

Контент-маркетолог сервиса Speechki

Рынок аудиоконтента в России стремительно растёт

Объём информации растёт в геометрической прогрессии. Количество производимого контента с каждым днём увеличивается, а времени на его потребление становится всё меньше.

Если говорить о книгах, формат саммари позволяет глубоко, содержательно и при этом кратко передавать ключевые идеи и мотивационную составляющую книги.

Саммари в виде инфографики востребованы среди аудитории библиотеки Smart Reading. За 3‒4 минуты читатели знакомятся с основными мыслями объёмной книги, а яркие образы легко запоминаются.

Весьма популярен и аудиоформат — многим легче или удобнее воспринимать информацию на слух.

По прогнозам генерального директора компании «ЛитРес» Сергея Анурьева, продажи аудиокниг в 2021 году превысят 3 млрд рублей. Наблюдается активное развитие аудиосегмента — такой формат позволяет вовлекать нечитающую аудиторию, которая привыкла слушать музыку или смотреть видео.

Михаил Иванов

Создатель сервиса Smart Reading, сооснователь издательства МИФ

Все наши саммари мы делаем в текстовом и аудиоформатах.

Если у книги нет аудиоверсии, она теряет значительную часть аудитории. Так, продажи аудиосаммари Smart Reading на платформе «ЛитРес» на 30‒40% превышают продажи их текстовых версий. И эта тенденция растёт.

Использование искусственного интеллекта позволяет Smart Reading значительно сократить трудозатраты и деньги

Процесс записи аудиодорожки довольно сложный. На производство одного подкаста продолжительностью 30‒40 минут у команды Smart Reading обычно уходит до двух недель. Это и труд редактора, и запись голоса диктора, и монтаж, и работа звукорежиссёра.

На производство аудиоконтента при помощи нейродиктора в издательстве саммари решились после предложения о сотрудничестве от сервиса Speechki, который занимается озвучиванием аудиокниг при помощи искусственного интеллекта. Оказалось, что это экономит не только время, но и деньги.

Так, чтобы записать аудио в студии звукозаписи, нужно пригласить диктора как минимум дважды: для первоначальной начитки и внесения правок. Прибавляем к этому время на работу звукорежиссёра и редактора — получаем как минимум неделю на создание одного аудио.

В случае озвучки роботом весь процесс контролирует один человек ― редактор, а неделя превращается в пару часов.

Что касается денег, средняя стоимость записи подкаста в Москве — 1 900 рублей за час + примерно 5 000 рублей на постобработку. В случае же записи аудиофайла синтезированным голосом, согласно оценке сервиса Speechki, расходы сокращаются примерно в 8 раз. Стоимость одного озвученного подкаста зависит от количества символов в исходном тексте. Обычно у Smart Reading уходит менее 800 рублей на создание одной аудиоверсии материала.

Качество синтезированной речи пока уступает живой озвучке, но с развитием технологий будет всё сложнее отличить роботизированную речь от живой.

Глубокое обучение

Узнать больше

От персептрона до GAN: только практические кейсы
Гибкая учебная траектория, поддержка сообщества экспертов, консультации с ментором
Добавите 8 проектов в портфолио, включая выпускной MVP-проект

Как происходит запись аудиофайла при помощи искусственного интеллекта

Каждый материал адаптируется под озвучку, чтобы текст хорошо воспринимался на слух. В начале идёт заставка, в которой создатель библиотеки саммари Михаил Иванов приветствует слушателей, благодарит за интерес к подкасту и приглашает подписаться на библиотеку.

На конвертацию текста в голос уходит одна минута. Для выделения ключевых фраз предусмотрены различные звуковые отбивки и настройки в эквалайзере. Озвученный материал редактор внимательно прослушивает и вносит необходимые правки в редакторе Speechki. Интерфейс позволяет заменять слова, фразы, корректировать паузы, менять интонацию робота или ударение в труднопроизносимых словах — чаще всего это топонимы, фамилии, аббревиатуры.

В использовании сервис достаточно прост: редакторам Smart Reading было достаточно один раз проконсультироваться с представителем Speechki, чтобы научиться им пользоваться.

После проверки редактор загружает аудиофайл на сайт и в каталог подкастов на Яндекс.Музыке и на других платформах.

Синтез речи — удобный инструмент ведения блога и подкаста. Благодаря нейродиктору сервису Smart Reading удаётся оперативно выпускать контент. На момент публикации записано более 100 выпусков подкаста, большинство из которых озвучены с помощью платформы Speechki.

В планах библиотеки саммари книг — запуск ежедневных новостных дайджестов. И озвучивание нейродиктором отлично подойдёт для такого аудиоконтента.

Михаил Иванов

Создатель сервиса Smart Reading, сооснователь издательства МИФ

Аудитория Smart Reading за год значительно выросла. Только в Яндекс.Музыке у нас 300 тысяч прослушиваний саммари и эпизодов подкаста в месяц, а с учётом других платформ эта цифра достигает миллиона.

Наши аудиосаммари озвучивают дикторы, но для записи статей в блоге и большей части эпизодов в подкасте мы используем искусственный интеллект — и аудитория хорошо воспринимает контент, который читает робот.

Резюмируем

Конвертация контента в популярный аудиоформат при помощи нейронных голосов позволяет существенно сэкономить время и бюджет.

На мировом рынке крупные медиаресурсы активно внедряют технологии искусственного интеллекта в создание аудиоматериалов. Так, The Washington Post экспериментирует с аудиостатьями с 2017 года. Информагентство Bloomberg снабжает публикации аудиодорожкой, которую генерирует искусственный интеллект. BBC использует синтезированную речь в своём проекте Life Project и планирует расширить количество материалов, которые будет озвучивать робот.

Среди российских примеров — сайт Sports.ru и порталы медиахолдинга Shkulev Media Group, которые устанавливают на своих страницах виджеты с плеером. Так статья или заметка превращается в подкаст, который зачитывает искусственный интеллект.

Читать также

Мнение автора и редакции может не совпадать. Хотите написать колонку для Нетологии? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

Юлия Лебедева

Контент-маркетолог сервиса Speechki