Подборки

12 инструментов для перевода голоса в текст

10+ сервисов для перевода голоса (звука) в текст

В маркетинге нужно постоянно работать с текстом: описывать концепции и тезисы, составлять брифы, придумывать вовлекающие и продающие формулировки. Это часто приходится делать прямо на ходу, когда под рукой нет ноутбука. В таких случаях свежую идею удобно наговорить голосом.

Расскажу про инструменты, которые делают работу с устным текстом проще. Программы для преобразования речи в текст позволяют надиктовать короткую заметку или объёмную статью. А функция транскрибации аудио и видеофайлов помогает в расшифровке длинных интервью и переговоров.

Что нужно сделать Какой инструмент подойдёт
Надиктовать текст в браузере Google Документы, Speech to Text BOT, Speechpad, Yandex SpeechKit
Надиктовать текст на смартфон Google Keep, Dictation для iOS, Speechnotes для Android
Транскрибировать аудио и видео Speechlogger, Vocalmatic, RealSpeaker, Google Документы, Speechpad, Dictation, Teamlogs
Расшифровать аудио- и видеозапись вручную Zapisano

Для онлайн-конвертации голоса в текст

Онлайн-конвертеры помогают записывать текст голосом. Принцип таких сервисов примерно одинаков: вы чётко проговариваете слова, а система преобразует их в текст и записывает. Полученный результат, скорее всего, придётся отредактировать: проставить знаки препинания, проверить правильность написания сложных слов. Чтобы сократить объём редактуры, используйте высокочувствительный микрофон, медленно и разборчиво произносите слова.

Google Документы

Сервис Google Документы позволяет переводить устную речь в записанный текст. Это встроенная функция с поддержкой разных языков.

Для активации голосового ввода перейдите в раздел «Инструменты» и кликните на «Голосовой ввод».

Голосовой ввод в Google Документах
Для использования голосового ввода в Google Документах не требуется установка плагинов

Затем нажмите на кнопку и говорите. Постарайтесь произносить слова медленно и чётко. Система умеет распознавать знаки препинания — просто говорите в нужных местах «Точка», «Запятая» и так далее. Также на русском языке можно использовать команды «Новая строка» и «Новый абзац». На английском языке перечень голосовых команд более обширный, полный список можно посмотреть в Справке.

Результат голосового ввода в Google Документах
Так выглядит результат голосового ввода от в Google Документах

Сервис неплохо конвертирует голос в текст при условии чёткого и правильного произношения. Но корректура всё равно может понадобиться — поправить регистр, проверить расстановку знаков препинаний и написание сложных слов.

Также в Google Документах можно транскрибировать аудио- и видеофайлы. Для этого включите воспроизведение файла на другом устройстве рядом с основным микрофоном. Способ работает, если речь в записи чёткая, разборчивая и не слишком быстрая. Для  лучшего распознавания можно использовать замедленное воспроизведение.

Speech to Text BOT

Онлайн-сервис работает через браузер Chrome на десктопе и некоторых мобильных устройствах. Интерфейс интуитивно понятен: есть окно ввода текста, кнопка с микрофоном для запуска записи и список поддерживаемых команд.

Запись текста голосом в Speech to Text BOT
Speech to Text BOT различает знаки препинания и заглавные буквы

Сервис поддерживает десятки разных языков. В настройках доступно форматирование текста: разные типа и размеры шрифта, написание предложений с заглавной буквы. Записанный текст можно редактировать, скачивать, отправлять в печать, копировать. Сервис неплохо переводит речь в текст при надиктовке, но не транскрибирует аудио- и видеофайлы, даже при их хорошем качестве.

Speechpad

Speechpad — удобный онлайн-блокнот для речевого ввода. Здесь можно надиктовывать текст на одном из пятнадцати доступных языков. Доступно параллельное форматирование текста: замена регистра, добавление знаков пунктуации и тегов. Но расставлять все придётся после записи: сам сервис ставить запятые и точки не умеет. Запись речи включается и выключается по необходимости.

Голос в текст в Speechpad
После диктовки в Speechpad получился почти точный текст

Speechpad поддерживает преобразование в текст аудио- и видеозаписей. Для этого кликните на кнопку «+Транскрибацию» под полем ввода. После обновления страницы загрузите нужный файл, укажите ссылку или ID видео с YouTube. При необходимости настройте параметры: качество и скорость воспроизведения, указание временных меток, защиту от шумов. После этого можно включать запись. Результат преобразования в текстовом формате появится в окошке блокнота на этой же странице.

Конвертер аудио и видео в текст
При конвертации записи в текст можно настраивать скорость воспроизведения, чтобы результат был более точным

Можно установить расширение, чтобы использовать голосовой ввод в любом текстовом поле браузера. Также есть модуль интеграции с Windows, Mac или Linux.

Summarize.Tech

Если вам нужно преобразовать видео с YouTube в текст и неважно, будет это дословно или нет, пользуйтесь сервисом Summarize.tech. Он работает на основе нейросети и за несколько секунд распознает любое видео, а затем делает краткую выжимку в несколько абзацев и дает подробное описание видео с тайм-кодами.

12 инструментов для перевода голоса в текст 7

Правда, работает он на английском, поэтому полученный текст нужно прогнать через DeepL — переводчик на основе нейросети.

12 инструментов для перевода голоса в текст 8

А уже потом можно добавить текст в озвучку. Так получается дольше, но результат получится лучше, чем у конкурентов.

Yandex SpeechKit

Это бесплатный сервис по распознаванию речи от Яндекса. В нём нет редактора и он не умеет расшифровывать готовые аудиозаписи. Сервис умеет только распознавать надиктованный текст.

12 инструментов для перевода голоса в текст 9

При этом он не ставит знаки препинания, а максимальная длина надиктованного текста не может быть больше минуты.

Для преобразования речи в текст на мобильных устройствах

Если нужно записать какую-то мысль или идею вдалеке от рабочего стола, используйте мобильные сервисы. С их помощью можно надиктовать текст, сохранить его или отправить в другое приложение.

Google Keep

Google Keep позволяет надиктовывать заметки голосом. Сервис преобразует речь в текст, который при необходимости можно отредактировать. Созданные заметки синхронизируются на разных устройствах одного аккаунта. Их можно открыть на телефоне или компьютере, через приложение или веб-версию, в Google Документах или в Gmail.

Заметка в Google Keep
При записи текста голосом в Google Keep можно делать паузы

Заметки из Google Keep можно копировать в Google Документы и отправлять через email или в соцсети.

Dictation для iOS

Плюс этого приложения для iOS — в отсутствии ограничений по времени диктовки. Dictation поддерживает 40 языков, а надиктованный текст можно быстро перевести на другой язык.

Интерфейс Dictation
В Dictation можно быстро писать заметки для соцсетей

Также приложение позволяет транскрибировать аудиофайлы. Все записи синхронизируются на разных устройствах при включенном iCloud. Надиктованными текстами можно делиться: отправлять в мессенджеры или по email.

Speechnotes для Android

Приложение Speechnotes работает на основе распознавания речи Google. Для начала записи достаточно кликнуть по кнопке микрофона и начать говорить. Некоторые знаки пунктуации можно озвучивать голосом, для других доступна встроенная клавиатура, которой можно пользоваться прямо в процессе надиктовки.

Запись текста голосом в мобильном приложении
Результат надиктовки в Speechnotes требует совсем незначительной редактуры

Готовый текст можно отредактировать, сохранить, переслать, распечатать. В премиум-версии (от 1,5$) доступно создание клавиш для вставки самых используемых фраз.

Для автоматической транскрибации аудио и видео

Ручная расшифровка аудио- и видеофайлов, как правило, занимает много времени. Надо прослушать небольшую часть записи, сделать паузу, записать, снова включить запись — и так много раз. Если доверить расшифровку специализированным сервисам, получение результата займёт столько же времени, сколько длится запись, или даже меньше.

Speechlogger

Speechlogger преобразовывает голос в текст. Также его можно использовать как блокнот. В сервисе есть функция расшифровки аудио- и видеофайлов в форматах .aac, .m4a, .avi, .mp3, .mp4, .mpeg, .ogg, .raw, .flac, .wav.

Speechlogger работает с применением технологий искусственного интеллекта. При транскрибации автоматически проставляется пунктуация и временные метки. Для начала работы нужна авторизация через Google аккаунт.

Результат транскрибации в Speechlogger
В Speechlogger можно включить или отключить временные метки

Стоимость расшифровки — $0,1/минута. Минимальная сумма для пополнения баланса — $4,5. Время обработки соответствует длительности записи. Уведомление о готовности приходит на email. Точность расшифровки варьируется от 100 до 84% и зависит от качества записи.

Teamlogs

Онлайн-сервис транскрибации аудио и видео. Teamlogs расшифровывает любые файлы с голосом, автоматически расставляет знаки препинания, дефисы и даже кавычки-ёлочки. А еще он умеет делить текст по спикерам, расставлять тайм-коды и преобразовывать записи Zoom и Ms Office. Готовый текст можно экспортировать в форматах .docx, .xlsx и .srt.

12 инструментов для перевода голоса в текст 14

Расшифровка речи платная, начинается от 7 руб/мин. Есть тестовая версия на 15 бесплатных минут расшифровки. 

RealSpeaker

Сервис позволяет транскрибировать аудио- и видеофайлы длительностью до 180 минут. Для запуска расшифровки нужно выбрать язык записи, загрузить файл и запустить процесс. Готовый текст получается с ошибками, сервис склоняет не все слова, а некоторые вовсе пропускает.

Транскрибация платная — 8 руб./минута. Есть возможность потестировать сервис, поскольку 1,5 минуты расшифровки доступны бесплатно.

Транскрибация интервью в RealSpeaker
При транскрибации в RealSpeaker автоматически проставляются знаки препинания

Готовый текст можно подкорректировать в онлайн-редакторе, а затем скопировать или скачать в формате SRT или WebVTT. Стоит учитывать, что все результаты попадают в общее хранилище. Если в процессе загрузки файла оставить галочку «Сделать файл неудаляемым в течение 24 часов», то результат расшифровки нельзя удалить в течение суток. Если галочку убрать, то результат расшифровки можно удалить сразу после его копирования.

Для ручной расшифровки аудио- и видеозаписей

Результат автоматической расшифровки почти всегда требует доработки — проставить знаки препинания, подправить термины, заменить неверное написание отдельных слов. Если времени на доработку материала нет и нужна идеальная расшифровка, лучше доверить преобразование записей живым людям. Можно поискать частного специалиста или воспользоваться услугами специализированного сервиса.

Zapisano

Zapisano — сервис профессиональной ручной расшифровки аудио и видео: транскрибацией занимаются не машины, а люди. Это обеспечивает качественный результат, отсутствие «мусора» и верную пунктуацию. Помимо русского сервис поддерживает и некоторые иностранные языки.

Пример расшифровки от Zapisano
При расшифровке файлов в Zapisano тексты сразу редактируют

Стоимость расшифровки зависит от сложности документа и временного периода. Так в категории «Стандарт» обработка файла стоит от 19 до 50 рублей за минуту, а длительность расшифровки варьируется от пяти до одного дня. Чем сложнее материал и выше срочность, тем дороже услуга. Можно самостоятельно просчитать стоимость при помощи тарифного калькулятора.

Ни один сервис с автоматическим преобразованием речи в текст не заменяет качественной ручной транскрибации. В большинстве случаев результат придётся редактировать. Но инструменты для перевода голоса в текст могут пригодиться при создании быстрых заметок, надиктовке объёмных материалов или черновой расшифровке записей.