Как найти текст по аудиозаписи

Транскрибация (расшифровка) – это метод перевода информации из аудио или видео в текстовый формат. Такой подход актуален для слабослышащих, при расшифровке интервью и создании субтитров (для тех, кому нужно посмотреть видеоролик или прослушать аудио без звука). Цель транскрибации – перевести речь в текстовый формат, который будет понятен любому человеку. 

Для расшифровки аудио в текст сегодня используется профессиональный софт. О лучших программах для расшифровки аудио мы и поговорим в данной статье. 

Google Docs

Google Docs как перевести запись с микрофона в текст

Google Docs – онлайн-сервис для работы с текстом и данными. Внутри платформы можно включить микрофон, который поможет перевести речь в письменный формат. Для его активации следует воспользоваться комбинацией клавиш Ctrl+Shift+S, затем выбрать язык и нажать на значок микрофона.

Увы, но сервис очень плохо справляется с тихой и шумной диктофонной записью, но отлично с диктовкой в микрофон. Главный недостаток – работает только в активном окне Google Docs, то есть наговорить что-то с другой вкладки или включить запись на компьютере не получится.

Плюсы:

  • бесплатный продукт;
  • автоматическое сохранение текста;
  • возможность сразу же отредактировать материал.

Минусы:

  • медленная расшифровка;
  • распознает не все слова: требуется хорошая диктовка, чтобы получить качественный текст;
  • не сможет распознать запись из другой вкладки браузера или плеера.

Операционная система: Web

Ссылка на сервис:  Google Docs

Комьюнити теперь в Телеграм

Подпишитесь и будьте в курсе последних IT-новостей

Подписаться

Google Keep

Google Keep приложение для расшифровки аудио в текст

Google Keep – это мобильное приложение для заметок, с помощью которого можно также переводить голосовые записи в текст. Для этого нужно нажать на значок микрофона на панели инструментов. Разговор в аудиоформате будет сохранен вместе с расшифрованным текстом.

Для длительных записей Google Keep, к сожалению, не подойдет, потому что останавливает запись после коротких пауз в диалоге. Но его можно использовать, чтобы расшифровывать уже готовые записи по кускам.

По какой‑то причине распознавание голоса в Keep работает лучше, чем в Гугл-документах: приложение даже угадывает начало новой фразы и помечает его заглавной буквой.

Плюсы:

  • легко перевести голосовую запись через микрофон;
  • достаточно точно расшифровывает аудио.

Минусы:

  • нельзя записывать голосовые аудио с паузами;
  • работает только с микрофоном.

Операционная система: Android, iOS, Web

Ссылка на скачивание: Google Keep

Speechpad

Speechpad сервис для распознавания аудио в текст

Speechpad – бесплатный онлайн-инструмент, с помощью которого можно расшифровать голосовую запись. Работает исключительно со звуком из микрофона, поэтому следует позаботиться о качестве оборудования.

Поддерживается Google Chrome, но есть приложения для iOS и Android. Также возможна интеграция в Windows, Mac и Linux, чтобы обеспечить голосовой ввод в любом текстовом поле. Четкий звук понимает достаточно хорошо, плохой – крайне посредственно.

Плюсы:

  • бесплатная программа на русском языке;
  • можно отредактировать текст;
  • есть инструкции по работе с сервисом;
  • воспринимает звуки с соседних вкладок браузера – можно работать с одного устройства.

Минусы:

  • транскрибация из файла требует хорошего качества звука, в ином случае расшифровка будет неполной.

Операционная система: Web

Ссылка на сервис: Speechpad

RealSpeaker

RealSpeaker сервис для распознавания аудио в текст

RealSpeaker – платный сервис для перевода аудиофайлов в текстовый контент. Работает исключительно с готовыми файлами, поэтому использовать микрофон, как в предыдущих случаях, не получится.

Перевод аудио в текст бесплатен только в том случае, если запись длится не более 1.5 минут. Далее – 8 руб. за минуту, максимальная продолжительность аудио – 180 мин. Поддерживается более 40 языков, включая русский.

Для работы с сервисом достаточно выбрать язык озвучки, загрузить файл, рассчитать время расшифровки и оплатить услугу.

Плюсы:

  • есть возможность работать с файлами;
  • простой в использовании сервис.

Минусы:

  • платный сервис;
  • не позволяет надиктовать текст в микрофон;
  • в течение 24 часов файл доступен всем, и его нельзя скрыть.

Операционная система: Web

Ссылка на сервис: RealSpeaker

Dictation

Dictation сервис для распознавания аудио в текст

Dictation – бесплатный онлайн-сервис, позволяющий распознавать запись с микрофона. Понимает не только русские слова, но и десятки команд: тире, новую строку и так далее.

Из особенностей – это встроенный редактор, позволяющий форматировать текст, оформлять списки и делать много всего другого. Готовый текст можно отправить на почту, в социальные сети или просто сохранить на компьютере.

Из недостатков – распознает только качественную речь. Если запись была сделана на слабенький микрофон, то получить хороший результат не получится.

Плюсы:

  • быстрая отправка результата на почту и в социальные сети;
  • есть встроенный редактор;
  • отлично и максимально точно справляется с хорошо записанной речью.

Минусы:

  • плохо воспринимает некачественную запись.

Операционная система: Web

Ссылка на сервис: Dictation

oTranscribe

oTranscribe сервис для распознавания аудио в текст

Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и видео, в том числе с YouTube-роликами. Открывает множество форматов: WAV, MP3, MPEG, WEBM и другие. Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.

Плюсы:

  • минималистичный редактор текста;
  • автоматически сохраняет документ в формате HTML;
  • для удобства пользования можно настроить горячие клавиши.

Минусы:

  • нет автоматизации процесса, все нужно делать вручную.

Операционная система: Web

Ссылка на сервис: oTranscribe

Transcribe

Transcribe сервис для распознавания аудио в текст

Transcribe – это универсальный сервис, в котором можно расшифровать файл или самостоятельно надиктовать текст. Подписка стоит 20 долларов в год. Есть тестовый период на 7 дней, в течение которого можно безлимитно использовать ручную расшифровку и 30 минут пользоваться автоматической транскрибацией.

В редакторе готового текста можно расставить временные метки, а также прослушать интервью на замедленной скорости и исправить неправильно распознанные сервисом места.

Из особенностей можно отметить поддержку множества форматов – 3GP, AAC, AIF, AIFF, AMR, CAF, DSS, FLAC, M4A, MOV, MP3, MP4, OGG, WAV, WEBM, WMA, WMV. Максимальный размер файла – 6 Гб или 420 минут.

Плюсы:

  • простой в управлении сервис;
  • есть редактор текста в самостоятельной расшифровке;
  • поддерживает ссылки с YouTube;
  • есть таймкоды;
  • файлы можно загрузить как с ПК, так и с облачных сервисов;
  • есть подробная инструкция;
  • поддерживает большое количество языков и диалектов;
  • есть горячие клавиши для быстрой работы.

Минусы:

  • платный функционал.

Операционная система: Web

Ссылка на сервис: Transcribe

Dragon Dictation

Dragon Dictation приложение для распознавания аудио в текст

Dragon Dictation – платная программа для iOS-устройств, способная распознавать продиктованный текст с микрофона. Есть тестовый период на неделю, далее необходимо оформить подписку – $14.99 в месяц или $149 единоразово.

Плюсы:

  • позволяет только диктовать текст;

Минусы:

  • нельзя расшифровать файлы или ссылки из YouTube;
  • платное приложение.

Операционная система: iOS

Ссылка на скачивание: Dragon Dictation

Speechnotes

Speechnotes сервис для распознавания аудио в текст

Speechnotes – онлайн-сервис для браузеров и приложение для Android. В онлайн-версии расшифровка файлов платная – $0.1 за минуту. В приложении же есть бесплатный тестовый период, после его окончания нужно приобрести подписку за 69 рублей в месяц. Также в нем можно сохранять файлы в облако, отправлять их в соцсети и по почте. Онлайн-сервис воспринимает знаки препинания, а приложение распознает еще и смайлики.

Плюсы:

  • сохраняет документ в форматах doc и txt, позволяет работать с PDF;
  • простой интерфейс;
  • есть редактор текста;
  • более 50 языков.

Минусы:

  • платный сервис.

Операционная система: Web, Android

Ссылка на сервис: Speechnotes, на Android: Speechnotes

Otter

Otter сервис для распознавания аудио в текст

Последний в нашем списке инструмент для расшифровки аудио в текст – это Otter. Работает только с английским языком, но у сервиса есть отличительная особенность: он может запоминать голос диктора – такая возможность позволяет разделять реплики в записях с несколькими собеседниками.

Также можно загрузить аудио или видео с английской речью, в результате чего сервис выведет текст. Некоторые спорные моменты из-за произношения могут расшифровываться неправильно.

Программа будет полезна, если вы работаете с англоязычными источниками.

Плюсы:

  • есть функция запоминания голоса;
  • бесплатный функционал;
  • легко распознает аудио или видео на английском языке.

Минусы:

  • работает только с английским языком.

Операционная система: Web, iOS

Ссылка на сервис: Otter

Заключение

Сегодня мы поговорили о лучших сервисах для расшифровки аудио. Каждый из них позволяет буквально в несколько кликов получить желаемый результат, но только в том случае, если исходный файл был в хорошем качестве. Если же запись была записана нечетко, то не все инструменты могут с этим хорошо справиться, особенно те, что доступны бесплатно.

Для кого предназначен этот инструмент?

Средство распознавания речи предназначено для тех, кто испытывает проблемы со здоровьем: глазами и/или спиной. Вы можете просто диктовать текст лежа на диване и не напрягая глаз.

Также это средство предназначено для людей, которые печатают медленно или просто слишком ленивы, чтобы печатать 🙂

Обнаружение и устранение проблем

Могут возникнуть следующие проблемы:

  • Аппаратная проблема с микрофоном
  • Браузер не поддерживает синтез речи (последняя версия “Chrome” поддерживает его)
  • Нет разрешения доступа к микрофону
  • Браузер слушает не тот микрофон

Для решения проблемы с разрешением доступа к микрофону нажмите на иконку камеры в адресной строке браузера (она появится, когда Вы нажмете на кнопку “Воспроизвести”), далее выставьте разрешение для использования микрофона и выберите необходимый микрофон из выпадающего списка.

В случае каких-либо других проблем, просто попробуйте перезагрузить браузер несколько раз или свяжитесь с нами, детально описав суть проблемы.

Зачастую журналистам, маркетологам, видеомонтажёрам и многим другим приходится в своей работе расшифровывать аудиозаписи и превращать их в текст. Делать это вручную — долго и сложно. Сэкономить время и силы помогают специальные сервисы — таких мы нашли три.

RealSpeaker

RealSpeaker помогает расшифровать речь на 38 языках, есть и русский. Сервис отличается простотой использования — достаточно выбрать язык и загрузить файл длительностью до 180 минут. После этого RealSpeaker покажет расчётное время, когда текст будет готов. В среднем, на двухминутный файл уходит примерно 30 секунд.

Далее заходим в «Мои медиа» и нажимаем кнопку «Транскрибировать». Готовый текст можно редактировать непосредственно в сервисе или скачать его в формате SRT или WebVTT, если вам нужен файл для субтитров к видео.

Бесплатно сервис переводит только первые 1,5 минуты записи. Далее минута обойдется в 8 рублей. Оплатить можно банковской картой.

Существенный недостаток RealSpeaker — в разделе «Мои медиа» сервис показывает не только ваши файлы, но и записи других пользователей. Так что про конфиденциальность данных здесь можно забыть.

Speechpad

Speechpad — один из первых отечественных сервисов по расшифровке речи. Бесплатно он обрабатывает только 15 минут записи. Для полноценной работы с сервисом в личном кабинете нужно приобрести подписку:

  • 1 месяц — 100 рублей;
  • 3 месяца — 250 рублей;
  • 12 месяцев — 800 рублей.

Для работы с файлами пролистайте главный экран вниз и нажмите кнопку «+Транскрибацию». Выберите тип файла HTML5 audio и кликните на кнопку «Включить запись». Для удобства расшифровки сервис предлагает несколько опций. Вы можете включить защиту от шумов, запускать файл с определённых временных меток, управлять перемоткой и скоростью воспроизведения.

Обратите внимание: если в аудиозаписи возникают помехи или голос спикера становится нечётким, Speechpad может пропустить часть текста.

Speechtotext

Этот сервис бесплатно расшифровывает лишь десять минут аудиозаписи. Далее час распознавания речи обойдётся в 150 рублей.

Кроме того, у этого сервиса есть бот в Telegram. Правда, по времени он также ограничен десятью минутами. Бот поддерживает файлы до 20 МБ. Расшифровка занимает до 20 минут.

Пока что сервис работает только с русским языком. Однако команда разработчиков заверяет, что скоро добавит и другие языки. При этом Speechtotext стабильно выпускает обновления для улучшения сервиса. Кроме того, здесь предусмотрена служба поддержки, которая помогает пользователям решать проблемы с платформой.

Распознавание речи от «ВКонтакте»

Социальная сеть «Вконтакте» предлагает бесплатное решение — распознавание аудио с помощью нейросетей. Сервис обрабатывает два типа речи: спонтанную — когда говорящий использует сленг или даже нецензурную брань, и нейтральную — например, интервью или выступление.

Разработчики утверждают, что нейросеть может понять человека, даже если он говорит неразборчиво или на записи есть шумы. А ещё она умеет разбивать текст на предложения и ставить запятые.

Сервис работает только с файлами на русском языке. Загрузить можно только три формата: MP3, OGG или WAV. Записи до 100 минут в день можно распознать бесплатно.

Если вы снимаете видео и записываете аудио, вам нужно всё это

где-то

хранить и держать под рукой. Отличный вариант — облако «МТС Вторая память». Кстати, у вас есть в этом облаке аж 512 ГБ, если вы пользуетесь МТС Premium.

В данной статье мы сравним сервисы автоматической транскрибации, которые распознают речь на русском языке и принимают оплату из РФ. Для сравнения мы взяли часовой подкаст из ютуба и расшифровали его в текст вручную. Затем эту запись подкаста мы загрузили в сервисы автоматической транскрибации и сравнили результаты с эталонной ручной расшифровкой

Оглавление

  • Как мы считали точность
  • 1. Teamlogs.ru
  • 2. Realspeaker.net
  • 3. Apihost.ru
  • 4. Speechtotext.ru
  • Итоговая таблица

Как мы считали точность распознавания

Далее для каждого сервиса в сравнении мы указали результат по метрике WER. Частота ошибок в словах (Word Error Rate, WER) – это метрика, используемая в распознавании речи для оценки качества распознавания текста. WER измеряет процент ошибок в распознавании текста, выраженный в процентах от общего числа слов в исходном тексте.

Например, если исходный текст содержит 100 слов, а распознанный текст содержит 10 ошибок, WER будет равен 10%. Чем ниже WER, тем более точным является распознавание речи.

Помимо качества распознавания мы еще сравнили сервисы по следующим критериям:

  • стоимость за минуту расшифровки,
  • скорости обработки на примере часовой записи,
  • наличие функции разбивки текста по спикерам,
  • наличие встроенного редактора и его функциональность,
  • возможность экспорта текста

скриншот главной страницы teamlogs.ru

Teamlogs.ru – онлайн-сервис транскрибации аудио и видео. Сервис принимает любые аудио- и видеофайлы и расшифровывает их в текст, автоматически расставляет знаки препинания и делит текст по спикерам.

Стоимость расшифровки начинается от 7 рублей за минуту при покупке от 90 минут и выше при покупке менее 90 минут. Новым пользователям дается 15 бесплатных тестовых минут.

Транскрибация тестового файла стоила 522 рубля (58 минут), обработка файла заняла 6 минут.

Дополнительно следует отметить встроенный редактор текста с прослушиванием аудио, который может быть полезен для ревью распознанного материала. Экспорт текста в форматах *.docx, *.xlsx, *.srt.

скриншот окна с результатом распознавания, teamlogs.ru

Результат теста:

  • Частота ошибок в словах: 5.31%

  • Скорости обработки на примере часовой записи: 6 минут

  • Наличие функции разбивки текста по спикерам: да

  • Наличие встроенного редактора: да, с функцией прослушивания аудио

  • Экспорт: *.docx, *.xlsx, *.srt

На что стоит обратить внимание:

  • Максимальный размер файла 800 мб

  • Аудиодорожка в редакторе хранится 30 дней

скриншот главной страницы realspeaker.net

Realspeaker.net – онлайн сервис с выбором множества языков для транскрибации. Стоимость минуты – 8 руб, бесплатно можно распознать аудио до 90 секунд, максимальная длительность загружаемого файла – 180 минут. Расшифровка тестового файла заняла 20 минут и стоила 427 рублей.

После завершения процесса расшифровки сервис предлагает перейти в раздел “Мои медиа”, где среди различных файлов (!), вам необходимо найти свой. В данном разделе вы можете найти распознанные файлы всех пользователей данного сервиса. Текст мы получили без разбивки на спикеров.

скриншот окна с результатом распознавания, realspeaker.net

Сервис позволяет редактировать полученный текст, но без прослушивания и без сохранения изменений. Позже, когда мы вернулись за своим файлом в сервис, мы не смогли его найти, поэтому на картинке скрин рандомного файла.

Полученный текст можно скопировать, либо скачать в форматах *.srt или *.vtt

Результат теста:

  • Частота ошибок в словах: 23.79%
  • Скорости обработки на примере часовой записи: 20 минут
  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: есть, без прослушивания
  • Экспорт: *.srt, *.vtt

На что стоит обратить внимание:

  • Ваш текст окажется в открытом доступе, скачать его смогут все пользователи сайта
  • Максимальный длительность файла 180 минут

скриншот страницы apihost.ru/speech-to-text

Apihost – набор различных сервисов по работе с аудио и текстами, в числе которых есть и распознавание речи. Стоимость за минуту записи 2.4 руб, максимальный лимит на размер файла 200 мб. Чтобы загрузить файл бОльшего размера нужно писать на почту в поддержку. Стоимость транскрибации тестового файла составила 139,72 рублей, но заплатить пришлось 500 рублей, так как это минимальная сумма пополнения.

По скорости расшифровки: первая загрузка файла завершилась неудачей, сервис не отвечал в течение 15 минут, пришлось грузить повторно. Со второй попытки файл был переведен в текст за 6 минут.

скриншот окна с результатом распознавания, apihost.ru/speech-to-text

Текст со знаками препинания, но без разбивки по спикерам. После транскрибации сервис не позволяет редактировать файл, его можно только посмотреть. Текст скачать можно как файл *.txt, *.doc или просто скопировать текст.

Результат теста:

  • Частота ошибок в словах: 15.68%

  • Скорости обработки на примере часовой записи: 6 минут

  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: отсутствует
  • Экспорт: *.txt, *.doc

На что стоит обратить внимание:

  • Максимальный размер файла 200 мб
  • Минимальная сумма пополнения от 500 рублей

скриншот главной страницы speechtotext.ru

Speechtotext.ru – онлайн-сервис по расшифровке аудио в текст, час распознавания здесь стоит 100 рублей, новым пользователям дают 10 тестовых минут. Сервис не позволяет загрузить файл, пока не пополнен счёт. Расшифровка тестового файла заняла 15 минут.

Также у данного сервиса есть телеграм-бот, но там лимит по размеру файла 20 мб.

Текст получился без разбивки на спикеров, онлайн-редактор есть, но без функции прослушивания, распознанный текст можно скачать в формате txt.

скриншот окна с результатом распознавания, Speechtotext.ru

Результат теста:

  • Частота ошибок в словах: 15.12%
  • Скорости обработки на примере часовой записи: 15 минут
  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: есть, без прослушивания
  • Экспорт: *.txt

На что стоит обратить внимание:

  • Перед загрузкой файла необходимо зарегистрироваться и пополнить счет

Итог

Мы подготовили сводную таблицу, в которой отображены результаты тестирования онлайн-сервисов для расшифровки речи в текст на русском языке. Эта таблица позволит ознакомиться с основными параметрами сервисов, такими как стоимость, качество расшифровки, наличие и функциональность редактора текста, возможности экспорта.

Надеемся, что данная таблица поможет вам выбрать подходящий сервис и облегчит вашу работу

Таблица сравнения сервисов онлайн-транскрибации на русском языке 2023

В маркетинге нужно постоянно работать с текстом: описывать концепции и тезисы, составлять брифы, придумывать вовлекающие и продающие формулировки. Это часто приходится делать прямо на ходу, когда под рукой нет ноутбука. В таких случаях свежую идею удобно наговорить голосом.

Расскажу про инструменты, которые делают работу с устным текстом проще. Программы для преобразования речи в текст позволяют надиктовать короткую заметку или объёмную статью. А функция транскрибации аудио и видеофайлов помогает в расшифровке длинных интервью и переговоров.

Что нужно сделать Какой инструмент подойдёт
Надиктовать текст в браузере Google Документы, Speech to Text BOT, Speechpad, Dictation
Надиктовать текст на смартфон Google Keep, Dictation для iOS, Speechnotes для Android
Транскрибировать аудио и видео Speechlogger, Vocalmatic, RealSpeaker, Google Документы, Speechpad, Dictation
Расшифровать аудио- и видеозапись вручную Zapisano

Для онлайн-конвертации голоса в текст

Онлайн-конвертеры помогают записывать текст голосом. Принцип таких сервисов примерно одинаков: вы чётко проговариваете слова, а система преобразует их в текст и записывает. Полученный результат, скорее всего, придётся отредактировать: проставить знаки препинания, проверить правильность написания сложных слов. Чтобы сократить объём редактуры, используйте высокочувствительный микрофон, медленно и разборчиво произносите слова.

Google Документы

Сервис Google Документы позволяет переводить устную речь в записанный текст. Это встроенная функция с поддержкой разных языков.

Для активации голосового ввода перейдите в раздел «Инструменты» и кликните на «Голосовой ввод».

Голосовой ввод в Google Документах

Для использования голосового ввода в Google Документах не требуется установка плагинов

Затем нажмите на кнопку и говорите. Постарайтесь произносить слова медленно и чётко. Система умеет распознавать знаки препинания — просто говорите в нужных местах «Точка», «Запятая» и так далее. Также на русском языке можно использовать команды «Новая строка» и «Новый абзац». На английском языке перечень голосовых команд более обширный, полный список можно посмотреть в Справке.

Результат голосового ввода в Google Документах

Так выглядит результат голосового ввода от в Google Документах

Сервис неплохо конвертирует голос в текст при условии чёткого и правильного произношения. Но корректура всё равно может понадобиться — поправить регистр, проверить расстановку знаков препинаний и написание сложных слов.

Также в Google Документах можно транскрибировать аудио- и видеофайлы. Для этого включите воспроизведение файла на другом устройстве рядом с основным микрофоном. Способ работает, если речь в записи чёткая, разборчивая и не слишком быстрая. Для  лучшего распознавания можно использовать замедленное воспроизведение.

Speech to Text BOT

Онлайн-сервис работает через браузер Chrome на десктопе и некоторых мобильных устройствах. Интерфейс интуитивно понятен: есть окно ввода текста, кнопка с микрофоном для запуска записи и список поддерживаемых команд.

Запись текста голосом в Speech to Text BOT

Speech to Text BOT различает знаки препинания и заглавные буквы

Сервис поддерживает десятки разных языков. В настройках доступно форматирование текста: разные типа и размеры шрифта, написание предложений с заглавной буквы. Записанный текст можно редактировать, скачивать, отправлять в печать, копировать. Сервис неплохо переводит речь в текст при надиктовке, но не транскрибирует аудио- и видеофайлы, даже при их хорошем качестве.

Speechpad

Speechpad — удобный онлайн-блокнот для речевого ввода. Здесь можно надиктовывать текст на одном из пятнадцати доступных языков. Доступно параллельное форматирование текста: замена регистра, добавление знаков пунктуации и тегов. Запись речи включается и выключается по необходимости.

Голос в текст в Speechpad

После диктовки в Speechpad получился почти точный текст

Speechpad поддерживает преобразование в текст аудио- и видеозаписей. Для этого кликните на кнопку «+Транскрибацию» под полем ввода. После обновления страницы загрузите нужный файл, укажите ссылку или ID видео с YouTube. При необходимости настройте параметры: качество и скорость воспроизведения, указание временных меток, защиту от шумов. После этого можно включать запись. Результат преобразования в текстовом формате появится в окошке блокнота на этой же странице.

Конвертер аудио и видео в текст

При конвертации записи в текст можно настраивать скорость воспроизведения, чтобы результат был более точным

Можно установить расширение, чтобы использовать голосовой ввод в любом текстовом поле браузера. Также есть модуль интеграции с Windows, Mac или Linux.

Dictation

Индийский сервис Dictation поддерживает более 100 языков, включая русский. Принцип работы схож с Google Документами, но скорость распознавания выше. При надиктовке используйте команды «Новая строка» и «Новый абзац». Указание знаков препинания учитывается не всегда, но их можно проставить вручную при редактуре полученного текста.

Результат надиктовки в Dictation

При надиктовке в Dictation могут не распознаваться или неверно преобразовываться отдельные слова

Результат можно отформатировать и отредактировать, скопировать, сохранить, опубликовать, твитнуть, отправить по email или распечатать. Качество распознавания в Dictation позволяет транскрибировать аудио- и видеофайлы. Для этого нужно включить их воспроизведение рядом с микрофоном. Готовый текст потребует редактуры.

Для преобразования речи в текст на мобильных устройствах

Если нужно записать какую-то мысль или идею вдалеке от рабочего стола, используйте мобильные сервисы. С их помощью можно надиктовать текст, сохранить его или отправить в другое приложение.

Google Keep

Google Keep позволяет надиктовывать заметки голосом. Сервис преобразует речь в текст, который при необходимости можно отредактировать. Созданные заметки синхронизируются на разных устройствах одного аккаунта. Их можно открыть на телефоне или компьютере, через приложение или веб-версию, в Google Документах или в Gmail.

Заметка в Google Keep

При записи текста голосом в Google Keep можно делать паузы

Заметки из Google Keep можно копировать в Google Документы и отправлять через email или в соцсети.

Dictation для iOS

Плюс этого приложения для iOS — в отсутствии ограничений по времени диктовки. Dictation поддерживает 40 языков, а надиктованный текст можно быстро перевести на другой язык.

Интерфейс Dictation

В Dictation можно быстро писать заметки для соцсетей

Также приложение позволяет транскрибировать аудиофайлы. Все записи синхронизируются на разных устройствах при включенном iCloud. Надиктованными текстами можно делиться: отправлять в мессенджеры или по email.

Speechnotes для Android

Приложение Speechnotes работает на основе распознавания речи Google. Для начала записи достаточно кликнуть по кнопке микрофона и начать говорить. Некоторые знаки пунктуации можно озвучивать голосом, для других доступна встроенная клавиатура, которой можно пользоваться прямо в процессе надиктовки.

Запись текста голосом в мобильном приложении

Результат надиктовки в Speechnotes требует совсем незначительной редактуры

Готовый текст можно отредактировать, сохранить, переслать, распечатать. В премиум-версии (от 1,5$) доступно создание клавиш для вставки самых используемых фраз.

Для автоматической транскрибации аудио и видео

Ручная расшифровка аудио- и видеофайлов, как правило, занимает много времени. Надо прослушать небольшую часть записи, сделать паузу, записать, снова включить запись — и так много раз. Если доверить расшифровку специализированным сервисам, получение результата займёт столько же времени, сколько длится запись, или даже меньше.

Speechlogger

Speechlogger преобразовывает голос в текст. Также его можно использовать как блокнот. В сервисе есть функция расшифровки аудио- и видеофайлов в форматах .aac, .m4a, .avi, .mp3, .mp4, .mpeg, .ogg, .raw, .flac, .wav.

Speechlogger работает с применением технологий искусственного интеллекта. При транскрибации автоматически проставляется пунктуация и временные метки. Для начала работы нужна авторизация через Google аккаунт.

Результат транскрибации в Speechlogger

В Speechlogger можно включить или отключить временные метки

Стоимость расшифровки — $0,1/минута. Минимальная сумма для пополнения баланса — $4,5. Время обработки соответствует длительности записи. Уведомление о готовности приходит на email. Точность расшифровки варьируется от 100 до 84% и зависит от качества записи.

Vocalmatic

В этом сервисе можно конвертировать в текст аудио- и видеофайлы. Vocalmatic поддерживает 100+ языков, в том числе и русский. Готовый текст можно подправить в онлайн-редакторе и сохранить в Word или Блокнот.

Онлайн-редактор Vocalmatic

В редакторе Vocalmatic можно сразу отредактировать текст

Для новой учётной записи доступно 30 минут бесплатной расшифровки. Этого хватает, чтобы проверить качество готового текста. Час транскрипции стоит $15, но чем больше часов покупаешь единовременно, тем ниже цена.

RealSpeaker

Сервис позволяет транскрибировать аудио- и видеофайлы длительностью до 180 минут. Для запуска расшифровки нужно выбрать язык записи, загрузить файл и запустить процесс. Транскрибация платная — 8 руб./минута. Есть возможность потестировать сервис, поскольку 1,5 минуты расшифровки доступны бесплатно.

Транскрибация интервью в RealSpeaker

При транскрибации в RealSpeaker автоматически проставляются знаки препинания

Готовый текст можно подкорректировать в онлайн-редакторе, а затем скопировать или скачать в формате SRT или WebVTT. Стоит учитывать, что все результаты попадают в общее хранилище. Если в процессе загрузки файла оставить галочку «Сделать файл неудаляемым в течение 24 часов», то результат расшифровки нельзя удалить в течение суток. Если галочку убрать, то результат расшифровки можно удалить сразу после его копирования.

Для ручной расшифровки аудио- и видеозаписей

Результат автоматической расшифровки почти всегда требует доработки — проставить знаки препинания, подправить термины, заменить неверное написание отдельных слов. Если времени на доработку материала нет и нужна идеальная расшифровка, лучше доверить преобразование записей живым людям. Можно поискать частного специалиста или воспользоваться услугами специализированного сервиса.

Zapisano

Zapisano — сервис профессиональной ручной расшифровки аудио и видео: транскрибацией занимаются не машины, а люди. Это обеспечивает качественный результат, отсутствие «мусора» и верную пунктуацию. Помимо русского сервис поддерживает и некоторые иностранные языки.

Пример расшифровки от Zapisano

При расшифровке файлов в Zapisano тексты сразу редактируют

Стоимость расшифровки зависит от сложности документа и временного периода. Так в категории «Стандарт» обработка файла стоит от 19 до 50 рублей за минуту, а длительность расшифровки варьируется от пяти до одного дня. Чем сложнее материал и выше срочность, тем дороже услуга. Можно самостоятельно просчитать стоимость при помощи тарифного калькулятора.

Ни один сервис с автоматическим преобразованием речи в текст не заменяет качественной ручной транскрибации. В большинстве случаев результат придётся редактировать. Но инструменты для перевода голоса в текст могут пригодиться при создании быстрых заметок, надиктовке объёмных материалов или черновой расшифровке записей.

ЭКСКЛЮЗИВЫ ⚡️
Читайте только в блоге
Unisender

Поделиться

СВЕЖИЕ СТАТЬИ

Другие материалы из этой рубрики

документ

документ

Не пропускайте новые статьи

Подписывайтесь на соцсети

Делимся новостями и свежими статьями, рассказываем о новинках сервиса

«Честно» — авторская рассылка от редакции Unisender

Искренние письма о работе и жизни. Свежие статьи из блога. Эксклюзивные кейсы
и интервью с экспертами диджитала.

unisender

Добавить комментарий