Система распознавания речи переводит устную речь в текст, с которым уже можно работать: искать нужные фразы, передавать данные в CRM, строить отчёты, запускать сценарии голосового робота или анализировать качество диалогов. Технология используется в голосовых помощниках, телефонии, субтитрах, медицинских сервисах и контактных центрах. В статье разберём, как она устроена, какие модели точнее справляются с русским языком и где распознавание речи применяют в B2B.
Распознавание речи в прикладном смысле – это перевод аудио в текст, который дальше может прочитать человек или обработать программа. На этом построена обработка речи в голосовых помощниках, субтитрах, расшифровке звонков и голосовых роботах. По данным разработчиков (Сбер, Yandex, OpenAI), точность лучших систем на русском языке на чистой речи достигает 95–98 %. Но в реальных звонках результат зависит не только от модели, могут мешают шум, перебивания, плохая связь, акценты и редкие термины.
В англоязычных материалах для этой технологии используют термины ASR (Automatic Speech Recognition) и STT (Speech-to-Text). Это одно направление: на вход поступает звуковой сигнал, на выходе получается последовательность слов. Синтез речи, или TTS (Text-to-Speech), решает обратную задачу – озвучивает готовый текст. Вместе распознавание и синтез образуют основу голосового диалога с роботом или ассистентом. Дальше под «системой распознавания речи» подразумевается именно ASR.
Как распознавание речи прошло путь от первых систем до нейросетей
Первые системы распознавания речи были очень узкими. В 1952 году Bell Labs показала Audrey: она распознавала 10 цифр с точностью около 90 %, но только в голосе одного оператора и с паузой не меньше 350 мс между цифрами.
В 1970–1990-е появились скрытые модели Маркова (HMM) и первые коммерческие диктовщики. Они уже работали со словарём в десятки тысяч слов, но все еще зависели от дикции, шума и заранее заданных шаблонов.
Следующий скачок произошёл в 2010-е, когда в распознавании речи стали массово использовать глубокие нейросети: RNN, LSTM, затем трансформеры. Именно трансформер сделал возможным понимание контекста длинных фраз: модель «видит» всю реплику целиком, а не короткое окно соседних слов. Релиз Whisper от OpenAI в 2022 году стал одной из точек, после которых открытые ASR-модели начали быстро распространяться.
Эта история важна не сама по себе: она объясняет, почему современные системы лучше справляются с живой речью, шумом и длинными фразами. Дальше разберём, что происходит с аудио внутри такой системы.
Как работает распознавание речи: пошагово
Распознавание речи проходит шесть этапов: захват аудио → оцифровка сигнала → шумоподавление → разбиение на фреймы → распознавание нейросетью → постобработка текста. На практике часть этих этапов скрыта внутри модели, но логика остается той же: сначала звук приводят к удобному для анализа виду, затем система определяет слова и собирает из них читаемую фразу. На коротком аудио весь цикл занимает доли секунды.
Голосовые боты для бизнеса: почему малый бизнес переходит на ИИ-ассистентов
Операторы тратят часы на одни и те же вопросы – «какой график», «где мой заказ», «можно ли записаться». Голосовой ИИ-ассистент берёт эту рутину на себя: отвечает 24/7, записывает клиентов и переводит на человека только сложные диалоги. Разбираем, почему малый бизнес массово переходит на голосовых ботов, где это выгодно и как внедрить ассистента без штата разработчиков.
Захват аудио. Источник – микрофон, телефонная линия или файл.
Оцифровка сигнала. Аналоговый звук переводится в цифровой формат. Для телефонии обычно хватает 8 кГц, для микрофонной речи чаще используют 16 кГц.
Шумоподавление. Система отделяет речь от пауз, эха и фонового шума. Для этого используют VAD – алгоритм, который понимает, где человек говорит, а где в записи тишина или лишний звук.
Разбиение на фреймы. Запись режется на очень короткие фрагменты по 10–25 мс. Так нейросети проще увидеть, как меняется звук внутри слова.
Распознавание нейросетью. В классическом подходе одна модель сопоставляет звуки с фонемами, другая собирает слова в фразу. В end-to-end-подходе это делает одна нейросеть, обученная на больших массивах аудио и расшифровок.
Постобработка. Система добавляет пунктуацию, заглавные буквы, приводит числа и даты к нормальному виду. Если в записи несколько людей, диаризация помогает понять, кто произнес каждую реплику.
Если упростить, технические термины здесь описывают три обычные задачи: убрать лишний шум, разложить звук на удобные для модели фрагменты и отделить одного говорящего от другого.
Чем современные модели отличаются от классических
В индустрии используют два подхода: классический гибридный (HMM + раздельные акустическая и языковая модели) и современный end-to-end на трансформерах. End-to-end означает, что одна модель напрямую превращает аудио в текст, без отдельной сборки из нескольких модулей.
По публичным бенчмаркам точность гибридного подхода на русском – 60–80 %, end-to-end – 95–98 %. Такие модели проще дообучать, но им нужны GPU и большие наборы данных – иногда десятки тысяч часов аудио.
Архитектуру Conformer опубликовал Google Brain на Interspeech 2020. Она сочетает трансформер с механизмами, которые лучше улавливают короткие звуковые признаки: переходы между звуками, шумы и локальные частотные паттерны. Поэтому Conformer стал стандартом «де-факто» для речевых моделей – на нём, в частности, построено семейство российских моделей GigaAM от Сбера.
После выбора архитектуры следующий практический вопрос – какую модель брать для русского языка и как проверять её на своих данных.
Какие системы лучше работают с русской речью
На русском языке лучше всего работают модели, которые обучали на русской речи: звонках, диктовках, диалогах, видео и готовых расшифровках. Среди заметных решений – GigaAM от Сбера, SaluteSpeech, SpeechKit от Yandex Cloud, T-One от Т-Банка и Vosk. По открытым тестам (Golos, Common Voice) лучшие из них достигают WER 4–6 % на чистой речи. В реальном кол-центре результат обычно хуже: типичный WER на разговорной телефонной речи – 10–20 %. Поэтому модель важно проверять не только на демо, а на собственных аудио.
Если нужна облачная платформа, чаще смотрят в сторону SaluteSpeech и Yandex SpeechKit: они закрывают распознавание, синтез речи и потоковую обработку. Yandex SpeechKit используют в голосовых помощниках, телефонии, субтитрах и B2B-интеграциях. Если аудио нельзя отправлять в облако или нужно дообучение под свою терминологию, подходят открытые модели GigaAM, T-One и Vosk. GigaAM-v3 обучена на 700 000 часов русской речи, T-One отдельно оптимизирована под телефонные разговоры, а Vosk удобен для локальных и кроссплатформенных сценариев, включая Android, iOS и Raspberry Pi.
Whisper от OpenAI остаётся одним из самых известных открытых ASR-движков: он обучен на 680 000 часов аудио и поддерживает 99 языков. Но на спонтанной русской телефонной речи специализированные русскоязычные модели обычно дают более практичный результат. VK Cloud Voice стоит рассматривать отдельно, если инфраструктура уже завязана на VK Cloud и нужны речевые сервисы внутри этой экосистемы.
Отдельно стоит упомянуть YandexGPT. Это не движок распознавания речи, а российская языковая модель для работы с уже готовым текстом: она помогает делать саммари звонков, классифицировать обращения и искать инсайты в диалогах.
Как понять, хорошо ли система распознаёт речь
На практике качество распознавания смотрят не по рекламному проценту точности, а по ошибкам в готовой расшифровке. Главная метрика – WER (Word Error Rate), доля ошибочных слов от общего числа. Ещё используют CER (Character Error Rate) – долю ошибочных символов. Чем ниже WER, тем меньше человеку придётся править текст после системы. У топовых русских моделей WER на чистой речи – 4–6 %, на телефонных диалогах – 10–20 %.
Формула WER: WER = (S + D + I) / N, где S – замененные слова, D – пропущенные, I – лишние, N – общее число слов в эталонном тексте.
В B2B-задачах важно тестировать модель на собственных аудио. Точность на «лабораторных» наборах данных (Golos, Common Voice) и в реальном кол-центре с шумами, плохой линией и спонтанной речью отличается в 2–3 раза. Практический подход – сравнить две-три модели на 200–500 размеченных звонках из собственной телефонии и посчитать WER на этих файлах.
Где используют распознавание речи
Распознавание речи нужно везде, где голос надо превратить в данные. В массовых продуктах это голосовые помощники, автосубтитры, расшифровка встреч и голосовое управление интерфейсами. Алиса, Маруся, Siri, Zoom, Контур.Толк и Яндекс.Телемост работают с этой задачей в разных форматах: от короткой команды до длинной записи совещания.
В бизнесе распознавание чаще всего встраивают в контактные центры. Голосовые роботы, IVR и голосовое меню принимают обращения и маршрутизируют клиентов; речевая аналитика расшифровывает звонки, проверяет скрипты и помогает находить возражения; AI-ассистенты связывают распознавание речи, языковую модель и синтез голоса, чтобы вести диалог без жёсткого сценария. Пример такого решения – AI Call, а для автоматизации первой линии используют голосового робота для бизнеса.
Есть и специализированные сценарии. В медицине голосом заполняют протоколы: российский Voice2Med от группы ЦРТ, по данным разработчика, показывает точность до 98 % и внедрён в 68 регионах РФ. В доступности технология помогает людям с нарушениями слуха, моторики и дислексией. В банках и антифроде распознавание речи часто работает рядом с голосовой биометрией: одно отвечает за то, что сказали, другое – за то, кто говорит.
В прикладных B2B-сценариях распознавание речи редко работает само по себе. Обычно оно встроено в телефонию, голосового робота, аналитику или AI-ассистента.
Как Гравител использует распознавание речи в продуктах
В платформе Гравител технологии распознавания речи лежат в основе трёх продуктов: голосового робота, AI Call и речевой аналитики. Все три встроены в виртуальную АТС и доступны как сервисы без отдельной инфраструктуры.
Голосовой робот. Принимает входящие и совершает исходящие звонки, классифицирует обращения и передает сложные случаи оператору. Распознавание превращает реплику клиента в текст, с которым дальше работает сценарий.
AI Call. Голосовой ассистент распознаёт реплику, определяет намерение клиента, формулирует ответ и озвучивает его. Сервис держит до 1 000 одновременных линий 24/7.
Речевая аналитика. Расшифровывает 100 % звонков и размечает разговоры: темы, скрипты, доли реплик, перебивания. Распознавание – на Yandex SpeechSense, смысловой разбор – на базе YandexGPT.
Почему распознавание речи ошибается
У распознавания речи три основных ограничения: акустические условия, узкая лексика и регулирование голосовых данных. В реальном колл-центре WER легко вырастает с 5 до 20 % – это компенсируют дообучением модели на собственных аудио и шумоподавлением.
Чаще всего точность падает из-за качества записи: мобильная связь, кодеки, эхо, фоновый шум и перебивания могут испортить даже сильную модель. К этому добавляются акценты, диалекты, смешение языков и спонтанная речь с повторами, паузами и незавершенными фразами.
Отдельная проблема – узкая отраслевая лексика. Медицинские, юридические и технические термины распознаются хуже общеупотребительных слов, если модель не видела их в обучающих данных. Поэтому для бизнеса важны отраслевые словари и дообучение на собственных звонках.
Есть и юридический слой. В ряде сценариев голосовые данные могут относиться к биометрическим персональным данным. Обработка регулируется Федеральным законом № 152-ФЗ, а требования к согласию, хранению и локализации лучше проверять с юристом под конкретный сценарий. С 30 мая 2025 года штрафы за нарушения выросли до десятков миллионов рублей.
Как будет развиваться распознавание речи
Главное направление развития – связка распознавания речи с большими языковыми моделями. Система сначала переводит голос в текст, а затем LLM выделяет тему обращения, намерение клиента, краткое содержание и следующий шаг. Примеры такого подхода – OpenAI Realtime API и связка SaluteSpeech + GigaChat от Сбера.
Второе направление – скорость. Для диалоговых ИИ-ассистентов и колл-роботов задержка должна быть ниже 300 мс, иначе разговор начинает ощущаться неестественным. Поэтому развивается потоковое распознавание в реальном времени: система не ждёт конца записи, а обрабатывает речь по ходу разговора.
Еще один заметный тренд – локальная обработка. Модели всё чаще запускают на устройстве или внутри инфраструктуры компании, чтобы не отправлять аудио в облако. Параллельно развивается мультимодальность и Speech-to-Speech: модели учатся работать не только с текстом, но и с голосом, изображением, интонацией и контекстом.
Частые вопросы
В чём разница между распознаванием речи и синтезом речи?
ASR переводит голос в текст, TTS – текст в голос; вместе они образуют полный голосовой диалог.
Какие модели распознавания речи хорошо работают с русским языком?
С русским языком хорошо работают российские облачные системы SaluteSpeech (Сбер) и Yandex SpeechKit, а также открытые модели GigaAM, T-One и Vosk. Whisper от OpenAI работает приемлемо, но на спонтанной телефонной речи уступает специализированным русскоязычным моделям.
Какая точность у современных систем распознавания речи?
На чистой речи топ-модели достигают WER 4–6 % (94–96 % правильных слов). На телефонной линии WER обычно 10–20 % – расшифровка пригодна для аналитики, но ошибается на именах и терминах.
Можно ли использовать ASR офлайн, без интернета?
Да: Vosk и GigaAM можно развернуть локально в инфраструктуре компании, Whisper – поднять на собственном сервере или ноутбуке с GPU. Такие решения могут уступать облачным API по точности на свежем сленге, зато не передают аудио наружу.
Законно ли записывать и распознавать звонки в России?
Записывать разговоры можно при информировании и согласии клиента. В ряде сценариев голосовые данные могут относиться к биометрическим персональным данным, поэтому обработка регулируется 152-ФЗ и требует внимательной настройки согласий, хранения и доступа. С 30 мая 2025 года штрафы за нарушения существенно выросли.
Что такое WER в распознавании речи?
WER (Word Error Rate) – доля ошибочно распознанных слов от общего числа в эталонном тексте; основная метрика качества ASR.
Может ли распознавание речи различать разных говорящих?
Да, это называется диаризация. Современные системы автоматически определяют нескольких спикеров в записи; оптимально 2–6 человек, при 7 и более точность снижается.
Распознавание речи и распознавание голоса – это одно и то же?
Нет. Распознавание речи (ASR) переводит сказанное в текст – отвечает на вопрос «что произнесли». Распознавание по голосу человека (голосовая биометрия) идентифицирует говорящего – отвечает на вопрос «кто произнёс». Это разные задачи и разные классы ИИ-моделей, хотя обе работают с аудио и часто используются вместе в системах антифрода.
Система распознавания речи: как работает ASR – Гравител