
От экспертов компании Гравител: Современные требования к качеству связи. Стерео-запись звонков и HD качество.
Чем хуже связь, тем больше вероятность того, что клиент “сорвётся”. Ему не захочется кричать в трубку и по двадцать раз повторять одно и то же, чтобы его услышали. Тем не менее, ваш менеджер может как-то спасти ситуацию, разобрать слова собеседника и договориться с ним. Ситуация усложняется, если вместо менеджера-человека с клиентом общается робот.
Возможности современных голосовых роботов и систем речевой аналитики безусловно впечатляют, но в умении распознавать речь при низком качестве связи они сильно уступают человеку. Для этих систем критически важно, чтобы сигнал был стабильным и пакеты не терялись. В противном случае они просто не смогут считать информацию и распознать её. В отличие от человека “умная” система не способна додумать и достроить фразу, исходя из контекста. Она умеет анализировать только то, что хорошо и ясно слышит.
Например, для системы речевой аналитики жизненно важно получать на входе стерео-запись в HD-качестве. Разговор должен обязательно записываться в два канала — оператора и клиента. Только так система сможет отделить речь одного собеседника от другого и проставить соответствующие теги после расшифровки.
Роботу при общении с человеком также необходимо слышать всё до последнего слова. Если хоть что-то будет пропущено, он не сможет подобрать адекватный ответ и отработать свой сценарий.
Почему это происходит
Для передачи данных по сети голос преобразуется в цифровой сигнал, который разбивается на пакеты данных. С устройства пользователя они передаются на роутер и сервер провайдера, затем попадают на принимающее устройство, где раскодируются и преобразуются обратно в голос.
Кажется, что всё просто, но на любом из этих этапов нас могут подстерегать проблемы.
Во время кодирования аудио, при передаче данных через сеть пользователя, из-за ошибок в протоколах и некорректной работы джиттер-буферов может происходить задержка. Она влияет на разборчивость речи, может приводить к появлению эха и наложению голосов. При значении задержки более 250 мс нормальный разговор становится почти невозможным.
Другой неприятный эффект — джиттер или дрожание сигнала — появляется из-за неравномерности передачи пакетов. Они могут задерживаться или нарушается последовательность их передачи, и в результате голос начинает звучать прерывисто, появляются треск и щелчки, “проглатываются” целые слова.
Из-за задержки или ошибок в формировании пакетов зашитые в них данные могут потеряться и не дойти до адресата. Часто это возникает на этапе сжатия данных и их передачи из-за ненадёжности соединения или перегруженности сети. Человек воспринимает это как искажение тембра голоса и полное пропадание звука, а робот просто не сможет распознать такую информацию.