Распознавание речи находит свою нишу

PC Week №5/2008 | Елена Гореткина

Общение с компьютером естественным для человека образом пока остается мечтой. Разработки пользовательского интерфейса на основе голосового управления и распознавания речи продолжаются много лет, но серьезных практических результатов пока не видно. Однако есть области, в которых эти технологии уже широко применяются. Так, в последнее время на Западе получили распространение голосовые системы управления складами. У нас они пока еще не в ходу, но, видимо, скоро будут использоваться. Одна из таких систем была представлена на Форуме по управлению цепями поставок Supply Chain Management Forum 2008, который был организован в Москве компанией ant Technologies. Об ее особенностях редактору PC Week Елене Гореткиной рассказывает Грег Таннер, вице-президент компании Vocollect, которая уже более двадцати лет занимается голосовыми технологиями.

PC Week: Вы впервые в России? Почему ваша компания заинтересовалась российским рынком?

Грег Таннер: Да, это мой первый визит в Москву. В последнее время мы стали получать все больше запросов из России, причем не только от компаний, которые занимаются управлением складским хозяйством, но и от их пользователей. Поэтому я надеюсь на успех в вашей стране.

PC Week: Какие у вас для этого есть основания?

Г. Т.: Тому есть целый ряд причин. Во-первых, наша технология пользуется спросом в других странах, даже не очень богатых, например в Польше, Венгрии. Она не зависит от языка, на котором говорят люди, и ее легко осваивают в государствах с низким уровнем образования, например, в Южноафриканской Республике. Во-вторых, сейчас западные поставщики систем управления складами [Warehouse Management System, WMS] инвестируют российский рынок, а они уже знакомы с преимуществами голосовых средств управления и с нашими продуктами. И в-третьих, в России начали работать наши пользователи — международные розничные сети, такие как “Ашан”, “Метро” и т. д. Они уже внедрили голосовую технологию в других отделениях и теперь хотят применить ее здесь. К тому же с развитием торговли растет конкуренция. Компании борются за покупателя и повышают внимание к качеству обслуживания. Им пригодятся голосовые средства, которые позволяют ускорить обработку заказов и повысить точность этого процесса.

PC Week: Как вы можете в целом охарактеризовать ситуацию в вашем сегменте рынка?

Г. Т.: Основное наше направление — средства голосового управления для распределительных центров. Этот рынок невелик, но он быстро растет. Сейчас мы расширяем сферу применения нашей технологии и выходим в новые ниши. Года три назад начали разработку голосовой системы для больниц, с помощью которой младший медперсонал может наблюдать за жизненными показаниями больных и передавать эти данные в центральную систему. В настоящее время мы продвигаем эту технологию в Северной Америке.

Конкурентов у нас немного. Наверное, это связано с тем, что ни один другой поставщик не предлагает подобно нам комплексное решение, включающее ПО для распознавания голоса, промышленные наушники, терминалы (поясные компьютеры), управляющую программу, связующее ПО. Другие поставщики выпускают что-то одно: либо программное обеспечение, либо оборудование. Но если собирать решение по частям, то результат не всегда будет оптимальным.

Мы хотели бы иметь больше конкурентов, потому что вместе легче развивать рынок. Ведь есть заказчики, которые готовы делать инвестиции в голосовую технологию, но хотят иметь выбор.

PC Week: Давно ли существует ваша компания?

Г. Т.: Vocollect была основана в 1987 г. как частная компания (мы не исключаем возможности выхода на биржу, но сейчас рынок IPO переживает не лучшие времена). С самого начала мы занимались средствами распознавания речи для промышленных предприятий. На первых порах работали только на североамериканском рынке. Начинали с продвижения голосовой технологии в автомобильной отрасли: первым клиентом стала компания Ford, кстати, мы до сих пор с ней сотрудничаем. Но потом сконцентрировались на автоматизации складских операций. Катализатором нашего роста стало соглашение с сетью Wal-Mart, заключенное в 1997-м. Тогда начался резкий рост нашего бизнеса.

Сейчас нашими клиентами являются 52 из 70 крупнейших распределительных центров США. Но у нас есть заказчики и из других областей — хранения и транспортировки автомобилей, лекарств, охлажденных и замороженных продуктов. Всего их насчитывается в разных странах примерно четыре-пять сотен. Среди них есть и большие, и маленькие, у которых всего три-четыре терминала.

PC Week: Как у вас организована работа с заказчиками?

Г. Т.: В США мы работаем напрямую, а за рубежом — через канал сбыта. У нас есть клиенты в 32 странах. Европейская штаб-квартира расположена в Англии, в некоторых странах есть представительства, но они не занимаются прямыми продажами, а отвечают за взаимодействие с партнерами, которых в Западной Европе примерно по три-четыре в каждой стране.

Что касается России, то на первое время нам будет достаточно одного партнера, но такого, который знает особенности местного рынка и имеет сотрудников, способных освоить нашу технологию и продвигать ее в своей стране. Этим мы сейчас занимаемся. Например, провели переговоры с компанией Ant Technologies, но о результате пока говорить рано.

PC Week: Выходя на новый рынок, вам приходится учитывать национальные особенности?

Г. Т.: Конечно, хотя наша технология не зависит от страны. Ведь склады везде работают примерно одинаково. Но перед выходом на рынок нужно провести предварительную работу: убедиться, что здесь существует соответствующая ИТ-инфраструктура, локализовать и сертифицировать ПО. Мы сейчас над этим работаем и собираемся закончить всю подготовку в первом квартале.

PC Week: Какие продукты необходимы для реализации вашей технологии?

Г. Т.: Для каждого оператора нужен терминал, прикрепленный к руке или поясу, наушник и микрофон. Кроме того, требуется ПК-сервер для управляющего ПО (обычно одного достаточно для обслуживания трёхсот операторов), беспроводная сеть (возможно, та же самая, которая используется для сканеров штрихкода или RFID-меток) и, наконец, система управления складом.

PC Week: Распознавание речи — сложная технология. Какие здесь существуют проблемы и как они решаются?

Г. Т.: Одной из проблем является шум. На складе никогда не бывает тихо: звучит музыка, работают автопогрузчики, гудят холодильные установки. Поэтому необходимо очистить голос человека от посторонних звуков. Для этого мы разработали специальный микрофон, который настроен на распознавание речи. Он состоит из двух частей: одна выявляет посторонние шумы, а вторая воспринимает голос оператора на фоне шумов, затем шум отфильтровывается.

Но главная проблема — адаптация к особенностям речи диктора. Ведь люди говорят с разным темпом и тембром. Мы разработали адаптивный распознаватель речи — софт, с помощью которого нашу систему можно тренировать. Она слушает определенные слова и запоминает, как вы их произносите. На это не требуется много времени, достаточно нескольких минут. Образцы голоса вводятся в систему и там централизованно хранятся, а когда человек приступает к работе, они загружаются на его компьютер.

Наша технология способна распознавать любое количество слов, но “понимает” только те из них, на которые вы ее натренировали. Впрочем, для выполнения стандартных заданий много слов не требуется. Правда, одних только команд недостаточно. Система должна понимать и описания. Например, на одной полке может храниться несколько разных продуктов. Вы голосом передаете их описания, и система понимает различие.

Важно, что система распознает любые языки. Например, на одном предприятии Южной Африки работники говорят на двенадцати африканских наречиях, и хотя команды подаются на английском, люди отвечают на своем языке. В России, конечно, команды будут подаваться по-русски.

PC Week: Как ваши продукты интегрируются с другими системами?

Г. Т.: Двумя способами. Во-первых, у наиболее распространенных систем управления складом есть прямой интерфейс для взаимодействия с нашей технологией. Преимущество такого подхода — возможность обновлять базу данных WMS-системы в реальном времени. Во-вторых, мы разработали ПО промежуточного уровня VoiceLink, которое работает следующим образом: WMS-система загружает в VoiceLink перечень товаров, которые нужно взять со склада для выполнения заказа. Затем VoiceLink управляет процессом с помощью голоса и в конце выгружает информацию обратно в WMS-систему.

Вся введенная голосом информация уточняется и немедленно вносится в базу данных системы управления складом. Это важно для быстрого разрешения проблем. Например, оператор должен взять пять единиц товара, но видит, что на полке осталось только три. Он сообщает об этом системе, и она подает автоматическому погрузчику команду, чтобы он доставил товар туда, где его не хватает. Пока идет доставка, работник выполняет другие пункты задания, а в конце система направляет его за двумя недостающими единицами товара. Но надо сказать, что система не рассматривает человека как робота, а предоставляет ему свободу действий. Допустим, он видит, что не может работать в одном из рядов склада, поскольку там стоит автопогрузчик. Тогда он подает системе команду пропустить этот ряд и переходит к другим пунктам задания, а потом возвращается в пропущенный ряд, когда тот освободится.

PC Week: Для автоматического сбора данных применяются разные технологии — RFID, штриховое кодирование, Pick-to-Light. Могут ли ваши продукты их заменить?

Г. Т.: Наша технология действительно позволяет выполнять сбор данных, но не заменяет, а скорее дополняет другие технологии. Так что мы не конкурируем с их поставщиками, а вступаем в партнерские отношения.

Возьмем, к примеру, штриховое кодирование. Эта технология предназначена только для идентификации продуктов, а голосовое управление позволяет также оптимизировать работу операторов, направляя их в нужное место и сообщая задания. Поэтому если на складе уже используются штрихкоды, то можно продолжать их сканировать и после “перехода на голос”.

Но, конечно, нашу технологию можно использовать и без штрихкодирования. Вообще в распределительных центрах штрихкод не очень нужен, однако без него трудно обойтись в других звеньях цепочки поставок — для идентификации товаров в магазинах, уникальных серийных номеров комплектующих в электронике и т. д. На большинстве продовольственных складов уже перестали сканировать штрихкод и перешли на управление голосом, потому что это более точный и эффективный метод.

PC Week: Сколько стоит ваша технология в расчете на одного оператора? Требуются ли дополнительные затраты, например, на изменение бизнес-процессов?

Г. Т.: Стоимость в расчете на оператора сложно рассчитать, так как многое зависит от используемого ПО, типа склада, его размера и т. д.

Менять бизнес-процессы не обязательно. Ведь с помощью голоса можно работать точно так же, как с бумагой или сканером. Правда, некоторые изменения случаются, так как отдельные операции просто отпадают за ненадобностью. Например, если компания использует бумажные накладные или сканеры, то после того как работник соберет заказ, он должен отнести его диспетчеру, который проверяет правильность выполнения задания. Использование голосовой технологии позволяет исключить такую проверку.

Что касается цен в России, то они будут установлены по согласованию с нашим местным партнером. Мы хотим быть конкурентоспобными, но поскольку нам не нужно конкурировать с другими поставщиками голосовых технологий, мы делаем упор на быстрый возврат инвестиций заказчика в нашу технологию за счет повышения производительности труда.

PC Week: За какой срок обычно окупаются такие инвестиции?

Г. Т.: Обычно менее чем за год. Это достигается за счет повышения эффективности работы распределительного центра. Голосовая технология позволяет добиться этого несколькими способами. Во-первых, увеличивается точность выполнения задания и сокращается число ошибок. Бывает, что оператор забирает со склада не тот товар, который нужен клиенту. Это может дорого обойтись компании. Ведь чтобы исправить такой промах, придется посылать машину с водителем, везти товар обратно и отправлять то, что требуется.

Есть и другие преимущества, например, улучшение условий труда работников склада. Если у них руки заняты сканером штрихкода и при этом приходится переносить тяжелые коробки, то из-за неудобной позы они могут повредить спину, тогда и компании придется оплачивать больничный. Применение голосовой технологии освобождает руки и делает труд оператора более комфортным.

PC Week: Спасибо за беседу.

Как работает система Vocollect

Перед началом рабочей смены оператор подключает головной телефон к компьютеру, прикрепленному к поясу или руке, и идентифицируется в системе. Если образец его голоса еще не загружен в память поясного компьютера, он пересылается из главной машины. Задания на работу (например, разложить продукты по местам, подобрать заказ или пополнить запас товаров) формируются системой управления складом в виде файлов и по беспроводной сети пересылаются на поясной компьютер, на котором работает ПО Vocollect Voice-Directed Distribution. Этот софт преобразует задания в речевые команды, оператор слышит их через наушники, подтверждает получение через микрофон и докладывает о завершении каждой операции. Его речь распознается поясным компьютером, и система передает следующую команду.



Версия для печати
свяжитесь с нами: +7 (495) 785 72 28