Право голоса
В мире голосовых систем управления главенствует Siri. Этого виртуального ассистента для компании Apple создал американский гигант Nuance Communications. Сегодня его технологии применяются в iPhone, Samsung S Voice, онлайн-ассистентах авиалиний, банков и call-центров. Google и Apple пошли следом за Nuance. А что происходит у нас?
Speaky все понимает
Константин Ламин, нажав на кнопку, просит пульт Speaky рассказать об утренней телепрограмме. Не дослушав до конца, генеральный директор и основатель компании Speereo решает, что посмотрит спортивные новости - Speaky послушно выполняет команду. Ламин не тестирует новую "игрушку" - он демонстрирует гаджет стоимостью $199, который поступит в магазины через два-три месяца.
О создании Speereo Константин Ламин мечтал, еще когда учился на факультете САПРиУ в Санкт-Петербургском технологическом институте. Он тогда увлекся исследованиями в сфере искусственного интеллекта и распознавания образов. Но запуск стартапа все время откладывался: не имелось начального капитала. На третьем курсе ему достался заказ на автоматизацию одной страховой компании. Полученный гонорар студент вложил в создание компании "Титан технолоджи" и вместо распознавания речи занялся дистрибуцией программного обеспечения. Одного проекта Ламину оказалось недостаточно, поэтому следом возникли фирма по аутсорсингу обслуживания IT-систем "Интеллектуальные системы" и юридическая компания "Титан консалтинг". "Сам удивляюсь, где брал деньги на запуск. Время было такое", - смеется Константин.
В 1998 г. Ламин познакомился с математиком Олегом Малеевым из Балтийского государственного технического университета "Военмех" им. Д.Ф. Устинова. "Наука тогда подошла к прорыву в области распознавания речи, и мы поняли, что можем создать свою систему, - вспоминает Ламин. - На рынок call-центров мы опоздали, а диктовка не работала и нормально работать еще долго не будет. Мы увидели хорошую нишу - интерфейсы и занялись этим направлением".
Speereo зарегистрировали в Лондоне, объясняет Константин Ламин. В то время перспективы российского сегмента казались туманными, а Ламин четко представлял будущее - вывод продуктов в первую очередь на зарубежный рынок. Но по факту центр разработок остался в Петербурге.
За 16 лет существования расклад сил в Speereo изменился: сейчас 61% акций принадлежит Ламину, 34% - научному руководителю компании Олегу Малееву и 5% владеет Даниил Ищенко.
Не так давно, пытаясь получить субсидии от государства, Ламин подсчитал, что за несколько лет инвестировал в развитие компании свыше $10 млн. "Я вкладывал свои средства, заработанные в основном на дистрибуции ПО, ну и реинвестировал прибыль Speereo", - поясняет он. Каждый год оборот Speereo колеблется от $1 до $5 млн. Прибыль приносят лицензии, мобильное ПО, заказные разработки и IT-аутсорсинг.
Такие проекты, как универсальный речевой пульт Speaky, пока не окупаются. Но это дело времени, уверен Константин. Его устройство подходит для всего, что имеет инфракрасный приемник или управляется через Интернет: для бытовой техники и систем "умного" дома. В основе пульта лежит "облачная" система распознавания, созданная в стенах Speereo. С ее помощью можно назначить любой кнопке или последовательности нажатий "старых" пультов речевую команду: какую угодно, хоть "Сим-сим, откройся!", или сразу задать несколько команд на одно действие. В серийное производство гаджет запустили в этом году. Через пару месяцев его можно будет найти в онлайн-магазине Speereo и нескольких сторонних интернет-гипермаркетах. "Определенные надежды есть на провайдеров IPTV, - поясняет Константин. - Там, конечно, цены будут ниже. Speaky пойдет как продажа дополнительного оборудования или войдет в стандартный комплект оборудования для IPTV". Пульт, отмечает бизнесмен, распознает русскую и английскую речь с точностью до 99,9%. Для полного совершенства ему не хватает дополнительных языков.
Чтобы Speaky понимал весь мир, а продажи росли активнее, нужно около $10 млн, не считая тех денег, которые в проект уже вложила Speereo, - 5 млн руб.
Копировать наработки самого крупного игрока рынка голосовых систем распознавания речи с выручкой, по данным Thomson Reuters, в $2,08 млрд, компанию Nuance, Ламин не собирается. "Ядро системы Nuance - "сборная солянка" из поглощенных ею компаний, а основные алгоритмы - системы диктовки. На их основе они делают все подряд. Но если для интернет-поиска или Siri (персональный помощник и вопросно-ответная система в iPhone. - Прим. "Ко") достаточно точности в 70-80%, то для автомобилей и интерфейсов требуется больше. Мы эту точность в 99,9% обеспечиваем, - утверждает Константин Ламин. - Там, где нужно распознать десяток тысяч команд в условиях шумов, мы опережаем другие системы".
Единственным недостатком своей технологии он называет двуязычие: "движок" Nuance распознает команды на десяти языках. "Но их добавить проще, чем повысить точность", - уверяет Ламин. Он не отступит от цели: выпуск 10 000 пультов в год, которые принесут 50 млн руб., и выручка всей компании в размере 600 млн руб.
Голос как пароль
"Один, четыре, ноль", - диктует в рекламном ролике девушка пароль от своего "мобильного банка" телефону. Приложение VoiceKey, установленное на смартфоне, по голосу определяет, она ли владеет этим банковским счетом или доступ пытается получить мошенник. Через секунды телефон одобрительно мигает - значит, верификация прошла успешно. Эта платформа идеальна для банков и call-центров, говорят в питерском Центре речевых технологий (ЦРТ). В этой компании с речью делают невероятные вещи - распознают, синтезируют, идентифицируют человека по голосу и создают системы безопасности на основе голосовой верификации, по отпечаткам пальцев и даже радужке глаза.
В 1990 г. инженер спецотдела разработок НИИ "Дальняя связь" Михаил Хитров решил открыть свое дело. За пару месяцев он и его коллега Сергей Коваль сформировали команду из восьми профессионалов в области электроники и программирования. Придумали название - Центр речевых технологий - и сняли офис на окраине Петербурга. "Многие продукты и технологии ЦРТ считались новаторскими для того времени, - рассказывает директор департамента развития продуктов ЦРТ Михаил Досов. - Для продажи своих разработок компания сама создала рынок. Одним из первых продуктов, который мы продали, был программный комплекс SIS для экспертного анализа аудиозаписей - фонограмм. Сегодня на российском и международном рынках успешно реализуется его обновленная версия - SIS II". Однако известной компания стала гораздо позже, в 2002 г., когда получила госзаказ: расшифровать записи разговоров экипажа подлодки "Курск". Сотрудники ЦРТ справились с невероятно сложной задачей: ведь спутанная магнитная лента год пролежала на глубине около 100 м.
В 2003 г. инвестиционный фонд Quadriga Capital Russia купил 35% акций ЦРТ. Согласно независимым источникам, сумма сделки оценивалась в $1-3 млн. Три года назад Газпромбанк выкупил его долю, а также часть акций основателей, причем интерес к инновационным технологиям, по данным ресурса Cnews, обошелся банку в $32 млн. Сегодня ЦРТ считается одним из влиятельных игроков рынка и конкурирует с израильской PerSay, американской Nuance, британской Voicevault, испанской Agnitio и немецкой Voice Trust. Отечественные разработки продаются в 70 странах, а годовой оборот компании, по словам Михаила Досова, составляет 1 млрд руб. Последние пять лет в компании сконцентрировались на разработках голосовой биометрии.
"Мы реализовали типовые способы обработки и анализа голоса и запатентовали ряд собственных разработок, - поясняет Михаил Досов. - Сегодня мы умеем анализировать голос человека по 74 параметрам, не только записанный на качественный микрофон, но и передаваемый в узких телефонных каналах".
Как это выглядит в реальности? Пользователь произносит, например, пароль, а VoiceKey анализирует голос на соответствие с записанным ранее образцом. Технология надежна, уверяют в ЦРТ: вероятность отказа в регистрации - 2%, шанс открыть доступ чужаку вообще ничтожен - 0,5%. Платформа предназначена в первую очередь для тех сфер, где используют удаленное обслуживание: в web-кабинетах, мобильных приложениях, автоматических голосовых меню или контакт-центрах.
Продажи VoiceKey начались еще в 2012 г., но пока поставки можно пересчитать по пальцам. Почему? "Это связано с новизной технологии для рынка, - полагает Михаил Досов. - В этом плане мы работаем заодно с нашими конкурентами, продвигая технологию на рынок. Часто рассказываем клиентам, как она качественно улучшит бизнес, сократит расходы и увеличит безопасность".
Но как ЦРТ собирается конкурировать с похожими разработками американцев, немцев и израильтян? Преимущество, считает Михаил Досов, в продукте и людях - из 400 сотрудников ЦРТ наукой занимаются около 150. Просто должно пройти время, прежде чем технология распространится в массы и станет привычной, как смартфон.
Повезло с "Кубиком"
Захват мира роботами неизбежен - в этом футурологи правы. Домашний робот-помощник Cubic Robotics, например, знает, какая за окном погода, где вас поджидают самые адские пробки, может рассказать, кто такой Владимир Путин, а после - по запросу - подсказать лучший рецепт утки в яблоках. На его создание 29-летнего генерального директора компании Cubic Robotics Юрия Бурова подтолкнула жизнь. "Когда мне было десять лет, - вспоминает он, - совсем не хотелось заниматься домашними делами, а хотелось гонять с мячом и лазить по заборам. Вот тогда я задумался о том, чтобы создать помощника по дому, как в фильме "Приключения Электроника".
Вообще-то Юрий Буров всегда мечтал разработать прототип искусственного интеллекта, но не с навязанными поколениями фантастов мыслительными функциями, а со способностью точно исполнять команды человека. При этом у красноярского стартапера не имелось опыта в сфере робототехники. Он окончил физико-энергетический факультет СибГАУ. Однако желание оказаться сопричастным к миру высоких технологий перевесило все страхи. В итоге Юрий нашел компромисс: в 2011 г. он за $100 000 продал свою компанию "Буроф" по внедрению CRM-систем, которую открыл, еще учась в университете, и перебрался в Москву. Здесь он попал в команду разработчиков робота телеприсутствия. Это устройство находится там, где нет человека. Робот наблюдает за всем, что происходит вокруг, и передает картинку пользователю в мельчайших деталях.
Кроме опыта, красноярец заполучил новые знакомства - впоследствии его коллеги Константин Крестников и Андрей Грязнов стали сооснователями компании Cubic Robotics. "Чем чаще мы общались, тем больше появлялось идей. Даже думали о роботе для сбора носков, но из-за технических сложностей и узкой специализации отказались от этой идеи", - рассказывает Юрий. Тогда на общем совете стартаперы решили попробовать силы в сфере домашних роботов-ассистентов и взялись за разработку Cubic Robotics, или просто "Кубика". Первый прототип собирали на деньги Юрия Бурова, вырученные от продажи компании. Чуть позже в проект $600 000 вложил красноярский политик Константин Сенченко. Ему, по словам Юрия, достался неконтрольный пакет акций.
"Первенца" команда сделала еще в декабре 2012 г. В итоге получился робот-ассистент в форме куба размером 15х15х15 см, который способен не просто выполнять приказы, а общаться с человеком. Технически это сложное устройство. Внутрь гаджета встроены мини-компьютер, динамик, радиопередатчик для управления розетками, подсветка и система микрофонов. С ее помощью робот слышит на расстоянии до десяти метров. Однако пока он не может функционировать без постоянного подключения к Интернету. "Это еще не полноценный искусственный интеллект, - напоминает Юрий Буров. - Поставить "Кубика" в тупик сложными вопросами достаточно просто".
Поэтому сейчас Cubic Robotics идеально вписывается в систему "умного" дома: может легко управлять домашней или офисной техникой, цитировать "Википедию" и даже поболтать "за жизнь" - например, рассказать анекдот. Но ближайшее будущее робота перспективнее, чем кажется, и уже определено создателями - автомобильная отрасль. "Есть партнеры, которые могут интегрировать наши системы в современные машины", - поясняет Юрий, не раскрывая подробностей переговоров. Компанию Speereo, которая также планирует занять эту нишу, Буров не считает конкурентом. "Систем распознавания речи достаточно много. Одну из лучших, от Google, используем и мы, - рассуждает Юрий. - Наша разработка - это в первую очередь "дружелюбный" интеллект с "характером". Из похожих проектов он называет EmoSPARK. На краудфандинговом ресурсе Indiegogo британские разработчики собрали на эту домашнюю консоль с голосовым управлением, способную распознавать настроение владельца, $178 000. "Однако, насколько нам известно, у них пока нет ни одного полноценно работающего образца", - уточняет Юрий.
Сегодня стартапер продал десять прототипов "Кубика", собранных вручную. В планах - производство первой партии Cubic Robotics в размере 100 устройств этим летом. Деньги у компании имеются: в последнем раунде инвестиций стартаперы привлекли $500 000. Местом сборки робота станет Китай.
Продавать "Кубик" предприниматель собирается в крупных торговых сетях. Продуктом, по его словам, заинтересовались специализированные магазины, торгующие техникой для гиков. Он также не исключает выход на рынок b2b. Ближе к осени предприниматель запустит проект на Kickstarter. Пожертвованные пользователями деньги пойдут на адаптацию робота под запросы англоязычного рынка. Через два года в случае успеха Cubic Robotics выйдет в США с несколькими десятками тысяч устройств. К этому времени, надеется Юрий Буров, из голосового ассистента "Кубик" превратится в компаньона, а еще лучше, в коуча. Рискованно? Очень. "Если бы я боялся, - парирует Юрий, - не переехал бы в Москву и не занялся собственным делом. Неудачи случаются у всех. Но лучше попробовать, чем сидеть сложа руки. Мы инвестируем в будущее. Я верю, придет день, когда наши технологии станут простыми, и меня эта мысль вдохновляет".
Цена Cubic Robotics велика, отмечает еще один минус руководитель проектов компании RBOT Вячеслав Кравцов. "Двадцать тысяч рублей стоит брендовый смартфон, и не каждый согласится обменять его на устройство только с одним функционалом, к тому же довольно большое и немобильное, - рассуждает эксперт. - Если его стоимость будет до 10 000 руб., то успех благодаря необычности, простоте использования и законченности функционала гарантирован. Только нужно выпускать гаджет партиями в несколько тысяч штук".
Вас понял!
Первым устройством, сумевшим распознать 16 произносимых слов и все однозначные числа, стало изобретение IBM - Shoebox, которое было продемонстрировано на Всемирной выставке в 1962 году.
Через 30 лет монополист рынка речевых технологий Nuance Communications выпустил на рынок программу Dragon Naturally Speaking, которая переводила голос пользователя в текст. По заказу Apple компания разработала другие версии - Dragon Dictation и Dragon Search. Первая программа распознает речь, потом предлагает вставить расшифрованный текст в очередное приложение или отправить в Facebook и Twitter. Вторая понимает, например, фразу и отсылает ее в качестве поискового запроса в Google, "Яндекс", "Википедию" или на YouTube.
Данные программы стали прототипом главного изобретения американского гиганта - Siri, вопросно-ответной системы, адаптированной для iOS.
Свой персонализированный поиск Google Voice Search также усовершенствовал Google Inc. Сегодня технология понимает голосовые команды - может завести будильник или написать в заметках, а при поиске в браузере вместо списка ссылок выдает на экран конкретный ответ. Microsoft Research продвинулся еще дальше, внедрив свой алгоритм распознавания речи, основанный на глубоких нейронных сетях, - Deep Neural Networks в сервис Microsoft Audio Video Indexing Service, Windows Phone и Kinect.
Не так давно Intel на примере концепта "умной" гарнитуры представила аналог Siri - Jarvis, причем, как уверяют в компании, их продукт быстрее, точнее и независимее конкурента - система, к примеру, может работать автономно, без подключения к Сети.