«Жи» и «ши» пиши через «и»

24.07.201600:00

Считается, что веб-сервисы проверки правописания живут за счет энтузиазма создателей и не могут приносить больших денег. Однако за ними стоят многолетние разработки, лучшие умы и сложные вычислительные алгоритмы. «Ко» выяснил, кто добился успеха в этой нише и насколько реально заработать на русском языке. 

С большой буквы «О» 

Ни одно изобретение не имело таких последствий для развития отечественной компьютерной лингвистики, как создание системы проверки орфографии «Орфо». В середине 1980-х сотрудник Вычислительного центра АН СССР и совладелец кооператива «Информатик» Олег Григорьев, получив  грант  Государственного комитета по науке и технике, попросил своего коллегу Игоря Ашманова возглавить проект по созданию системы проверки орфографии. Версия «Орфо» для DOS появилась в 1991 г. Это была довольно развитая программа проверки правописания со словарем и грамматическим корректором. Она могла перехватывать чужие программы-редакторы в видеопамяти и проверять в них тексты. 

Через год «Информатик» выпустил «Орфо» для Windows. Во время августовского путча 1991 г. Олег Григорьев вместе с остальными создателями «Орфо» эмигрировал в США. Осенью к ним должен был присоединиться Игорь Ашманов, но он сдал билеты за две недели до вылета. После того как в 1995 г. Microsoft приобрела лицензию на «Орфо», руководитель проекта ушел из компании. «Продавать что-то самостоятельно после того, как ты продал то же самое Microsoft, довольно трудно, – объясняет Игорь Ашманов. – Куда приходит Microsoft, там все складывают вещи и расходятся. Я решение о продаже лицензии Microsoft именно на таких условиях не принимал, хотя понимаю мотивы хозяев «Информатика», которые его приняли. Проблема была в том, что продали они слишком дешево (примерно за $120 000) и без отчислений – роялти. Возможно, дороже не смогли, я не знаю». 

В дальнейшем собственные продажи «Информатика» падали: сначала разработанные им продукты приносили десятки тысяч долларов в год, затем все меньше и меньше. Деньги от Microsoft – раз в полтора-два года примерно по $100 000 за выпуск обновленной версии библиотек (правописание, тезаурус, переносы, грамматика и стиль) для очередной версии Windows – не особо спасали ситуацию. В Microsoft постоянно менялись ответственные за проект. «Начали назначать всяких индийцев, не знавших русского», – подтверждает Ашманов. Первый казус произошел в 1997-м, когда в процессе поиска подсказки ввели пробел в слове. Слово «мультиканальный» Word предлагал заменить на «мультик анальный». В середине нулевых Microsoft выкупил исходники словарей «Информатика», решив, что справится с написанием алгоритмов собственными силами. 

«На мой взгляд, это была грубая ошибка – как хозяев «Информатика» (для них это означало конец лицензирования и хоть каких-то выплат, это была последняя продажа), так и Microsoft», – комментирует Ашманов. В программе проверки правописания словарь – это меньше половины ее интеллекта. Главное, по его словам, – правила обработки исключений, словообразования, проверки «слитно или раздельно», «-тся» и «-ться» и пр. В итоге сегодня, приводит он пример, «так-как», «через-чур» или «где-бы» Microsoft Office Word 2016 считает верными вариантами. «Вернулись времена «мультика анального», – сетует Ашманов. – Если Word 2016 не находит слово в своем словаре, часто он пробует разделить его на два так, чтобы каждое было ему известно. В результате мы имеем дело с курьезными подсказками: «задобрит» (одна из подсказок Word – «зад обрит») или «колбасит» («кол басит»)». 

В 2010 г. Игорь Ашманов выкупил «Информатик» у своего бывшего начальника. К тому времени Олег Григорьев вернулся в Россию для развития новых проектов. В США он добился успеха – открытая им компания X-Ring, собиравшая компьютерную технику, была прибыльной в 1990-е и в начале нулевых. После покупки ООО «Информатик» ситуация на рынке мало изменилась. «Продавать трудно. Проект практически бесприбыльный», – признает Ашманов. Программу покупают в основном профессионалы – издательства и корпорации. В лучшие годы над «Орфо» работали 25 человек в штате и несколько лингвистов на подряде. «Это была очень сильная команда. Самая сильная, которую я видел в жизни. Я там был не самый сильный, хотя сделал практически всю лингвистику», – вспоминает Ашманов. Сегодня в его компании над программой трудятся «полтора человека» плюс лингвисты и программисты, которые периодически привлекаются из других проектов. 

С советского времени программа «Орфо» сильно изменилась – появились десятки тысяч новых правил. Основа словаря программы – знаменитый «Грамматический словарь» А.А. Зализняка – была пополнена более чем вдвое. Помимо этого, в систему загружены специальные морфологические словари, более 30 000 шаблонов грамматических ошибок, словари исключений – всего не перечислить. Поверх этих словарей наложены тысячи алгоритмов проверки, служащие для порождения (проверки) всех форм слов и словосочетаний, которые увеличивают словарь еще в несколько раз. «Язык так устроен, что даже основных, регулярных правил спряжения и склонения сотни, а есть тысячи очень редких, своеобразных, сложных исключений, которые носителю языка известны или сразу понятны, а для программы должны быть точно описаны», – объясняет Игорь Ашманов. Основной задел, по его словам, уже давно сесть. Поэтому сегодня «полтора разработчика» полируют «Орфо», насколько это возможно: развивают движок, пополняют словари. С момента приобретения ООО «Информатик» в 2010 г. выпущены версии для Mac и даже Linux. «Раньше там с правописанием был кромешный ужас, а сейчас есть возможность нормальной проверки – с большим актуальным словарем и прочими удовольствиями», – поясняет Ашманов.

Запускать в России проекты, подобные «Орфо», по его мнению, нет смысла – перспективы нулевые. «300–500 человеко-лет, затраченных на разработку, никак не окупишь, даже если продашься Microsoft. Хорошо делать уже невыгодно, а плохо делать, по-моему, стыдно», – считает Ашманов. Спрашивается, зачем нужен низкорентабельный бизнес? «Продавая проверку правописания, ты удовлетворяешь далеко не самую острую потребность, это потребность чисто эстетическая, – отвечает он. – Ну, кроме профессионалов из СМИ и образования. Если человек думает, что ему уже как-то проверили текст, чем угодно (в браузере, смартфоне, Microsoft Office), он забывает об этой потребности». 

В будущем ситуация тоже мало изменится: точками приложения сервиса проверки правописания, считает он, останутся редакции СМИ, тесты для учащихся или встроенные в браузеры и смартфоны библиотеки. «Но не массовый рынок – там осознанной потребности нет», – добавляет Ашманов. Заканчивается эра ПК, где тексты хотя бы писались, и наступает эпоха смартфонов, умных телевизоров, часов и машин. «Люди будут меньше писать даже на клавиатуре, после пика словоблудия в блогах и соцсетях наступает эпоха кратких выкриков и мычания, видеороликов и живых видеотрансляций. Ужасов к этому «обесписьмениванию» добавит распознавание речи, которое наконец-то в последний год заработало», – заключает Игорь Ашманов. Его это явно разочаровывает, но у развития компьютерных технологий есть последствия, с которыми приходится просто смириться. 

Работа над ошибками 

Четыре года назад идеолог компании «Орфограмматика» Дмитрий Калашников предложил своей новосибирской команде в свободное время заняться компьютерной лингвистикой. Последовала небольшая пауза: развитие математических методов искусственного интеллекта, особенно в языковом контексте, – это трудоемкая задача. Так родилась концепция будущего сервиса проверки правописания «Орфограммка». Ритм его разработки не слишком походил на старт стремительно растущего ресурса. Около года у трех программистов и двух филологов ушло на работу со словарями. Создание алгоритмического ядра заняло еще четыре месяца – в итоге прототип удалось запустить только весной 2013 г. 

«На тот момент функциональные возможности сервиса были в десять раз слабее, чем сейчас», – отмечает коммерческий директор «Орфограмматики» Кирилл Губарь. За последние три года новосибирский стартап набрал обороты – в феврале проект занял второе место в первом в России соревновании по автоматическому исправлению опечаток SpellRuEval, уступив организаторам из ГИКРЯ (Генерального интернет-корпуса русского языка), но обойдя «Яндекс» и ABBYY. Особенность «Орфограммки», в том, что этот сервис делает все или почти все – анализирует семантику и синтаксис, проверяет грамматику, подробно разбирает пунктуацию. Сейчас алгоритмическое ядро сервиса содержит свыше 5000 отдельных алгоритмов проверки, но увеличению этого показателя, по заверениям разработчиков, нет предела. «Наш конек – методы искусственного интеллекта, применимые к компьютерной лингвистике. «Орфограммка» также видит сложные опечатки: например, «возбуждение уголовного деда». Ни одна система не заметит перепутанные «д» и «л», – добавляет Губарь.

Сегодня на сервисе можно пользоваться двумя вкладками, одна проверят правописание (до 10 сек.), другая называется «Красота» и дает стилистические рекомендации по улучшению текста (загрузка текста на 15 000 знаков занимает около минуты). За раз «Орфограммка» способна проверить 300 000 страниц. Первые годы проект жил за счет своих создателей. На старте 100 000 руб. ушло на аренду серверов. В дальнейшем в его развитие инвестировался более ценный ресурс, чем деньги, – время. «В «Орфограммку» уже вложено порядка 10 000 человеко-часов», – делится подсчетами Губарь. В 2015 г. новосибирцы пытались собирать добровольные пожертвования на поддержание ресурса – одно время по примеру «Википедии» при посещении сайта показывали объявление с просьбой помочь. При отказе «Орфограммка» тормозила проверку текста до минуты. История с присвоением пользователям шуточного статуса «жадина-говядина» тоже не пошла. В этом году, когда проект стал требовать серьезных вложений, вопрос монетизации встал ребром. 

Сегодня «Орфограммка» разрешает бесплатно проверять 500 знаков текста. Безлимитная месячная подписка продается по смешной цене – 300 руб. Всего на сервисе зарегистрировались 250 000 пользователей (до конца года есть план увеличить их число до 400 000), из них 10 000 пользуются продуктом регулярно, причем 40% постоянных пользователей перешли на платный тариф. Для стартапа это средние деньги – основатели до сих пор не могут оставить сторонние заказы. Чтобы отказаться от них и сосредоточиться на «Орфограммке», она должна приносить около 600 000 руб. в месяц. «Наш фронт работ расписан на два года вперед, – говорит Кирилл Губарь. – Сейчас реализовано около 60% из того, что запланировано. Часть правил не удается алгоритмизировать, но у нас есть задумка – использовать нейронные сети и генетические алгоритмы для их обучения». 

Еще одна цель разработчиков из Новосибирска – выпустить набор стилистических проверок «Родная речь»: меньше заимствований, больше синонимов на родном языке – чем не мечта русиста? «В отличие от Жириновского, мы не будем предлагать заменить «парикмахер» на «стригач», – добавляет Губарь. – Но рекомендовать вместо «мерчандайзера» писать «товаровед» и продвигать «себяшку» вместо «селфи» точно станем». В свое время создатели «Орфограммки» пытались выйти с предложением о совместном проекте на владельца ООО «Информатик» Игоря Ашманова. «Он отказался, мотивируя ответ низкой рентабельностью подобных проектов», – поясняет Губарь. Но «Орфограммка», подчеркивает он, больше социальный проект, чем «машинка для зарабатывания денег». 

Зарабатывать в компании намерены корпоративным решением для редакций «Литера5». Это многопользовательская система. Ее внешний интерфейс (API) позволяет встраивать инструменты проверки текста в такие сторонние корпоративные системы, как CMS, ERP и прочие. Помимо этого, она дает возможность получать статистические отчеты и пользоваться общим словарем с автоматическим подбором словоформ. Сегодня у новосибирского стартапа около 200 клиентов, среди них и крупные федеральные СМИ, и небольшие региональные редакции. Тарифов несколько: самый популярный пакет обойдется в 3000 руб. в месяц (на редакцию из 10 человек). Полностью заменить корректора «Литера5» не может, но она идеальна в качестве первичной или финальной проверки текста – от ошибок никто не застрахован.

Сайты на проверку

«Это мой первый блин, поэтому я просто выбрал первый интересный проект», – создатель сервиса проверки орфографии Spell Checker Иван Шипилов рассказывает, почему взялся за столь сложную в реализации задачу, как компьютерная лингвистика. Он увлеченно берется за то, что интересно, и так же легко бросает дело, если оно перестает нравиться или не видно перспектив. Но у Spell Checker перспективы есть – сегодня им интересуются студии по продвижению сайтов. При правильной раскрутке в этой нише, по расчетам Шипилова, можно выйти на доход в размере 2–3 млн руб. в год. 

Иван Шипилов родился и вырос в Магнитогорске. В 2005 г. он поступил в Магнитогорский государственный университет (МаГУ), но вскоре бросил учебу. Через три года предпринял вторую попытку получить высшее образование и снова понял, что находится не в своей тарелке. Шипилову 29 лет, и он уже перебрал около 20 профессий, в том числе был финансовым аналитиком и дизайнером памятников в похоронном бюро. В 2014 г., когда Иван освоил программирование на PHP и искал, в каком бы проекте применить новые знания, знакомый подкинул ему идею – сделать сервис проверки правописания для сайтов. На старте Иван обошелся малой кровью – около 10 000 руб. было потрачено на покупку сервера. Продвижением занимался сам, разработкой – тоже. 

Spell Checker строится на парсере (сопоставлении) контента с сайтов и последующем прогоне данных через словарь. Прототип сервиса оказался сырым и требовал серьезных доработок. «Я дважды переписывал движок с нуля», – подтверждает Иван. После создания прототипа он заморозил проект, потому что «не видел больших перспектив». Надежду вернул интерес со стороны студий по продвижению сайтов. Сегодня Spell Checker умеет проверять одновременно до 300 000 страниц – ошибки отображаются в отчетах с указанием ссылок на страницы, на которых они были совершены. Проверка одной страницы, если объем равен 1 млн страниц или превышает его, стоит 2 коп. Если нужно прогнать до 10 000 страниц сайта, цена чуть выше – 10–15 коп. за страницу. 

Всего за время существования проекта было проверено около 2000 сайтов. В этом году у Spell Checker уже 700 клиентов – каждый из них в среднем проверяет около трех онлайн-ресурсов. «На мой взгляд, стоит сосредоточиться на качестве клиентов, а не на их количестве – искать тех, кто заинтересован в больших объемах», – считает Иван Шипилов. Он уже вышел в плюс – сервис приносит ему в год около 100 000 руб. оборота. Этих средств хватает для поддержания Spell Checker, но недостаточно для развития. Шипилов делает ставку на грамотную раскрутку проекта: искать клиентов среди издательств, по его мнению, нет смысла – будущее за SEO и внутренней оптимизацией сайтов.