Top.Mail.Ru
архив

Хотим все знать

20.10.201400:00

Специалисты по высоким технологиям все чаще употребляют достаточно таинственное для профанов выражение «большие данные». Американские айтишники Виктор Майер-Шенбергер и Кеннет Кукьер даже назвали их появление революцией, сравнимой по своей значимости с возникновением Интернета или даже книгопечатания. Это новое явление в сфере IT якобы способно преобразовать все сферы нашей жизни. О том, что такое big data, действительно ли эти технологии столь революционны и каково их применение в сфере бизнеса, «Ко» беседует с директором по развитию корпоративных проектов Intel в России и СНГ Николаем Местером.

– Давайте с азов. Что такое «большие данные?»

– Под «большими данными» обычно понимают данные, образующиеся посредством сбора информации с огромного количества устройств. Это могут быть компьютеры, телефоны, встроенные информационные устройства, множество датчиков. Потом эти данные концентрируются и могут быть обработаны. Вообще, количество получаемых данных всегда определялось тем, с помощью чего эти данные фиксировались. С увеличением числа различного характера датчиков, которые встраивались во всевозможные технические системы, количество данных естественным образом росло. Представьте: сегодня в автомобиле или в промышленной установке могут находиться десятки и даже сотни датчиков, с определенной частотой записывающих информацию. Можно сказать, что отличительными характеристиками больших данных являются, во-первых, их количество, во-вторых, их слабая структурированность и, в-третьих, наличие статистики, базирующейся на этом большом объеме данных и позволяющей создавать некую аналитику.

– То есть дело не только в количестве информации?

– Огромное количество данных существует у финансовых организаций. Их много, но они четко структурированы, разложены по полочкам, проиндексированы и, по сути дела, полностью находятся под контролем. В больших данных все по-другому. Структура больших данных заранее не определена. Более того, вы можете объединять большое количество разнородных и разнотипных источников этих данных, чтобы они таким образом составляли некий общий информационный пул. Самый простой пример, который все приводят, – это социальные сети. У вас есть огромный объем информации, причем абсолютно разнородной: это могут быть текст, геотеги, фотографии, видео, какие-то схемы – все что угодно. По сути, когда мы говорим о больших данных, нас интересуют в первую очередь не сами базы данных, а те алгоритмы, которые мы хотим применить для того, чтобы с этим что-то сделать.

– И это уже вошло в повседневную жизнь?

– В Москве появились большие электронные щиты, где написано «В Москве «пробки» 3 балла». У нас огромное количество данных, которые мы собираем с видеокамер, со спутников – отовсюду. А итог всего этого выражается всего одной цифрой для принятия решения о движении – 3 балла. Есть алгоритм, позволяющий преобразовать огромную, неструктурированную, сложную информацию в единственное число для принятия вашего решения. К примеру, вы выбираете квартиру в городе и пригороде. Вы обращаетесь к риелтору. Тот начинает расхваливать варианты: «Тут лучшее место, тут природа, пруд, метро». Прекрасно! Дальше вы говорите: «Да, а как я буду до работы добираться?» И вот тут вам больше ничего другого не остается, кроме тех самых больших данных и их анализа, примером чего является сервис «Яндекс.Пробки». Вы можете посмотреть загрузку магистрали, по которой намереваетесь ездить, и если утром эта цифра будет 10 из 10, то вы, наверное, поищете другое место. Это пример того, каким образом огромный объем данных, в том числе видеоданных, можно преобразовать в какое-то одно число.

– А почему сейчас все стали так много говорить об этом? Что, появились какие-то технологии?

– Сейчас сошлось несколько технологических трендов, каждый из которых в отдельности не давал необходимого результата. Первое – это мощная вычислительная техника, то есть компьютеры-серверы, способные обрабатывать огромное количество информации. Второе – это системы хранения, которые могут дешево хранить этот внушительный объем информации. Третье – алгоритмы, позволяющие этот объем информации распределять между огромным полем серверов и проводить анализ данных для получения результата. Это разработки всего мира таких крупных компаний, как Google, или у нас это, допустим, «Яндекс», в Китае – Baidu и т.д. Еще один важный аспект – это развитие коммуникационных технологий, когда у вас огромные участки территории суши покрываются коммуникациями, причем высокоскоростными и дешевыми для пользователя. Наконец, еще важнейший тренд – увеличение количества, качества и типов датчиков, которыми обвешиваются различного характера технологические и биологические объекты. Это носимая электроника – датчики в машинах, велосипедах, кофеварках, телевизорах, холодильниках – вместе образует огромную инфраструктуру передающих и принимающих мини-устройств, генерирующих лавинообразно растущее количество информации. И когда мы говорим о «больших данных», в первую очередь учитывать надо именно автоматическую генерацию данных. То есть никакой человек с его музыкой и фильмами никогда не сгенерирует такой объем информации, какой могут дать крошечные датчики. Произведения гениального писателя Льва Толстого можно уложить в несколько мегабайт текста. Это величайшие произведения, но объем данных для хранения просто крошечный. А вот лавины неструктурированной информации, с которой не всегда понятно что делать, занимают петабайты и – вскоре – зетабайты памяти.

– Идут ли эти технологии в бизнес?

– Та информация, что генерируется на основе больших данных, становится доступной уже средним и малым компаниям. Сегодня вы можете заказать, чтобы каждый день фотографировали со спутника какую-то территорию, и просто посмотреть, что на ней происходит в определенный момент времени. Раньше этим могли пользоваться только те государства, которые запускали эти спутники, а сейчас «большими данными», генерируемыми спутниковой компанией, может воспользоваться каждый.

Если раньше вы должны были обязательно покупать какие-то средства автоматизации, потом их устанавливать, сопровождать, развивать и т.д., то сейчас большинство этих сервисов доступно удаленно. Вам минимально нужен, грубо говоря, только планшет либо компьютер, на основе которого вы сможете получить доступ к таким сервисам, как почта, хранение файлов и различным другим информационным, «облачным» сервисам, вплоть до вот этих самых спутниковых данных. По сути дела, вы можете расположить все свои электронные поддерживающие устройства в «облаке». То есть компании до 100–200 человек вполне нормально живут в «облаке», не имея собственных вычислительных мощностей.

– Но я еще, честно говоря, не слышал, чтобы какой-то компании сильно помогала обработка «больших данных». Вы можете привести примеры?

– Например, существует целый класс задач, связанных с сельхозработами. Есть проблемы: когда поч­ву поливать, удобрять, в каком состоянии она находится, какова температура, сошел – не сошел снег. Я знаю примеры таких компаний в Штатах, где обносят датчиками огромные сельхозтерритории, и решения о поливе либо внесении удобрений зависят от состояния этой точки. Это такое «сельское хозяйство 2.0» по аналогии с Web 2.0. Вы можете ставить дешевые неубиваемые датчики по всей территории и смотреть, что там и как. Эти датчики генерируют огромное количество информации, которая потом с помощью алгоритмов преобразуется в некое число. «Сухо» – надо поливать или, наоборот, «мокро» – не надо. Фермер, может быть, не сам владеет этой сетью, но есть какая-то компания, просто сдающая ему ее в аренду.

– В том-то и дело, что сейчас мы часто не справляемся с той информацией, что на нас обрушивается. Например, Центробанк собирает огромное количество отчетов банков, но не в состоянии предотвратить банковский кризис. Кто нам поможет анализировать всю эту информацинную лавину?

– Данные от банков, собираемые Центробанком, являются структурированными отчетами и не совсем подпадают под категорию классических больших данных.

В качестве другого примера: мы находимся в самом начале такого тренда, как носимая электроника. Когда вы надеваете на себя датчик, это еще не информация о здоровье, это просто некие параметры человеческого тела: пульс, температура, давление. Нужна аналитика, чтобы понять, что у вас со здоровьем. Если у вас давление 160 на 80, это плохо или хорошо? Для того чтобы сделать какой-то вывод, нужно знать еще огромное количество данных вокруг. И тут можно привести пример Apple, которая сейчас предлагает собирать данные о состоянии человеческого организма с помощью носимой электроники Apple Watch, сохранять их в «облаке», обрабатывать и передавать в медицинские организации, по страховке обслуживающие человека. Это может помочь следить за здоровьем человека, реагировать на несчастные случаи, предлагать более здоровые модели поведения, отслеживать прогресс занятий спортом.

Есть и другая модель применения таких вещей. Представьте, что ваш работодатель выдал вам устройство с датчиками (браслет, часы, другие варианты устройств), и вы с ним ходите, бегаете, занимаетесь ежедневно. Работодатель вам говорит: если вы регулярно будете делать пробежку, я вам оплачиваю медицинскую страховку в стопроцентном объеме. Если вы эту пробежку делать не будете, то я вам оплачиваю эту страховку на 70%, а то и вовсе на 50%. Логика понятна: если ты не следишь за своим здоровьем, то расходы на медицину растут. Например, в Германии ты обязан ежегодно проходить медицинское обследование. Без этого тебе страховку просто не продляют. И сумма страховки зависит от результатов обследования.

– Не создают ли «большие данные» почву для увеличения эффективности политической слежки и вообще контроля за человеком?

– Любое техническое изобретение может быть использовано в обе стороны – в позитивную и негативную. Коммуникационные устройства, позволяющие нам общаться с дорогими людьми, а могут вовлекаться в технологии слежения за неугодными. Здесь важно развитие общества и его демократических институтов. Никакого другого способа оградить человека от тотальной слежки не существует.

– Но есть с безопасностью и другие проблемы. Недавно пароли Mail.ru и «Яндекса» появились в открытом доступе и т.д. Не создают ли «большие данные» новые вызовы безопасности?

– Да, конечно. Рост количества публичных, совершаемых в открытом доступе операций, проводимых пользователями, создает поле деятельности для злоумышленников. Более того, цена изготовления нужных инструментов для хакеров не очень высока. Появляются целые артели специалистов, изготавливающих инструменты, которыми способны пользоваться злоумышленники. То есть сами злоумышленники могут и не быть специалистами, но они могут пользоваться программами слежения, специализированными программами атак на сайты, корпоративные системы. Либо это могут быть сервисы, у которых люди просто заказывают такого рода противоправные действия и проплачивают их. Существуют как атаки из «облака», так и защита из «облака». Это вопрос замка и ключа, ведь есть и огромное количество компаний, с этим борющихся, в том числе в нашей стране, например, «Лаборатория Касперского» или «Доктор Веб». Intel купила компанию McAfee, которая разрабатывает целый комплекс продуктов для защиты данных и информационных систем. У нас данная часть бизнеса называется Intel Security, эта служба обеспечивает защиту от злоумышленников, чтобы работа на компьютерах, планшетах, смартфонах была безопасной.

– Если бы вы решили создать стартап в сфере «больших данных», сколько бы вам потребовалось на это денег?

– Все очень зависит от того, как вы организуете бизнес и кого и где нанимаете для выполнения задач.

Для того чтобы создать какой-то минимальный сервис, например, на основе уже существующих, вам будут нужны программисты на полгода-год. То есть сумма будет складываться просто из цены труда программистов. Люди вообще могут из дома работать. В таком случае речь пойдет о сумме, измеряемой сотней или двумя сотнями тысяч долларов. Если же вы задумали что-то серьезное, для чего понадобится аренда серверов и другие дорогостоящие вещи, то ценник может быть существенным образом увеличен. Если вы хотите, чтобы на вас работали 20–30 человек, то, скорее всего, уже придется снимать офис. На средний бизнес уходит в среднем по полмиллиона долларов, то есть ваша компания за год должна зарабатывать как минимум несколько сотен тысяч долларов. Когда все сотрудники работают удаленно, начальные инвестиции могут быть не очень большими, но после перехода к промышленным объемам все меняется. Следующий вопрос – наличие кадров. Сможете ли вы найти программистов? Огромные компании, «постиндустриальные фабрики» сейчас забирают с рынка всех специалистов. А теперь представьте, что ваша компания доросла до этапа, когда сотрудников уже не только по знакомым надо отбирать, а искать профессионалов. В России они есть, но рынок очень конкурентен. Либо специалисты находятся, но им нужно платить достаточно высокие зарплаты, и бизнес может перестать быть выгодным. Неправильно говорить, что в РФ невозможно открывать высокотехнологичный бизнес, это возможно и необходимо. Другой вопрос, что хочется, чтобы это было проще и легче.

– Но что прежде всего мешает России больше и быстрее распространять технологии «больших данных»? Чего у нас не хватает: компьютеров, программистов, демократии, денег?

– Проще сказать, чего хватает. У нас достаточно природных ресурсов. Человек всегда в первую очередь занимается тем, что ему критически необходимо либо доставляет удовольствие. Если вам, чтобы выжить, критически необходимо развивать определенные технологии, вы будете их развивать. Если такой необходимости нет, вы будете развивать их во вторую очередь.

– Но ведь, наверное, сырьевые компании тоже нуждаются в технологиях «больших данных», хотя бы для обработки геологической информации?

– Да, нуждаются. И для этого разрабатывается огромное количество решений. В частности, датчиков, говорящих о состоянии нефтяного резервуара, его наполненности, количестве остатков. Данные есть, но они не сверхбольшие. Кроме того, «большие данные» начинают работать и выходить на экспонентную кривую, когда разные сервисы по «большим данным» объединяются друг с другом, когда информация о нефтяных разработках начинает коррелировать с чем-то еще – с состоянием природы вокруг, например. То есть когда у вас эти данные перемешиваются и начинают вести к новому знанию, новому бизнесу, иным способам принятия решений