Бизнес NonStop
Что общего между лондонским аэропортом Хитроу, американской биржей NASDAQ и японским оператором сотовой связи NTT DoCoMo? Все они генерируют огромный объем данных, которые ежесекундно необходимо обрабатывать, поэтому малейшая ошибка способна повлечь настоящую катастрофу. Достаточно вспомнить компьютерный сбой в аэропорту Хитроу, в прошлом году парализовавший воздушное пространство над Лондоном. В результате сбоя в работе сервера было отменено более 50 авиарейсов, люди часами ждали вылета, опаздывали на стыковочные рейсы и улетали без багажа. Причем подобные сбои в Хитроу происходят регулярно. О том, во сколько обошлась прошлогодняя компьютерная ошибка оператору аэропорта, не сообщается, но эксперты говорят, что речь может идти о миллионах фунтов стерлингов.
Компания NASDAQ OMX Group, владеющая биржей NASDAQ, заявила о намерении выплатить $41,6 млн в качестве компенсации фирмам, потерявшим деньги во время проведения IPO Facebook в мае 2012 г. Тогда на бирже NASDAQ произошел компьютерный сбой, из-за которого участники торгов не получали отчеты о сделках и не могли точно установить, сколько акций находится у них на руках. Еще годом ранее почти два миллиона японцев остались без мобильной связи. Как пояснил крупнейший местный оператор сотовой связи NTT DoCoMo, причиной стал опять же сбой на сервере.
«Подобные случаи – это серьезный удар как по имиджу компании, так и по ее бизнесу, так как он ведет к прямой потере денег», – рассказывает консультант по системам постоянной доступности HP Сергей Пластун. Причиной проблем, возникших во всех перечисленных выше случаях, являются сбои на компьютерных серверах. Конечно, любая техника подвержена поломкам, любой самый совершенный процессор может допустить ошибку в расчетах, но главное, чтобы эта ошибка не приводила к отказу всей системы. «В продуктовом портфеле HP есть серверы HP NonStop, которые могут в любых условиях поддерживать безотказное функционирование критически важных онлайновых бизнес-приложений», – отмечает Сергей Пластун. Их особенность в том, что они используют параллельную архитектуру, то есть представляют собой своего рода кластер. Все остальные системы, на сегодняшний день представленные на рынке, построены по принципу симметричной архитектуры. Их различие заключается в том, что в симметричных системах процессоры работают с общей памятью, с общей адресной и системной шинами. Как следствие, идет борьба за доступ к этим ресурсам, и в результате падает производительность всей системы. При параллельной архитектуре каждый процессор имеет собственную память, что кратно повышает быстродействие и отказоустойчивость всей системы. «При тестовых задачах мы получали на 8-процессорном сервере HP NonStop результат, сопоставимый с тем, который демонстрировали серверы SMP-архитектуры, содержащие 48 процессоров», – говорит Сергей Пластун.
Вторым важным критерием работы сервера является его надежность, устойчивость к сбоям. Необходимо понимать, что сбои будут все равно, вне зависимости от того, насколько совершенная аппаратная платформа установлена. Однако важно, чтобы даже в условиях сбоя система продолжала работать и предоставлять сервис. Акцент при разработке серверов HP NonStop был сделан на недопущении простоев в работе и остановок приложений. Как этого добиться, если избавиться от ошибок в принципе невозможно? Можно дублировать все компоненты, чтобы в случае сбоев функции вышедшего из строя элемента брал на себя компонент со «скамейки запасных». Это делает весь сервер более дорогим, не говоря уже о том, что программа будет перезапущена, а большинство полученных ранее данных утеряно. Представим себе, что нечто подобное произошло при проведении банковской транзакции либо при сбое в системе онлайн-бронирования аэропорта. Это может привести к непоправимым последствиям. Чтобы не допустить возникновения такого рода проблем, в HP NonStop реализована схема, при которой каждый выполняемый на сервере процесс, запущенный на каком-либо процессоре, имеет свою резервную копию на другом процессоре, где она неактивна и почти не занимает процессорного времени. Такая копия сохраняется через незначительные промежутки времени, и, если на основном процессоре, где работает бизнес-приложение, происходит сбой, работу подхватывает резервный процессор, начинающий выполнение задачи с последней сохраненной точки. В итоге те, кто работает с данным приложением, могут даже не увидеть, что произошел сбой и процесс остановлен. Максимум, что они могут заметить – исчезла последняя строчка в заполняемой анкете.
Бизнес рассчитывает на то, что, купив сервер, он понес затраты на закупку оборудования и его внедрение, а дальше должен получать только отдачу. Однако далеко не для всех серверов это справедливо. Критически важной на определенном этапе становится цена владения. Если даже в самом начале был приобретен аппаратный комплекс, оснащенный по самому последнему слову техники, то рано или поздно он устареет, возникнет необходимость в его модернизации. Технику доводят до пиковых значений производительности, добавляя дополнительные процессоры и память, но бесконечно масштабировать установленную систему невозможно. Поэтому рано или поздно бизнес сталкивается с тем, что старый сервер в буквальном смысле слова необходимо выбросить и купить новый, на который мучительно долго, с простоями в работе будет происходить перенос всех процессов и баз данных. Есть, конечно, возможность поставить параллельно два сервера одного производителя (один старый, а второй новый), объединив их в кластер, но такие системы, как правило, работают очень нестабильно и добиться от них кратного роста производительности невозможно. В серверах HP NonStop эта проблема решается простым наращиванием вычислительных мощностей, так как они изначально представляют собой кластер, и увеличение количества процессоров и памяти позволяет поддерживать нормальную работу без сбоев и «технических перерывов». «У нас есть клиенты, которые приобретали серверы достаточно давно и до сих пор на них успешно работают, просто добавляя процессоры и память или устанавливая новый сервер рядом со старым, который легко интегрируется в единую систему», – отмечает Сергей Пластун. При максимальном масштабировании можно построить кластер на 4080 процессоров, который фактически без потери производительности способен решать очень сложные задачи и не требует замены уже существующего оборудования, переноса баз данных и бизнес-приложений с одного сервера на другой.