Top.Mail.Ru
мнения

Сбить температуру: зачем компаниям охлаждать данные и как это делать эффективно

Фото: Liu Xu / XinHua / Global Look Press Фото: Liu Xu / XinHua / Global Look Press

По прогнозам Gartner, к 2026 году объем неструктурированных данных в корпоративных хранилищах увеличится в три раза по сравнению с 2023 годом. Как сократить расходы за счет «температурного» хранения этих данных, в то же время сохраняя их доступность — разбираемся с Екатериной Ульяшовой, менеджером по продуктовому маркетингу Arenadata

Измеряем температуру

Температура данных — это частота обращений к ним. Горячими считаются самые востребованные данные, которые нужны в ежедневных процессах и должны быть доступны оперативно. Текущие транзакции клиентов банка, свежие кассовые операции в ритейле, показания датчиков промышленного оборудования для контроля в реальном времени — примеры горячих данных.

Они быстро остывают: неструктурированные данные, к которым не обращались на протяжении одного-двух месяцев, скорее всего, не будут использоваться снова в операционной деятельности, то есть станут холодными. К этой категории относят любую информацию, которая потребуется через квартал или год, а может, и никогда: архивы документов, данные завершенных проектов, логи систем информационной безопасности, результаты научных исследований и др. До 75—90% неструктурированных данных холодные.

Критерии температуры и грань между горячими и холодными (а также тёплыми и ледяными) данными определяет компания, руководствуясь спецификой бизнес-процессов.

Хранить нельзя удалять

Холодные данные — ценный актив, который давно используют крупнейшие компании.

Предприятия добывающей промышленности хранят данные геологоразведки, чтобы воспользоваться ими, когда появится возможность разрабатывать труднодоступные месторождения. Промышленные предприятия используют массив данных, полученных с IoT-датчиков, для моделирования технологических процессов и предотвращения сбоев и простоев. Ритейл строит на исторической информации (продажи, логистика, цены, результаты промоакций) сложные аналитические модели, прогнозирует спрос и управляет складскими остатками. Организации хранят данные в соответствии с требованиями регуляторов — если эта информация и не будет использована, обеспечить ее доступность на протяжении установленного периода необходимо.

Даже ледяные данные представляют ценность и должны оставаться доступными. Отсюда — две задачи:

  • Идентифицировать холодные данные среди массива информации.

  • Организовать их эффективное хранение, сохраняя доступность.

Холодильник данных

Если хранить и обрабатывать холодные данные вместе с горячими, это неизбежно приведёт к высоким операционным расходам. На стоимость влияет ряд факторов, включая объем, типы используемых носителей, сроки хранения, необходимость доступа и реализованные меры безопасности. Стоимость различается и в зависимости от инфраструктуры: локальное хранение, облачное или гибридная модель.

Решение о переносе данных в холодное хранилище может быть принято на основании нескольких критериев:

  • Частота обращений. Данные, к которым не обращались на протяжении длительного времени.

  • Объем. Если он превышает несколько терабайт, пора разделять данные на горячие и холодные.

  • Актуальность. Критически важные данные утрачивают значимость после завершения проекта или изменения целей компании.

Разделяй и экономь

Реализовать разделение горячих и холодных данных призвано многоуровневое хранение — оптимизация использования ресурсов в зависимости от типа данных и частоты их использования. Все как в быту: елочные игрушки в мае убираем на дальнюю полку, а смартфон всегда держим под рукой.

  • Горячие данные хранятся на оптимизированных по производительности носителях (например, SSD или в оперативной памяти). Мы используем их в режиме реального времени или с минимальной задержкой.

  • Холодные данные отправляются в оптимизированные по стоимости хранения больших объёмов данных носители (HDD и/или объектное S3-совместимое хранилище). Время доступа может измеряться минутами или часами.

Результат: повышаем производительность чтения горячих данных и снижаем затраты на хранение холодных за счет баланса между дорогостоящими SSD и более доступными HDD и S3.

В современных дата-платформах разделение горячих и холодных данных можно выполнять автоматически, с использованием специализированных российских и зарубежных сервисов.

В типичном озере данных, согласно закону Парето, 80% вычислительных нагрузок приходится на обработку 20% данных. Хранить холодные данные вместе с горячими — сомнительная трата ресурсов. Концепция температурного хранения позволяет оптимизировать затраты, повысить эффективность инфраструктуры и улучшить управление данными.

Еще по теме