Сбить температуру: зачем компаниям охлаждать данные и как это делать эффективно

По прогнозам Gartner, к 2026 году объем неструктурированных данных в корпоративных хранилищах увеличится в три раза по сравнению с 2023 годом. Как сократить расходы за счет «температурного» хранения этих данных, в то же время сохраняя их доступность — разбираемся с Екатериной Ульяшовой, менеджером по продуктовому маркетингу Arenadata.
Измеряем температуру
Температура данных — это частота обращений к ним. Горячими считаются самые востребованные данные, которые нужны в ежедневных процессах и должны быть доступны оперативно. Текущие транзакции клиентов банка, свежие кассовые операции в ритейле, показания датчиков промышленного оборудования для контроля в реальном времени — примеры горячих данных.
Они быстро остывают: неструктурированные данные, к которым не обращались на протяжении одного-двух месяцев, скорее всего, не будут использоваться снова в операционной деятельности, то есть станут холодными. К этой категории относят любую информацию, которая потребуется через квартал или год, а может, и никогда: архивы документов, данные завершенных проектов, логи систем информационной безопасности, результаты научных исследований и др. До 75—90% неструктурированных данных холодные.
Критерии температуры и грань между горячими и холодными (а также тёплыми и ледяными) данными определяет компания, руководствуясь спецификой бизнес-процессов.
Хранить нельзя удалять
Холодные данные — ценный актив, который давно используют крупнейшие компании.
Предприятия добывающей промышленности хранят данные геологоразведки, чтобы воспользоваться ими, когда появится возможность разрабатывать труднодоступные месторождения. Промышленные предприятия используют массив данных, полученных с IoT-датчиков, для моделирования технологических процессов и предотвращения сбоев и простоев. Ритейл строит на исторической информации (продажи, логистика, цены, результаты промоакций) сложные аналитические модели, прогнозирует спрос и управляет складскими остатками. Организации хранят данные в соответствии с требованиями регуляторов — если эта информация и не будет использована, обеспечить ее доступность на протяжении установленного периода необходимо.
Даже ледяные данные представляют ценность и должны оставаться доступными. Отсюда — две задачи:
Идентифицировать холодные данные среди массива информации.
Организовать их эффективное хранение, сохраняя доступность.
Холодильник данных
Если хранить и обрабатывать холодные данные вместе с горячими, это неизбежно приведёт к высоким операционным расходам. На стоимость влияет ряд факторов, включая объем, типы используемых носителей, сроки хранения, необходимость доступа и реализованные меры безопасности. Стоимость различается и в зависимости от инфраструктуры: локальное хранение, облачное или гибридная модель.
Решение о переносе данных в холодное хранилище может быть принято на основании нескольких критериев:
Частота обращений. Данные, к которым не обращались на протяжении длительного времени.
Объем. Если он превышает несколько терабайт, пора разделять данные на горячие и холодные.
Актуальность. Критически важные данные утрачивают значимость после завершения проекта или изменения целей компании.
Разделяй и экономь
Реализовать разделение горячих и холодных данных призвано многоуровневое хранение — оптимизация использования ресурсов в зависимости от типа данных и частоты их использования. Все как в быту: елочные игрушки в мае убираем на дальнюю полку, а смартфон всегда держим под рукой.
Горячие данные хранятся на оптимизированных по производительности носителях (например, SSD или в оперативной памяти). Мы используем их в режиме реального времени или с минимальной задержкой.
Холодные данные отправляются в оптимизированные по стоимости хранения больших объёмов данных носители (HDD и/или объектное S3-совместимое хранилище). Время доступа может измеряться минутами или часами.
Результат: повышаем производительность чтения горячих данных и снижаем затраты на хранение холодных за счет баланса между дорогостоящими SSD и более доступными HDD и S3.
В современных дата-платформах разделение горячих и холодных данных можно выполнять автоматически, с использованием специализированных российских и зарубежных сервисов.
В типичном озере данных, согласно закону Парето, 80% вычислительных нагрузок приходится на обработку 20% данных. Хранить холодные данные вместе с горячими — сомнительная трата ресурсов. Концепция температурного хранения позволяет оптимизировать затраты, повысить эффективность инфраструктуры и улучшить управление данными.
Еще по теме



