Авторы блога компании МТС рассказали, какие технологии позволяют им хранить и обрабатывать большие данные без огромных вложений и чтобы хватало ресурсов для аналитики.
базовые станции с абонентской базой более 78 миллионов клиентов;
исторические данные, на которых обучаются Data Science модели;
данные из классического хранилища по различным событиям – пользовательским и сетевым.
Задача. Хранить данные с тысячи серверов из регионов и получить возможности аналитики. Для этого нужно оборудование с достаточным ресурсом, количеством ядер CPU и объемом свободной оперативной памяти на узлах.
Тесты оборудования:
2016 год – накопитель Intel DC P3700
Исходные данные теста в 2016 году
Результаты теста в 2016 году
2017 год – серверные Intel Optane SSD на базе памяти 3D XPoint
Исходные данные теста в 2017 году
Результаты теста в 2017 году
Вывод. Результаты тестирования Intel DC P3700 не удовлетворили потребности компании. Оборудование Intel Optane SSD на базе памяти 3D XPoint с увеличенной производительностью подошло для решения поставленных задач. Чем больше данных анализировали в компании, тем эффективнее работало оборудование.
В местах массового скопления людей, например, в аэропортах. SAP HANA может прогнозировать пиковые нагрузки, быстро принимать и обрабатывать большой поток данных, пересчитывать нужное количество сотрудников и оборудования онлайн. За счет этого можно избежать сбоев в системах аэропорта из-за чрезмерной нагрузки и таких ситуаций, когда:
происходят сбои на информационных табло;
из-за сбоев в системах регистрации на стойках собираются очереди;
на подъезде к аэропорту образуются пробки;
из-за неправильных расчетов смен сотрудников и поломок турникетов, рамок и другого оборудования скапливаются очереди на досмотр и паспортный контроль.
В ритейле. Система помогает ритейлерам собирать и анализировать информацию о клиентах, чтобы:
делать им персональные предложения, например, скидки и бонусы, и стимулировать к покупке;
повышать лояльность к компании;
нагонять трафик;
поднимать маржу;
избавляться от неликвида.
SAP HANA собирает статистику о покупателях, прогнозируют их покупки и реакции. Когда клиент приходит в магазин, срабатывает система распознавания лиц. Информация попадает в приложения, которые вычисляют, что нужно предложить покупателю, и передают информацию менеджменту и маркетингу.
На промышленных предприятиях, где нужно предотвращать ЧП. При помощи камер, датчиков и системы предупреждения SAP HANA выполняет задачи виртуального охранника:
контролирует, как одет сотрудник на входе на объект;
открывает турникет, только если у работника есть вся нужная экипировка;
следит за движениями сотрудников на объектах, сигнализирует о падениях и других травмах;
проверяет допуски к опасным и секретным установкам.
В благотворительности. Система может взаимодействовать с блокчейном и защищать транзакции-пожертвования. Благодаря ей денежные потоки распределяются прозрачно, а меценаты могут проследить, на что потратили их деньги.
Пользователь Владимир Хазов NetApp рассказал, как развивались Big Data.
Древний мир. Первобытные люди записывали информацию на костях, предположительно, чтобы вести торговую активность. В Вавилоне, Александрии и других древних государствах хранили информацию в книгах в библиотеках.
XVII век. Джо Грант описал теорию, в которой использование аналитики позволяет предупреждать об эпидемии бубонной чумы.
XIX век. Ричард Миллер Девинс создал термин Business Intelligence и рассказал, как ему помогло структурирование и анализ информации о деловой активности. Герман Холлерит создал табулятор – устройство с перфокартами, которое помогло ускорить перепись населения Америки и провести ее за 3 месяца вместо 10 лет.
Вторая мировая война. Британские ученые создали машину анализа данных Colossus, чтобы расшифровывать сообщения противника.
Конец XX – начало XXI века. Математики выделили три направления, на которых нужно сосредоточиться для управления данными: Volume, Velocity и Variety. Позже они стали основой для описательной модели Big Data 3V.
Расшифровка концепции 3V
Сегодня. Сформировалось понимание и задачи Big Data:
не всегда большой объем данных говорит о системе;
чтобы поддерживать актуальность и ценность данных, нужно быстро обрабатывать их;
нужно находить связь между любыми данными, вне зависимости от их структурированности;
система должна быть хорошо масштабируемой, чтобы обрабатывать весь поступающий поток информации.
Мнение автора и редакции может не совпадать. Хотите написать колонку для “Нетологии”? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.