Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по Big Data за январь.
““, habr.сom
Авторы рассказали, какие технологии позволяют им хранить и обрабатывать большие данные без огромных вложений и чтобы хватало ресурсов для аналитики.
Источники данных:
- базовые станции с абонентской базой более 78 миллионов клиентов;
- исторические данные, на которых обучаются Data Science модели;
- данные из классического хранилища по различным событиям – пользовательским и сетевым.
Задача. Хранить данные с тысячи серверов из регионов и получить возможности аналитики. Для этого нужно оборудование с достаточным ресурсом, количеством ядер CPU и объемом свободной оперативной памяти на узлах.
Тесты оборудования:
2016 год – накопитель Intel DC P3700
.png)
Исходные данные теста в 2016 году
.png)
Результаты теста в 2016 году
2017 год – серверные Intel Optane SSD на базе памяти 3D XPoint
.png)
Исходные данные теста в 2017 году
.png)
Результаты теста в 2017 году
Вывод. Результаты тестирования Intel DC P3700 не удовлетворили потребности компании. Оборудование Intel Optane SSD на базе памяти 3D XPoint с увеличенной производительностью подошло для решения поставленных задач. Чем больше данных анализировали в компании, тем эффективнее работало оборудование.
““, habr.сom
Автор проанализировали несколько кейсов с конференций и рассказали, где SAP HANA поможет работать с большими данными.
В местах массового скопления людей, например, в аэропортах. SAP HANA может прогнозировать пиковые нагрузки, быстро принимать и обрабатывать большой поток данных, пересчитывать нужное количество сотрудников и оборудования онлайн. За счет этого можно избежать сбоев в системах аэропорта из-за чрезмерной нагрузки и таких ситуаций, когда:
- происходят сбои на информационных табло;
- из-за сбоев в системах регистрации на стойках собираются очереди;
- на подъезде к аэропорту образуются пробки;
- из-за неправильных расчетов смен сотрудников и поломок турникетов, рамок и другого оборудования скапливаются очереди на досмотр и паспортный контроль.
Обучение в онлайн-университете: курс ““
В ритейле. Система помогает ритейлерам собирать и анализировать информацию о клиентах, чтобы:
- делать им персональные предложения, например, скидки и бонусы, и стимулировать к покупке;
- повышать лояльность к компании;
- нагонять трафик;
- поднимать маржу;
- избавляться от неликвида.
SAP HANA собирает статистику о покупателях, прогнозируют их покупки и реакции. Когда клиент приходит в магазин, срабатывает система распознавания лиц. Информация попадает в приложения, которые вычисляют, что нужно предложить покупателю, и передают информацию менеджменту и маркетингу.
На промышленных предприятиях, где нужно предотвращать ЧП. При помощи камер, датчиков и системы предупреждения SAP HANA выполняет задачи виртуального охранника:
- контролирует, как одет сотрудник на входе на объект;
- открывает турникет, только если у работника есть вся нужная экипировка;
- следит за движениями сотрудников на объектах, сигнализирует о падениях и других травмах;
- проверяет допуски к опасным и секретным установкам.
В благотворительности. Система может взаимодействовать с блокчейном и защищать транзакции-пожертвования. Благодаря ей денежные потоки распределяются прозрачно, а меценаты могут проследить, на что потратили их деньги.
““, соmputerra.ru
Пользователь Владимир Хазов NetApp рассказал, как развивались Big Data.
Древний мир. Первобытные люди записывали информацию на костях, предположительно, чтобы вести торговую активность. В Вавилоне, Александрии и других древних государствах хранили информацию в книгах в библиотеках.
XVII век. Джо Грант описал теорию, в которой использование аналитики позволяет предупреждать об эпидемии бубонной чумы.
XIX век. Ричард Миллер Девинс создал термин Business Intelligence и рассказал, как ему помогло структурирование и анализ информации о деловой активности. Герман Холлерит создал табулятор – устройство с перфокартами, которое помогло ускорить перепись населения Америки и провести ее за 3 месяца вместо 10 лет.
Вторая мировая война. Британские ученые создали машину анализа данных Colossus, чтобы расшифровывать сообщения противника.
Конец XX – начало XXI века. Математики выделили три направления, на которых нужно сосредоточиться для управления данными: Volume, Velocity и Variety. Позже они стали основой для описательной модели Big Data 3V.
.jpg)
Расшифровка концепции 3V
Сегодня. Сформировалось понимание и задачи Big Data:
- не всегда большой объем данных говорит о системе;
- чтобы поддерживать актуальность и ценность данных, нужно быстро обрабатывать их;
- нужно находить связь между любыми данными, вне зависимости от их структурированности;
- система должна быть хорошо масштабируемой, чтобы обрабатывать весь поступающий поток информации.
Читать еще: ““
Мнение автора и редакции может не совпадать. Хотите написать колонку для “Нетологии”? Читайте наши . Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к .