Big Data дайджест №1

Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по Big Data за январь.

“На каком железе анализировать огромный вал информации“, habr.сom

Авторы блога компании МТС рассказали, какие технологии позволяют им хранить и обрабатывать большие данные без огромных вложений и чтобы хватало ресурсов для аналитики.

Гурман: Apple готовит складной iPhone, умные очки, AirPods с камерами и домашнего робота

Read

Источники данных:

базовые станции с абонентской базой более 78 миллионов клиентов;
исторические данные, на которых обучаются Data Science модели;
данные из классического хранилища по различным событиям – пользовательским и сетевым.

Задача. Хранить данные с тысячи серверов из регионов и получить возможности аналитики. Для этого нужно оборудование с достаточным ресурсом, количеством ядер CPU и объемом свободной оперативной памяти на узлах.

Тесты оборудования:

2016 год – накопитель Intel DC P3700

Исходные данные теста в 2016 году

Результаты теста в 2016 году

2017 год – серверные Intel Optane SSD на базе памяти 3D XPoint

Исходные данные теста в 2017 году

Результаты теста в 2017 году

Вывод. Результаты тестирования Intel DC P3700 не удовлетворили потребности компании. Оборудование Intel Optane SSD на базе памяти 3D XPoint с увеличенной производительностью подошло для решения поставленных задач. Чем больше данных анализировали в компании, тем эффективнее работало оборудование.

“SAP HANA: где и как эффективно использовать big data и машинное обучение“, habr.сom

Автор блога компании SAP проанализировали несколько кейсов с конференций SAP HANA Digital Fest и SAP Data Halloween и рассказали, где SAP HANA поможет работать с большими данными.

В местах массового скопления людей, например, в аэропортах. SAP HANA может прогнозировать пиковые нагрузки, быстро принимать и обрабатывать большой поток данных, пересчитывать нужное количество сотрудников и оборудования онлайн. За счет этого можно избежать сбоев в системах аэропорта из-за чрезмерной нагрузки и таких ситуаций, когда:

происходят сбои на информационных табло;
из-за сбоев в системах регистрации на стойках собираются очереди;
на подъезде к аэропорту образуются пробки;
из-за неправильных расчетов смен сотрудников и поломок турникетов, рамок и другого оборудования скапливаются очереди на досмотр и паспортный контроль.

Обучение в онлайн-университете: курс “Аналитик данных“

В ритейле. Система помогает ритейлерам собирать и анализировать информацию о клиентах, чтобы:

делать им персональные предложения, например, скидки и бонусы, и стимулировать к покупке;
повышать лояльность к компании;
нагонять трафик;
поднимать маржу;
избавляться от неликвида.

SAP HANA собирает статистику о покупателях, прогнозируют их покупки и реакции. Когда клиент приходит в магазин, срабатывает система распознавания лиц. Информация попадает в приложения, которые вычисляют, что нужно предложить покупателю, и передают информацию менеджменту и маркетингу.

На промышленных предприятиях, где нужно предотвращать ЧП. При помощи камер, датчиков и системы предупреждения SAP HANA выполняет задачи виртуального охранника:

контролирует, как одет сотрудник на входе на объект;
открывает турникет, только если у работника есть вся нужная экипировка;
следит за движениями сотрудников на объектах, сигнализирует о падениях и других травмах;
проверяет допуски к опасным и секретным установкам.

В благотворительности. Система может взаимодействовать с блокчейном и защищать транзакции-пожертвования. Благодаря ей денежные потоки распределяются прозрачно, а меценаты могут проследить, на что потратили их деньги.

“История больших данных – часть 1“, соmputerra.ru

Пользователь Владимир Хазов NetApp рассказал, как развивались Big Data.

Древний мир. Первобытные люди записывали информацию на костях, предположительно, чтобы вести торговую активность. В Вавилоне, Александрии и других древних государствах хранили информацию в книгах в библиотеках.

XVII век. Джо Грант описал теорию, в которой использование аналитики позволяет предупреждать об эпидемии бубонной чумы.

XIX век. Ричард Миллер Девинс создал термин Business Intelligence и рассказал, как ему помогло структурирование и анализ информации о деловой активности. Герман Холлерит создал табулятор – устройство с перфокартами, которое помогло ускорить перепись населения Америки и провести ее за 3 месяца вместо 10 лет.

Вторая мировая война. Британские ученые создали машину анализа данных Colossus, чтобы расшифровывать сообщения противника.

Конец XX – начало XXI века. Математики выделили три направления, на которых нужно сосредоточиться для управления данными: Volume, Velocity и Variety. Позже они стали основой для описательной модели Big Data 3V.

Расшифровка концепции 3V

Сегодня. Сформировалось понимание и задачи Big Data:

не всегда большой объем данных говорит о системе;
чтобы поддерживать актуальность и ценность данных, нужно быстро обрабатывать их;
нужно находить связь между любыми данными, вне зависимости от их структурированности;
система должна быть хорошо масштабируемой, чтобы обрабатывать весь поступающий поток информации.

Читать еще: “Как повысить продажи в три раза с помощью Big Data и машинного обучения“

Мнение автора и редакции может не совпадать. Хотите написать колонку для “Нетологии”? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

Смотрите также/You may also like

February 12, 2019 newsbz-admin

!netology.ru/blog Marketing

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

NewsBaza

Big Data дайджест №1

“На каком железе анализировать огромный вал информации“, habr.сom

“SAP HANA: где и как эффективно использовать big data и машинное обучение“, habr.сom

“История больших данных – часть 1“, соmputerra.ru

Смотрите также/You may also like

Categories

Recent Posts

Archives