Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по Data Science.

Обучение в онлайн-университете: курс “Big Data

Deep Learning – не только котики на мобилках или как мы производим дефектовку тележек локомотивов“, habr

Пользователь Александр Дончук рассказал в блоге Open Data Science, как создавал систему распознавания дефектов и контроля состояния тележек для локомотивов.

Задача. Создать аппаратно-программный комплекс, который поможет обнаружить дефекты тормозных колодок и передаст данные бригадиру смены.

Оборудование. Использовали камеры Basler и импульсную подсветку 6к люмен. Для серверного железа взяли Intel Core i7-7740X Kaby Lake, 46gb RAM, 1 TB SSD и 3х1080Ti.


Сборка и проверка сигнала управления импульсной подсветкой для камеры

Сбор данных. Собрали около 800 фотографий колодок разной стертости.

Обучение модели. Лучше всего подошла модель c энкодером se_resnext50. Для обучения модели использовали фреймворк Pytorch 1.0.1.

def train_transform(p=1):

return Compose([

OneOf([

CLAHE(clip_limit=2),

IAASharpen(),

IAAEmboss(),

RandomBrightnessContrast(brightness_limit=0.8, contrast_limit=0.8),

HueSaturationValue(hue_shift_limit=50, sat_shift_limit=50, val_shift_limit=50),

RGBShift(r_shift_limit=50, g_shift_limit=50, b_shift_limit=50),

JpegCompression(quality_lower=30),

RandomGamma(),

GaussNoise()

], p=0.3),

OneOf([

Blur(),

MotionBlur(),

MedianBlur(),

], p=0.3),

ShiftScaleRotate(shift_limit=0.2, scale_limit=0.4, rotate_limit=5, p=0.5),

Normalize(p=1)

], p=p)

В качестве функции потерь выбрали The Lovasz-Softmax loss.

Программирование REST сервера и клиента на Android. Для REST сервера выбрали flask.

Результат:

Для чего и как мы скрываем госномера автомобилей в объявлениях Авито“, habr

Илья Сергеев в блоге компании Авито рассказал, зачем они скрывают номера автомобилей и какими способами можно решить эту задачу.

По госномеру можно узнать дополнительную информацию об автомобиле: застрахован ли автомобиль, находится ли в федеральном розыске; поэтому пользователи Авито пытаются самостоятельно скрыть номера:

Авито помогает пользователям обезличивать фотографии, чтобы защитить данные о госномерах:

Автоматизировать процесс помогут сверточные нейронные сети: двухэтапные – Faster RCNN, Mask RCNN; одноэтапные – SSD, YOLO, RetinaNet. Они способны находить на картинках множество объектов разных классов и по умолчанию выдают bounding box со сторонами, параллельными осям координат.

Если не изменить bbox regressor так, чтобы получать угол поворота рамки, то номер закроется некрасиво:

Сбор данных. Сборка датасета проходит два этапа:

  1. собрать картинки автомобилей;
  2. разметить область с госномером на фотографиях.

Модель. Создаем сеть для предсказания четырёх точек области. Получаем признаки с помощью resnet18, делаем голову для регрессии в четыре точки и голову для определения на картинке номерного знака.

Как стать Data Engineer“, блог Адиля Хаштамова

Разработчик Адиль Хаштамов рассказал в своем блоге, что такое Data Engineer, какие навыки прокачать и сколько зарабатывают специалисты этой области.

Что такое Data Engineer и что нужно знать дата-инженеру. Область data engineering – доставка, хранение и обработка данных. Обеспечение инфраструктуры данных – главная задача дата-инженеров. В Data Engineering нужны знания эффективных алгоритмов и структур данных.

Компании предъявляют такие минимальные требования к специалисту:

  • Знать SQL и Python;
  • Иметь опыт работы с облачными платформами;
  • Знать Java/Scala;
  • Работать с базами данных SQL и NoSQL.

Требования к специалисту могут меняться в зависимости от компании: в Google, Amazon, Facebook требования к кандидату выше.

Зарплата в области. Средняя зарплата у Data Engineer в США – 140 тысяч долларов. В России спрос на дата-инженеров только начинает расти, поэтому зарплатная вилка варьируется от 100 тысяч рублей до 250 тысяч.

Как исследователи в Uber применяют и масштабируют знания о поведении человека“, habr

В блоге Skyeng опубликовали перевод статьи команды Uber Labs о том, как знание человеческого поведения применяется на практике и почему для улучшения пользовательского опыта они сотрудничают с маркетологами.

Uber Labs – команда исследователей со знаниями психологии, маркетинга и когнитивных наук. Они знают, что мотивирует людей, как они принимают решения и что сделать, чтобы удовлетворить клиентов. Задача команды – анализ данных для улучшения продуктов в интересах пассажиров и водителей.

Чем занимается команда Uber Labs:

  1. Консультирует и дает рекомендации командам маркетологов, продактам и специалистам по данным;
  2. Создает гайдлайны по контенту и разработке и шаблоны на R и Python;
  3. Предоставляет доступ к своей аналитике и методологии коллегам в Uber.

Кейс: Express POOL. В 2018 году Uber запустил сервис Express POOL, который предлагает разделить плату за поездку с попутчиком, но при этом последнему пассажиру нужно пройтись до точки отправления. Проблема – пользователи отменяли поездки, если приходилось ждать дольше. После консультации с разработчиками сервиса команда Uber labs выяснила, что люди не любят бездействие и хотят, чтобы все действия были прозрачны. Эти рекомендации учли и дополнили в интерфейс продукта.


Дизайн интерфейса Express POOL показывает детальные шаги и использует иконки для получения дополнительной информации о статусе заказа.


Мнение автора и редакции может не совпадать. Хотите написать колонку для “Нетологии”? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

©


Смотрите также/You may also like