Data Science дайджест №3

Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по Data Science за январь.

«Как компьютерное зрение победит очереди и пустые полки в супермаркетах», Хайтек

Руководитель отдела инновационной аналитики и моделирования в Х5 Retail Group Валерий Бабушкин рассказал, какую информацию о покупателе можно получить из чека, сколько зарабатывают Data Scientist и как прокачаться в машинном обучении.

О сборе информации для анализа покупателей. Товары, которые вы купили, хорошо характеризуют вас. Из чека можно узнать приблизительный возраст, семейное положение, предпочтения покупателя — это уже немало информации.

О компьютерном зрении. Мы начинаем тестировать компьютерное зрение в крупных магазинах.

Первая задача — следить за тем, чтобы товар был на прилавке. Камера обнаруживает, что товара осталось мало. Сотрудник получает уведомление и идет на склад. Это поможет не потерять покупателей.

Вторая задача — очередь. Сотрудник сядет за кассу до того, как очередь сформировалась, что сохранит покупателям нервы, а нам — деньги.

О потенциальных сотрудниках. Наши сотрудники — это люди с аналитическим и критическим мышлением. Они должны уметь программировать на Python, знать теорию вероятности и математическую статистику, иметь навыки машинного обучения.

О карьерном росте и зарплате. В ИТ есть градация — джуниор, мидл, сеньор и стажер. Выше — стафф или ведущий, что встречается редко. Должность сеньора обесценивается: у нас их много, но они редко дотягивают до среднего мидла. В среднем джуниор получает где-то 120–150 тыс. рублей в месяц, мидл — до 250 тыс. Сеньоры порядка 400 тыс. рублей. Верхняя планка — больше 600 тыс. рублей.

Обучение в онлайн-университете: курс «Big Data: основы работы с большими массивами данных»

Об образовании. Я закончил два университета, но нигде не занимался машинным обучением, поэтому пришлось получать навыки самостоятельно.

На Coursera есть два серьезных курса: курс Хинтона про машинное обучение и нейронные сети и курс Дафны Коллер про вероятностные неографические модели. Я прошел один из трех курсов Коллер.

Учиться можно не только на Coursera. Например, я читаю много книг. Сейчас закончил книжку Брэдли Эфрона по статистике. До этого — книгу Йена Годфеллоу по глубокому обучению. В самообучении главное — чтение и проверка.

О будущем ритейла. Человек пользуется тем, что может себе позволить, и тем, что ему удобно. Поэтому формат гипермаркетов скоро начнет отмирать.

«Aadhaar: зачем в Индии оцифровали всех граждан», Executive.ru

В сообществе «Executive.ru» рассказали о созданной в Индии системе биометрической идентификации граждан и о том, как она работает.

Что такое Aadhaar. Это биометрическая система, в которой зарегистрирован 1,1 миллиард индийцев. Каждый житель Индии может получить двенадцатизначный идентификационный номер, дающий доступ к системе.

Data Science дайджест №3

Сдача биометрических данных

Для чего она нужна. Главная цель проекта — борьба с бедностью. Несмотря на успехи индийской экономики, 400 млн. человек живут за чертой бедности. Правительство выделяет средства на поддержку населения, но из-за коррупции и бюрократических проволочек деньги не доходят до жителей.

Какие данные используют. Система включает отпечатки пальцев, снимки радужки глаз, фотографии и личные данные.

Результаты. Aadhaar включили в государственные программы продуктовых карточек, льготного образования, субсидирования потребителей сжиженного газа, медицинской помощи.

«Камера, мотор, Big Data: как киностудии ищут новые фильмы с помощью ИИ», habr.com

Редактор блогов Binary District Мария Салтыкова рассмотрела примеры того, как киностудии пытаются предсказать успех фильма с помощью машинного обучения.

Компания ScriptBook попыталась предугадать успех фильма с помощью киносценария. В систему загрузили сценарий фильма, а через несколько минут получили отчет. Машина анализирует персонажей, предсказывает демографию проекта и прогнозирует возможные кассовые сборы.

Data Science дайджест №3

Студия 20th Century Fox разработала нейросеть Merlin Video, которая анализирует трейлеры фильмов и определяет, какие объекты и как часто встречаются. Это позволило понять, на какие фильмы могут пойти зрители, которым нравятся такие картины.

Data Science дайджест №3

В университете Айовы создали базу фильмов и обучили программу искать признаки, которые отличают коммерчески успешные ленты.

«Как создать отдел Data Science и не облажаться», habr.com

Иван Серов из ID Finance рассказал, как запустить работу отдела Data Science, что для этого нужно и какие трудности могут быть.

Заложите ожидания и KPI при создании отдела.
Сначала сделайте proof of concept проект, а затем переходите к более сложным вещам.
Соберите все необходимые данные в удобном для аналитиков виде.
Создайте отдела аналитики.
Подберите команду из Project Manager, Data Scientist, Data Engineer и разработчика.
Не забывайте про внутренние коммуникации и тренинги.
Выстраивайте внешние коммуникации — работайте с медиа, сообщество, рассказывайте о своих проектах, пишите статьи в тематические издания.

Читать еще: «12 книг по Data Science для новичков и продвинутых»

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.