Кто такой Data Scientist

Data Scientist (аналитик данных) – это специалист, работающий с большими массивами данных, используя методы и алгоритмы, специально разработанные для них.

Если для малых объёмов информации (в пределах 1 сервера или локальной сети) достаточно будет специалиста по статистике или администратора баз данных, то с Big Data (массивами данных в пределах целого кластера серверов) это не работает. Закономерности и связи данных такого объёма строятся по совершенно другим принципам. Задача аналитика данных: выявлять эти принципы и закономерности, использовать их в практических целях.

Этот специалист – настоящий учёный, и каждая выявленная им закономерность, каждый разработанный им метод работы с данными – это достижение науки о данных, статистики и математики.

Где требуются специалисты Data Science

  • IT-сфера: для систематизации информации, настройки фильтрации спама, оптимизации поиска и выдачи результатов.
  • Технологические отрасли: например, производство медицинских препаратов или иной продукции, требующей систематизации.
  • Финансовые организации: управление информацией о клиентах и их денежных средствах.
  • Торговые сети: как ведение и автоматизация баз данных товаров, так и статистический анализ потребностей и платёжеспособности целевой аудитории.
  • Медицина: те же базы данных, автоматическая диагностика.
  • Медиа: обработка всей входящей и исходящей информации, прогнозирование и анализ реакции на неё.
  • Избирательные кампании: тут точно не обойтись без Data Science-специалиста. Сколько информации нужно обработать как перед выборами, так и после них!
  • Статистические организации: без статистики мы бы даже не подозревали о том, как хорошо мы работаем.

Обязанности Data Scientist

В каждом конкретном случае обязанности сотрудника отличаются, но есть обязанности, общие для всех представителей профессии:

  • Сбор данных из различных источников, проверка их актуальности
  • Анализ поведения потребителей
  • Составление баз данных, персонализация тех или иных продуктов
  • Анализ всевозможных рисков
  • Определение всяческих фальсификаций и мошеннических действий, фальсификаций данных
  • Ведение отчётности по данным, включая результаты анализа и прогнозирование

Личные качества

  • Аналитический склад ума, склонность к точным наукам
  • Внимательность, пунктуальность, дотошность
  • Трудолюбие, настойчивость, способность доводить любое дело до конца
  • Стрессоустойчивость
  • Коммуникабельность
  • Умение доносить информацию доступным языком
  • Интуиция

Профессиональные навыки

  • Знание математики, математического анализа и статистики, теории вероятности и комбинаторики
  • Владение английским языком
  • Знания отрасли, в которой работает специалист
  • Знание экономики, законов развития бизнеса
  • Навыки организации и администрирования кластерных систем хранения больших массивов данных
  • Умение пользоваться инструментами статистики – Data Miner, MATLAB, SPSS, R, SAS, Tableau
  • Владение основными языками программирования, имеющими компоненты для работы с большими массивами данных: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy)

Плюсы и минусы профессии Data Scientist

Плюсы

  • Очень высокая востребованность. Даже существует «кадровый голод» в этой области. По данным McKinsey Global Institute провёл исследование: в 2018 году требовалось около 200 000 специалистов Data Science в США. Россия не отстаёт – с внедрением «цифровой экономики» профессия точно будет нужна.
  • Высокооплачиваемость. Ещё бы, при такой то востребованности!
  • Вы можете сами создавать и внедрять методы обработки данных, их анализа и хранения.
  • А ещё вы всегда будете в курсе всего.

Минусы

  • Аналитическим складом ума обладает не каждый.
  • Необходимость постоянно развиваться и «прокачивать себя» – звучит правильно, но времени на отдых будет катастрофически мало.
  • Часто ни один подход к решению проблемы не работает. Совсем. Поэтому аналитик данных разрабатывает новые методы, пишет алгоритмы обработки. Это не та профессия, где можно идти по накатанной.

Где обучают на DataScientist

Вузы

  • МГУ им. Ломоносова. Факультет вычислительной математики и кибернетики. По специальной программе «Техносфера» от Mail.Ru Group учат программированию на С++, многопоточному программированию, методам анализа больших объёмов информации, технологии систем поиска данных.
  • МФТИ, Кафедра анализа данных.
  • НИУ Высшая Школа Экономики. Факультет бизнес-информатики. Здесь можно выучиться на системного аналитика, проектировщика информационных систем, организатора управления ими.
  • Школа анализа данных Яндекс.

Онлайн-курсы для самообразования

  • Онлайн-курсы от Нетологии, Coursera, Udacity, EdX, DataCamp, Dataquest.
  • Обучающие видеоролики O’Reilly.
  • Канал машинного обучения Machine Learning.
  • Скринкасты Data Origami. Как для новичков, так и для более опытных.
  • Соревнования по Data Science и анализу данных на платформе Kaggle. Кроме того, у них тоже есть курсы!
  • Moscow Data Science Meetup – конференция для специалистов. Она проводится ежеквартально, так что если пропустили одну, ждать следующую придётся не так долго.

Зарплата Data Scientist

Эта профессия – одна из самых высоокоплачиваемых. По данным hh.ru, начинающий специалист в России получает от 50000 ₽, в Москве – от 70000 ₽. Опытные получают до 150 000 ₽ по России и до 250 000 ₽ в Москве. На Западе заработок таких специалистов выше – от $9000 до $12000 долларов в месяц.

Если вы хотите стать аналитиком данных, взвесьте все за и против. Понадобится терпение, придётся постоянно учиться и совершенствовать себя. Но если это вас не напугало, и вы со всей серьёзностью решили пойти в Data Science – вы не останетесь без работы, а зарплата и интересные задачи не разочаруют.