Содержание
Кто такой Data Scientist
Data Scientist (аналитик данных) – это специалист, работающий с большими массивами данных, используя методы и алгоритмы, специально разработанные для них.
Если для малых объёмов информации (в пределах 1 сервера или локальной сети) достаточно будет специалиста по статистике или администратора баз данных, то с Big Data (массивами данных в пределах целого кластера серверов) это не работает. Закономерности и связи данных такого объёма строятся по совершенно другим принципам. Задача аналитика данных: выявлять эти принципы и закономерности, использовать их в практических целях.
Этот специалист – настоящий учёный, и каждая выявленная им закономерность, каждый разработанный им метод работы с данными – это достижение науки о данных, статистики и математики.
Где требуются специалисты Data Science
- IT-сфера: для систематизации информации, настройки фильтрации спама, оптимизации поиска и выдачи результатов.
- Технологические отрасли: например, производство медицинских препаратов или иной продукции, требующей систематизации.
- Финансовые организации: управление информацией о клиентах и их денежных средствах.
- Торговые сети: как ведение и автоматизация баз данных товаров, так и статистический анализ потребностей и платёжеспособности целевой аудитории.
- Медицина: те же базы данных, автоматическая диагностика.
- Медиа: обработка всей входящей и исходящей информации, прогнозирование и анализ реакции на неё.
- Избирательные кампании: тут точно не обойтись без Data Science-специалиста. Сколько информации нужно обработать как перед выборами, так и после них!
- Статистические организации: без статистики мы бы даже не подозревали о том, как хорошо мы работаем.
Обязанности Data Scientist
В каждом конкретном случае обязанности сотрудника отличаются, но есть обязанности, общие для всех представителей профессии:
- Сбор данных из различных источников, проверка их актуальности
- Анализ поведения потребителей
- Составление баз данных, персонализация тех или иных продуктов
- Анализ всевозможных рисков
- Определение всяческих фальсификаций и мошеннических действий, фальсификаций данных
- Ведение отчётности по данным, включая результаты анализа и прогнозирование
Личные качества
- Аналитический склад ума, склонность к точным наукам
- Внимательность, пунктуальность, дотошность
- Трудолюбие, настойчивость, способность доводить любое дело до конца
- Стрессоустойчивость
- Коммуникабельность
- Умение доносить информацию доступным языком
- Интуиция
Профессиональные навыки
- Знание математики, математического анализа и статистики, теории вероятности и комбинаторики
- Владение английским языком
- Знания отрасли, в которой работает специалист
- Знание экономики, законов развития бизнеса
- Навыки организации и администрирования кластерных систем хранения больших массивов данных
- Умение пользоваться инструментами статистики – Data Miner, MATLAB, SPSS, R, SAS, Tableau
- Владение основными языками программирования, имеющими компоненты для работы с большими массивами данных: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy)
Плюсы и минусы профессии Data Scientist
Плюсы
- Очень высокая востребованность. Даже существует «кадровый голод» в этой области. По данным McKinsey Global Institute провёл исследование: в 2018 году требовалось около 200 000 специалистов Data Science в США. Россия не отстаёт – с внедрением «цифровой экономики» профессия точно будет нужна.
- Высокооплачиваемость. Ещё бы, при такой то востребованности!
- Вы можете сами создавать и внедрять методы обработки данных, их анализа и хранения.
- А ещё вы всегда будете в курсе всего.
Минусы
- Аналитическим складом ума обладает не каждый.
- Необходимость постоянно развиваться и «прокачивать себя» – звучит правильно, но времени на отдых будет катастрофически мало.
- Часто ни один подход к решению проблемы не работает. Совсем. Поэтому аналитик данных разрабатывает новые методы, пишет алгоритмы обработки. Это не та профессия, где можно идти по накатанной.
Где обучают на DataScientist
Вузы
- МГУ им. Ломоносова. Факультет вычислительной математики и кибернетики. По специальной программе «Техносфера» от Mail.Ru Group учат программированию на С++, многопоточному программированию, методам анализа больших объёмов информации, технологии систем поиска данных.
- МФТИ, Кафедра анализа данных.
- НИУ Высшая Школа Экономики. Факультет бизнес-информатики. Здесь можно выучиться на системного аналитика, проектировщика информационных систем, организатора управления ими.
- Школа анализа данных Яндекс.
Онлайн-курсы для самообразования
- Онлайн-курсы от Нетологии, Coursera, Udacity, EdX, DataCamp, Dataquest.
- Обучающие видеоролики O’Reilly.
- Канал машинного обучения Machine Learning.
- Скринкасты Data Origami. Как для новичков, так и для более опытных.
- Соревнования по Data Science и анализу данных на платформе Kaggle. Кроме того, у них тоже есть курсы!
- Moscow Data Science Meetup – конференция для специалистов. Она проводится ежеквартально, так что если пропустили одну, ждать следующую придётся не так долго.
Зарплата Data Scientist
Эта профессия – одна из самых высоокоплачиваемых. По данным hh.ru, начинающий специалист в России получает от 50000 ₽, в Москве – от 70000 ₽. Опытные получают до 150 000 ₽ по России и до 250 000 ₽ в Москве. На Западе заработок таких специалистов выше – от $9000 до $12000 долларов в месяц.
Если вы хотите стать аналитиком данных, взвесьте все за и против. Понадобится терпение, придётся постоянно учиться и совершенствовать себя. Но если это вас не напугало, и вы со всей серьёзностью решили пойти в Data Science – вы не останетесь без работы, а зарплата и интересные задачи не разочаруют.