Прямой перевод Big Data означает «большие данные». Насколько большие? На этот вопрос нет чёткого ответа. Речь может идти и о 100 мегабайт информации и от 1000 терабайт. В данном случае актуальна будет отрасль, в которой Big Data задействована. Понятно, что когда речь заходит об исследовании траекторий космических объектов, объем анализируемой информации будет на порядки выше, чем при исследовании кассовых чеков из супермаркета.
Почему в названии статьи стоит «большая и страшная»? Потому что 99% людей не понимает, о чём идет речь. Про прикладное использование (на практике, чтобы сделать нашу жизнь лучше), постоянно спорят даже профессионалы отрасли. Предлагаем потратить 15-20 минут времени и разобраться в основах.
Содержание
Откуда вообще взялась Big Data
Мир видел 3 промышленные революции. Аграрную (ещё до нашей эры), связанную с переходом к ручной обработке земли и началом скотоводства. Промышленную, XV — начала XIX веков, окончившуюся повсеместным внедрением машин и станков. Научно-информационную — с середины XX века и продолжающуюся по сегодняшний день.
Big Data — это четвертая, по мнению многих, промышленная революция. В чём она проявляется? С момента появления компьютеров в каждом доме, с бурным развитием интернета человечество накопило огромные базы данных по всем областям жизнедеятельности. Рост идет по экспоненте: данные формируются всё быстрее и быстрее. Сейчас каждые 3 года вновь собранные данные, в масштабах всего мира, превышают размер полученных за предыдущие 30 лет. А к 2020 году этот срок может уменьшиться до одного года в связи с бурным развитием «интернета вещей».
Примерно 3-4 года назад и появился термин Big Data. С этого же времени началось бурное продвижение проектов, направленных на анализ собранных данных. Затем и быстрый рост компаний, стремящихся применить результаты данного анализа на практике.
Что общего у всех этих проектов
Несмотря на огромное количество разных рынков и ниш, с которыми успешно интегрируется Big Data, в её основе заложены технологии, отвечающие за три главные операции.
- Возможность собрать и обработать большой объем данных (большой по сравнению со стандартным для этой отрасли).
- Возможность этой работы с огромным объемом, в том числе с вновь поступающими данными, в режиме реального времени.
- Возможность находить иголку в стоге сена: обрабатывать плохо структурированные данные, приводя их к общему знаменателю.
Звучит как-то сложно и заумно. Давайте разбираться.
Как это работает
Представим завод по производству автомобилей Тойота. Легендарная эффективность основана на принципе ещё из прошлого века — «работа с колес, без наличия склада». Комплектующие подвозятся по мере необходимости, и сразу же идут на конвейер, что экономит кучу времени, места (складские помещения), зарплаты. И так по всем пунктам технологической цепочки.
Вся эта махина создана талантливейшими предпринимателями и менеджментом, в разработку отлаженной модели вложены миллиарды долларов. А теперь представим, что подобные модели можно будет внедрить на большинстве производств, не прибегая к таким огромным денежным, временным и человеческим затратам.
Весь процесс можно сделать ещё эффективнее. Например, на тех же заводах Тойота, сейчас массово вводится «интернет вещей». Всё оснащается датчиками, которые в режиме реального времени считывают информацию и передают её в общий центр обработки данных.
Допустим, на конвейерах в разных странах стоят 1000 одинаковых роботов, выполняющих только 1-10 производственных функций. Сейчас появляется возможность просчитать с точностью до 1 дня, когда наиболее эффективно отправить роботов на техобслуживание или заменить новыми. А на основании данных, по состоянию лакокрасочного покрытия автомобилей через 3 года после выпуска, настроить более точное распыление, качество и состав краски в покрасочном цехе. Сделать это можно отдельно для каждого региона, куда поставляются автомобили (для России — с повышенной стойкостью против коррозии).
Всё то же самое справедливо для сельского хозяйства, когда датчики в режиме реально времени собирают информацию о составе почвы, прогнозируют осадки, отслеживают температурные изменения. На основании этого, а также накопленных исторических данных, даются рекомендации о количестве воды, требуемой для полива, размере и виде удобрений, которые необходимо вносить для получения максимального урожая. Такие мелочи, даже если приведут к росту урожайности на 10-15%, способны решить проблему голода в масштабах всего мира. Количество посевных площадей строго ограничено, поэтому решающее значение приобретает их эффективное использование.
Огромное количество стартапов кинулись в мир Big Data, инвесторы вкладывают в эту сферу деньги. Крупные предприятия создают отделы, которые занимаются анализом Big Data на уже накопленных самими предприятиями данных. Мобильные операторы с удивлением осознали, что знают о своем клиенте гораздо больше, чем просто средний чек, пользование роумингом, предпочтение по виду оплаты и т.д. Они пытаются понять, что же делать с этими знаниями. Например, могут продавать их. Если человек пользуется роумингом, значит он бывает за границей. Если человек пользуется роумингом + в этом же месте пользуется роумингом его супруг — эта информация становится бесценной для турагентств.
В чём подвох, если всё так просто и логично
Прошло 3-4 года, а практических и осязаемых результатов крайне мало.
Крупные корпорации и ранее занимались подобными исследованиями. Сейчас они анализируют больше получаемых данных на больших скоростях. Тут о революции Big Data нет смысла говорить, идет планомерное развитие. Для средних и малых производств, стоимость внедрения Big Data может превысить получаемый от неё результат. Специалиста найти тяжело, и его работа стоит больших денег. Инфраструктура, внедрение полученных результатов в процесс производства (его перестройка), а через полгода, в связи с анализом вновь полученных данных, очередная перестройка.
«Подгонка под кривую доходности» — это из мира трейдинга. На основании полученных ранее данных, с применением дополнительных фильтров, создается торговая система, показывающая на истории идеальный результат. В 98% случаев такая торговая система не работает на реальных данных. При этом создатели торговой системы забывают, что большинство данных получены случайным образом. И то, что работало вчера, не обязательно будет работать завтра. В примере выше с мобильными операторами, данные о количестве пользующихся роумингом в Турции, превращаются в пыль, после запрета полёта чартеров в эту страну.
Многие полученные данные, особенно при их покупке, могут быть неверны. Например, если их ввели с ошибками, или для базы данных взята не корректная выборка. Их могут неправильно истолковать. Человек (это всего лишь его мнение) или машина (на основании неправильного алгоритма, заложенного человеком).
Хранение и безопасность данных. Чем больше их у нас, и с чем большего количества устройств они приходят, тем больше уязвимостей и возможностей доступа к ним хакеров. При краже таких данных и последующих судебных исках, речь идёт не об уменьшении прибыли, а вообще о банкротстве компании. На этот аспект проблемы сейчас обращают внимание в последнюю очередь. В будущем, это может стать самой большой головной болью.
Подождём еще 2-3 года и обязательно вернёмся к нашей страшной и ужасной Big Data. В каком направлении будет развиваться процесс, сейчас не знает никто. Но мы точно знаем, что будет интересно!