Оглавление
- Решения на основе Big data: «Сбербанк», «Билайн» и другие компании
- Монетизация процессов: оптимизация текущей деятельности
- Перспективы и тенденции развития Big data
- Структура и объем рынка больших данных
- Большие данные: с чего начать
- Язык данных — для решения проблем мирового масштаба
- Принципы работы с большими данными
- Системы больших данных
- Классификация
- MapReduce
- Где применяются «большие данные»
- Rolls-Royce: оптимизация проектирования и производства двигателей
- Что должен знать Data Engineer
- Как работает технология Big-Data?
- Спрос больше предложения?
- Big Data (БигДата): что это такое
Решения на основе Big data: «Сбербанк», «Билайн» и другие компании
У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.
Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.
Монетизация процессов: оптимизация текущей деятельности
Автоматизация рутинных операций и оперативный анализ разнородной информации существенно сократит время выполнения, и, соответственно стоимость, многих внутренних бизнес-процессов. В частности, здесь мы рассказывали, как технологии больших данных (Big Data) и машинного обучения (Machine Learning) сэкономили одному американскому банку Goldman Sachs расходы на заработную плату трейдеров в 300 раз, а другому, JPMorganChase, позволили обработать 12 тысяч кредитных договоров за несколько секунд, хотя раньше это занимало около 360 тысяч человеко-часов . Также ранее мы описывали впечатляющие результаты отечественного Сбербанка и других финансовых корпораций по оптимизации банковских бизнес-процессов с помощью Big Data и Machine Learning.
Оптимизация внутренних бизнес процессов сократит расходы и увеличит прибыль
Хотите превратить большие данные своего бизнеса в большие деньги? Приходите к нам на практические курсы, где мы подробно научим вас эффективным методам и средствам сбора, анализа и монетизации данных за счет современных информационных технологий. Специализированные занятия для аналитиков, инженеров и администраторов помогут вам решить прикладные проблемы вашего бизнеса: от снижения оттока клиентов (Churn Rate) до прогнозирования прибыли при запуске нового продукта. Выбирайте свою образовательную программу и до встречи на занятиях!
Источники
- https://www.bigdataschool.ru/bigdata/big-data-соцсети-маркетинг.html
- https://techno.nv.ua/amp/kak-zarabotat-na-big-data-i-drugie-trendy-it-otrasli-blog-igorja-bedy-2139739.html
- https://www.bigdataschool.ru/bigdata/big-data-реклама-и-маркетинг.html
- https://marketelectro.ru/content/marketingovoe-issledovanie-pri-vyhode-na-novyy-rynok-etapy-i-pravila-provedeniya
- http://m.cnews.ru/articles/ekonomika_bolshih_dannyh_sposoby_monetizacii/3
- https://www.bigdataschool.ru/bigdata/machine-learning-и-банки.html
Перспективы и тенденции развития Big data
В 2017 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса
Такой подход планируется реализовать с помощью следующих составляющих:
Облачные хранилища
Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.
Использование Dark Data
Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.
Искусственный интеллект и Deep Learning
Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.
Blockchain
Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Блокчейна в том, что благодаря ему снижаются затраты на проведение транзакций.
Самообслуживание и снижение цен
В 2017 году планируется внедрить «платформы самообслуживания» – это бесплатные площадки, где представители малого и среднего бизнеса смогут самостоятельно оценить хранящиеся у них данные и систематизировать их.
Структура и объем рынка больших данных
В 2018 году объем глобального рынка Big Data и бизнес-аналитики (global big data and business analytics market) достиг 168,8 млрд долл. В соответствии с оценкой IDC, по итогам 2019 года объем глобального рынка больших данных увеличился на 12%, по сравнению с показателями предыдущего года, и достиг 189,1 млрд долл. Кроме того, в период 2018-2022 гг. предполагается рост рынка со среднегодовым темпом (CAGR) на уровне 13,2%. Таким образом, объем рынка может увеличиться до 274,3 млрд долл. к 2022 году.
ResearchAndMarkets прогнозирует возможные темпы роста глобального рынка Big data на уровне 19,7% ежегодно на период 2019-2025 гг.
Рис. 2. Динамика роста рынка больших данных, млрд долл.
В 2018 году выручка на рынке программного обеспечения больших данных составила 60,7 млрд долл. На конец 2019 года более половины выручки BDA обеспечили доходы, полученные от IT- и бизнес-сервисов – 77,5 млрд долл. и 20,7 млрд долл. соответственно. Размер выручки в сегменте аппаратного обеспечения составил около 23,7 млрд долл. Доход от программного обеспечения больших данных достиг 67,2 млрд долл. По данным IDC, ожидаемые темпы роста (CAGR) в период с 2018-2023 гг. в этом сегменте поднимутся до отметки в 12,5%.
Согласно исследованию Fortune Business Insights, объем глобального рынка технологий Big Datа, оцененный в 2018 году в 38,6 млрд долл., увеличится к 2026 году до 104,3 млрд долл., демонстрируя темпы роста (CAGR) на уровне 14% в период с 2019 по 2026 гг.
Рис. 3. Доля сегментов рынка в общем объеме выручки, %
По данным Grand View Research, к 2025 году глобальный рынок Big Data как услуги (global big data as a service (BDaaS)) достигнет 51,9 млрд долл., при этом CAGR составит 38,7% в период 2019-2025 гг.
География рынка Big Data
С географической точки зрения по результатам 2019 года наиболее крупным стал рынок США с объемом доходов в 100 млрд долл. Второе и третье место по объему заняли Япония (9,6 млрд долл.) и Великобритания (9,2 млрд долл). Также в пятерку крупнейших рынков вошли КНР (8,6 млрд долл.) и Германия (7,9 млрд долл.).
В Аргентине и Вьетнаме наблюдаются наиболее высокие показатели прироста за пятилетний период (CAGRs – 23,1% и 19,4%). Третье место по уровню CAGR занял Китай (19,2%), что к 2022 году может обеспечить выход этой страны на второе место по уровню доходов.
Рис. 4. Доля стран-лидеров в общем объеме рынка больших данных, %
Драйверами рынка больших данных и бизнес-аналитики выступают 5 отраслей, на которые, по оценке IDC, приходится около половины инвестиций (91,4 млрд долл.):
-
банковская сфера,
-
дискретное производство,
-
специализированные услуги,
-
непрерывное производство,
-
федеральное/центральное правительство.
При этом наибольший рост рынка в будущем обеспечат такие направления, как розничная торговля (15,2% CAGR), а также операции с ценными бумагами и инвестиционные услуги (15,3% CAGR).
Рис. 5. Инвестиции в технологии больших данных по отраслям, %
Крупнейшие поставщики на рынке больших данных
Согласно отчету Wikibon (2018 Big Data and Analytics Market Share Report), в 2018 году (по данным 2017 года) в пятерку крупнейших поставщиков решений на рынке Big Data вошли такие компании, как IBM, Splunk, Dell, Oracle и AWS. И, по данным исследования Global Big Data Market Forecast 2019-2027, проведенного Inkwoodresearch, в 2019 году эти компании сохранили свои позиции в качестве лидеров рынка.
Большие данные: с чего начать
Зная, как в общем делится работа между специалистами больших данных, ответить на главный вопрос новичка в мире Big Data «с чего начать», становится гораздо проще. Прежде, чем погружаться в изучение множества мануалов по Apache Hadoop и алгоритмам Machine Learning, необходимо понять, что вас больше привлекает:
- прикладное программирование;
- администрирование;
- проектирование архитектуры информационных потоков и сопровождение;
- анализ данных;
- создание математических моделей и алгоритмов обработки информации.
Кроме того, отметим, что, помимо линейных специалистов (программистов, администраторов, инженеров, архитекторов), знания в области больших данных также необходимы руководителям, чтобы видеть возможности цифровизации своего бизнеса и потенциальную выгоду от его цифровой трансформации. При этом менеджеру совсем не обязательно знать во всех деталях, как, например, работает Apache Kafka. Однако, чтобы не быть «чайником», руководителю крайне полезно ориентироваться в отраслевых сценариях применения средств Big Data (use-cases), понимать способы монетизации больших данных и специфику корпоративной цифровизации, чтобы эффективно расходовать временные, трудовые и материальные ресурсы, а также не ждать от технологий больше, чем они могут дать. Обо всем этом и не только мы рассказываем на обучающем курсе «Аналитика Big Data для менеджеров».
В качестве дополнительной мотивации изучения Big Data, отметим, что профессионалы в этой области больше всех зарабатывают среди ИТ-специалистов. Например, в 2019 году, согласно ежегодному исследованию Stack OverFlow, годовая зарплата аналитиков, инженеров и исследователей данных в США равнялась 60-70 тысяч долларов, т.е. около 350 тысяч рублей в месяц. При этом, поскольку цифровизация стремительно проникает во все сферы деятельности, от промышленности до образования, спрос на специалистов по данным все время растет по всему миру, в т.ч. и в России. Таким образом, большие данные – это очень перспективная и финансово выгодная область ИТ.
Зарплаты ИТ-специалистов в 2019 году по данным Stack OverFlow
Что необходимо знать и уметь аналитику, исследователю, инженеру и администратору больших данных, мы рассмотрим в следующих статьях. Проверить свое знание основ Big Data и Data Science вы можете, пройдя открытый бесплатный интерактивный тест прямо у нас на сайте ответив на 10 простых вопросов по основам больших данных. А освоить практику работы с прикладными инструментами Big Data, Machine Learning и Internet of Things, вам помогут наши курсы обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве.
Смотреть расписание
Записаться на курс
Язык данных — для решения проблем мирового масштаба
Сегодня навыки работы с данными становятся новым универсальным языком для исследователей. За примером далеко ходить не надо. Так, в борьбе с COVID-19 ученые со всего мира объединили усилия в поиске лекарств и разработке вакцин, а также анализе научных публикаций, прогнозировании распространения эпидемии, предсказании по результатам КТ и характеру кашля вероятности заражения коронавирусом.
Индустрия 4.0
Большие данные против коронавируса: 24 модели окончания пандемии
Это доказывает, что человечество обладает необходимыми средствами для того, чтобы дать отпор неожиданно появившемуся противнику, и способно разговаривать на одном языке — языке данных.
Принципы работы с большими данными
Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:
1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.
3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.
Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.
Системы больших данных
Основные требования к работе с большими данными такие же, как и к любым другим наборам данных. Однако массовые масштабы, скорость обработки и характеристики данных, которые встречаются на каждом этапе процесса, представляют серьезные новые проблемы при разработке средств. Целью большинства систем больших данных является понимание и связь с большими объемами разнородных данных, что было бы невозможно при использовании обычных методов.
В 2001 году Даг Лэйни (Doug Laney) из Gartner представил «три V больших данных», чтобы описать некоторые характеристики, которые отличают обработку больших данных от процесса обработки данных других типов:
- Volume (объем данных).
- Velocity (скорость накопления и обработки данных).
- Variety (разнообразие типов обрабатываемых данных).
Объем данных
Исключительный масштаб обрабатываемой информации помогает определить системы больших данных. Эти наборы данных могут быть на порядки больше, чем традиционные наборы, что требует большего внимания на каждом этапе обработки и хранения.
Поскольку требования превышают возможности одного компьютера, часто возникает проблема объединения, распределения и координации ресурсов из групп компьютеров. Кластерное управление и алгоритмы, способные разбивать задачи на более мелкие части, становятся в этой области все более важными.
Скорость накопления и обработки
Вторая характеристика, которая существенно отличает большие данные от других систем данных, – это скорость, с которой информация перемещается по системе. Данные часто поступают в систему из нескольких источников и должны обрабатываться в режиме реального времени, чтобы обновить текущее состояние системы.
Этот акцент на мгновенной обратной связи заставил многих специалистов-практиков отказаться от пакетно-ориентированного подхода и отдать предпочтение потоковой системе реального времени. Данные постоянно добавляются, обрабатываются и анализируются, чтобы успевать за притоком новой информации и получать ценные данные на ранней стадии, когда это наиболее актуально. Для этого необходимы надежные системы с высокодоступными компонентами для защиты от сбоев по конвейеру данных.
Разнообразие типов обрабатываемых данных
В больших данных существует множество уникальных проблем, связанных с широким спектром обрабатываемых источников и их относительным качеством.
Данные могут поступать из внутренних систем, таких как логи приложений и серверов, из каналов социальных сетей и других внешних API-интерфейсов, с датчиков физических устройств и из других источников. Целью систем больших данных является обработка потенциально полезных данных независимо от происхождения путем объединения всей информации в единую систему.
Форматы и типы носителей также могут значительно различаться. Медиафайлы (изображения, видео и аудио) объединяются с текстовыми файлами, структурированными логами и т. д. Более традиционные системы обработки данных рассчитывают, что данные попадают в конвейер уже помеченными, отформатированными и организованными, но системы больших данных обычно принимают и сохраняют данные, стараясь сохранить их исходное состояние. В идеале любые преобразования или изменения необработанных данных будут происходить в памяти во время обработки.
Другие характеристики
Со временем специалисты и организации предложили расширить первоначальные «три V», хотя эти нововведения, как правило, описывают проблемы, а не характеристики больших данных.
- Veracity (достоверность данных): разнообразие источников и сложность обработки могут привести к проблемам при оценке качества данных (и, следовательно, качества полученного анализа).
- Variability (изменчивость данных): изменение данных приводит к широким изменениям качества. Для идентификации, обработки или фильтрации данных низкого качества могут потребоваться дополнительные ресурсы, которые смогут повысить качество данных.
- Value (ценность данных): конечная задача больших данных – это ценность. Иногда системы и процессы очень сложны, что затрудняет использование данных и извлечение фактических значений.
Классификация
BigData обладают собственной классификацией. Условно принято разделять все большие сведения на несколько групп:
- Структурированные. Они обладают структурой таблиц, а также отношений. Сюда можно отнести Excel, а также документы CSV.
- Полуструктурированные. Еще называются слабоструктурированными. Сведения, не обладающие строгой табличной составляющей и отношениями. Имеют разнообразные маркеры, при помощи которых в реальной жизни удается отделить семантику и обеспечение иерархии полей и записей. Пример – электронные материалы о письмах по e-mail.
- Неструктурированные. Не имеют никакой четкой организации и структуры: текст на естественном языке, аудиодорожки, видеоролики, изображения.
Работа с большими данными производится только при помощи специальных технологий. Но перед тем, как браться за них, требуется понимать общие принципы анализа, а также особенности BigData.
Внимание: не стоит путать Big Data с базами данных. Это совершенно разные понятия
Второй элемент относительно небольшой по сравнению с рассматриваемым термином.
MapReduce
MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:
1. Стадия Map. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи. Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.
2. Стадия Shuffle. Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина соответствует одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.
3. Стадия Reduce. Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на вход функции reduce(). Функция reduce задаётся пользователем и вычисляет финальный результат для отдельной «корзины». Множество всех значений, возвращённых функцией reduce(), является финальным результатом MapReduce-задачи.
Несколько дополнительных фактов про MapReduce:
1) Все запуски функции map работают независимо и могут работать параллельно, в том числе на разных машинах кластера.
2) Все запуски функции reduce работают независимо и могут работать параллельно, в том числе на разных машинах кластера.
3) Shuffle внутри себя представляет параллельную сортировку, поэтому также может работать на разных машинах кластера. Пункты 1-3 позволяют выполнить принцип горизонтальной масштабируемости.
4) Функция map, как правило, применяется на той же машине, на которой хранятся данные – это позволяет снизить передачу данных по сети (принцип локальности данных).
5) MapReduce – это всегда полное сканирование данных, никаких индексов нет. Это означает, что MapReduce плохо применим, когда ответ требуется очень быстро.
Где применяются «большие данные»
Считается, что «большие данные» (Биг Дата) с наибольшей степенью востребованности могут быть применены в таких сферах как:
- медицина (в том числе по причинам, обозначенным выше — Big Data уже доказала на практике свою применимость в данной сфере);
- туризм;
- финансовые услуги;
- телекоммуникации;
- розничная торговля (в том числе онлайн-продажи).
Во всех указанных сферах востребована предикативность. В ритейле и коммерческих услугах — в части поведения потребителей, контрагентов, возможно даже законодателей.
Важный аспект практического применения «больших данных» — развитие технологической базы на уровне инструментария для сбора соответствующих данных. В различных сегментах могут появляться новые, еще недавно неизвестные решения — как, например, онлайн-кассы в рознице.
Онлайн-касса формирует различные массивы фискальных данных. Основной из них — массив, отражаемый в кассовом чеке — который в электронном виде с каждой кассы попадает в различные базы данных (как минимум — на серверы ФНС, ОФД — откуда их может взять пользователь, то есть, магазин). А в чеке — куча полезной информации о проданных товарах, их стоимости, количестве, НДС. Все эти данные могут анализироваться и образовывать полезные предикативные алгоритмы.
Таким образом, эффективность обработки Big Data – это важно, но не менее значима и эффективность сбора исходных данных для такой обработки. По мере появления новых инструментов, которые задействуются в таких целях, могут открываться новые сферы применения «больших данных»
Видео — беседа с создателем российского БигДата-алгоритма Артуром Хачуяном:
Rolls-Royce: оптимизация проектирования и производства двигателей
Крупнейший производитель реактивных двигателей для авиакомпаний и военной промышленности с помощью big data создаёт новые продукты и оказывает послепродажную поддержку. При каждом испытании двигателя на стендах генерируются десятки терабайт данных. Изучая их, инженеры могут увидеть недостатки конструкции и дизайна. Аналитика больших данных помогает Rolls-Royce совершенствовать процесс проектирования, сократить время разработки продукта, повысить его качество, а также оптимизировать затраты — чем раньше производитель обнаружит проблему, тем дешевле обходится ее решение.
Что должен знать Data Engineer
-
Структуры и алгоритмы данных;
-
Особенности хранения информации в SQL и NoSQL базах данных. Наиболее распространённые: MySQL, PostgreSQL, MongoDB, Oracle, HP Vertica, Amazon Redshift;
-
ETL-системы (BM WebSphere DataStage; Informatica PowerCenter; Oracle Data Integrator; SAP Data Services; SAS Data Integration Server);
-
Облачные сервисы для больших данных Amazon Web Services, Google Cloud Platform, Microsoft Azure;
-
Кластеры больших данных на базе Apache и SQL-движки для анализа данных;
-
Желательно знать языки программирования (Python, Scala, Java).
Стек умений и навыков инженера больших данных частично пересекается с дата-сайентистом, но в проектах они, скорее, дополняют друг друга.
Data Engineer сильнее в программировании, чем дата-сайентист. А тот, в свою очередь, сильнее в статистике. Сайентист способен разработать модель-прототип обработки данных, а инженер — качественно воплотить её в реальность и превратить код в продукт, который затем будет решать конкретные задачи.
Инженеру не нужны знания в Business Intelligence, а вот опыт разработки программного обеспечения и администрирования кластеров придётся как раз кстати.
Но, несмотря на то что Data Engineer и Data Scientist должны работать в команде, у них бывают конфликты. Ведь сайентист — это по сути потребитель данных, которые предоставляет инженер. И грамотно налаженная коммуникация между ними — залог успешности проекта в целом.
Плюсы и минусы профессии инженера больших данных
Плюсы:
-
Отрасль в целом и специальность в частности ещё очень молоды. Особенно в России и странах СНГ. Востребованность специалистов по BDE стабильно растёт, появляется всё больше проектов, для которых нужен именно инженер больших данных. На hh.ru, по состоянию на начало апреля, имеется 768 вакансий.
-
Пока что конкуренция на позиции Big Data Engineer в разы ниже, чем у Data Scientist. Для специалистов с опытом в разработке сейчас наиболее благоприятное время, чтобы перейти в специальность. Для изучения профессии с нуля или почти с нуля — тоже вполне хорошо (при должном старании). Тенденция роста рынка в целом будет продолжаться ближайшие несколько лет, и всё это время будет дефицит хороших спецов.
-
Задачи довольно разнообразные — рутина здесь есть, но её довольно немного. В большинстве случаев придётся проявлять изобретательность и применять творческий подход. Любителям экспериментировать тут настоящее раздолье.
Минусы
-
Большое многообразие инструментов и фреймворков. Действительно очень большое — и при подготовке к выполнению задачи приходится серьёзно анализировать преимущества и недостатки в каждом конкретном случае. А для этого нужно довольно глубоко знать возможности каждого из них. Да-да, именно каждого, а не одного или нескольких.
Уже сейчас есть целых шесть платформ, которые распространены в большинстве проектов.
Spark — популярный инструмент с богатой экосистемой и либами, для распределенных вычислений, который может использоваться для пакетных и потоковых приложений. Flink — альтернатива Spark с унифицированным подходом к потоковым/пакетным вычислениям, получила широкую известность в сообществе разработчиков данных. Kafka — сейчас уже полноценная потоковая платформа, способная выполнять аналитику в реальном времени и обрабатывать данные с высокой пропускной способностью. ElasticSearch — распределенный поисковый движок, построенный на основе Apache Lucene. PostgreSQL — популярная бд с открытым исходным кодом. Redshift — аналитическое решение для баз/хранилищ данных от AWS.
-
Без бэкграунда в разработке ворваться в BD Engineering сложно. Подобные кейсы есть, но основу профессии составляют спецы с опытом разработки от 1–2 лет. Да и уверенное владение Python или Scala уже на старте — это мастхэв.
-
Работа такого инженера во многом невидима. Его решения лежат в основе работы других специалистов, но при этом не направлены прямо на потребителя. Их потребитель — это Data Scientist и Data Analyst, из-за чего бывает, что инженера недооценивают. А уж изменить реальное и объективное влияние на конечный продукт и вовсе практически невозможно. Но это вполне компенсируется высокой зарплатой.
Как работает технология Big-Data?
Биг Дата работает по принципу: чем больше вы знаете о том или ином предмете или явлении, тем более достоверно вы сможете достичь нового понимания и предсказать, что произойдет в будущем. В ходе сравнения большего количества точек данных возникают взаимосвязи, которые ранее были скрыты, и эти взаимосвязи позволяют нам учиться и принимать более взвешенные решения. Чаще всего это делается с помощью процесса, который включает в себя построение моделей на основе данных, которые мы можем собрать, и дальнейший запуск имитации, в ходе которой каждый раз настраиваются значения точек данных и отслеживается то, как они влияют на наши результаты. Этот процесс автоматизирован — современные технологии аналитики будут запускать миллионы этих симуляций, настраивая все возможные переменные до тех пор, пока не найдут модель — или идею — которые помогут решить проблему, над которой они работают.
Бил Гейтс висит над бумажным содержимым одного компакт диска
До недавнего времени данные были ограничены электронными таблицами или базами данных — и все было очень упорядочено и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для работы и игнорировалось. Однако прогресс в области хранения и аналитики означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная базами данных, и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков.
Чтобы понять все эти беспорядочные данные, проекты, имеющие в основе Биг Дату, зачастую используют ультрасовременную аналитику с привлечением искусственного интеллекта и компьютерного обучения. Обучая вычислительные машины определять, что же представляют собой конкретные данные — например, посредством распознавания образов или обработки естественного языка – мы можем научить их определять модели гораздо быстрее и достовернее, чем мы сами.
Спрос больше предложения?
В России сообщество высококлассных специалистов очень узкое, и порог вхождения в отрасль довольно высокий.
Российская система образования зачастую не успевает адаптироваться под меняющиеся требования рынка. Программы обучения в вузах зачастую не прививают студентам критическое мышление в рамках научной деятельности. В результате выпускники без опыта работы, претендующие на работу в области больших данных, не всегда могут справиться с чем-то серьезнее, чем обучение готовых моделей из интернета или научных статей.
Игроки рынка совместными усилиями стремятся решить эти проблемы. Крупнейшие ИТ-компании запускают собственные программы обучения в самых актуальных сферах, нацеленные на подготовку специалистов среднего и высшего звеньев. Они позволяют получить свежие знания и опыт из первых уст от специалистов отрасли. При этом помощь государства могла бы ускорить процесс и, например, увеличить поддержку научных школ.
Big Data (БигДата): что это такое
Термину Биг Дата (Big Data) – впервые употребленному, к слову, в том же журнале Nature его редактором Клиффордом Линчем в 2008 году — очень сложно дать определение. И, более того, наверное, невозможно так, чтобы оно не вызвало возражений в среде неравнодушных лиц
Но если попробовать сделать это очень осторожно, то правомерно предположить, что «большие данные» — это некие статистически значимые объемы информации, которые могут быть обработаны в рамках некоей полезной предикативной функции
Например — по прогнозированию территории заболеваемости ОРВИ. По ценам на билеты.
«Большие данные» могут быть как структурированными, так и неструктурированными. А обрабатываться — любым способом: нет никаких общих алгоритмов касательно этой процедуры. Популярен тезис, по которому к «большим данным» совершенно точно относятся те, на основании которых (после обработки которых) у человека появляются новые знания — инсайты. О которых он, не имея в распоряжении Big Data, даже не догадался бы.
Big Data правомерно считать «большими данными» просто потому, что они большие на самом деле: речь может идти об обработке огромного количества гигабайт информации, причем за короткий промежуток времени, с использованием больших вычислительных мощностей. Такую особенность некоторые исследователи называют одним из ключевых критериев отличий «больших данных» от «обычных» — которые обрабатываются последовательно, небольшими порциями (поскольку мощности для этого задействуются значительно меньшие).
При этом, и «большие данные» и соответствующие вычислительные мощности — стали доступны людям сравнительно недавно. Еще буквально 15-20 лет назад их не было — из-за недостаточной пропускной способности интернета, из-за слишком дорогой себестоимости отдельных «мощностей», особенно на конечных участках сбора информации.
Выросло количество потенциальных и реальных носителей такой информации — сейчас оно, как минимум, сопоставимо количеству людей, живущих на планете Земля. У большинства есть смартфон или иной интерактивный гаджет — собирающий и позволяющий собирать широкий спектр данных, которые обязательно передаются в какую-нибудь информационную систему. Раньше у людей не было ни финансовой, ни технической возможности быть носителями таких данных.
Выросла интенсивность обработки такой информации — сейчас интерактивные гаджеты функционируют и что-то собирают практически круглосуточно. Раньше человек подходил к компьютеру — если он у него был, может быть, на пару часов в сутки — и, надо сказать, как правило, мало что думал о предикативной функции в отношении чего-либо.
Есть подход, по которому в отношении «больших данных» выделяют следующие ключевые признаки:
- большой объем;
- постоянное обновление исходной информации (вследствие чего ее обработка становится непрерывной);
- разнообразие исходной информации (то есть, она может быть по сути разнотипной — но анализироваться впоследствии с общем контексте).
Так или иначе, Big Data / Биг Дата / «большие данные» — это новое явление в мире современных технологий. Результат развития этих самых технологий — причем, уже результат практический, реализуемый вне контекста каких-либо теоретических обоснований.