Оглавление
- Колоночные СУБД
- Как работает технология Big-Data?
- Как используется Биг-Дата?
- Рынок технологий больших данных в России и мире
- Hirotec: ускорение принятия решений на производстве
- Эволюция профессии: от 1960-х годов до наших дней
- Анализ Big Data с множества аппаратов ККТ и прогнозирование выручки конкретной торговой точки (места оказания услуг)
- Достоинства реляционных баз
- Решения на основе Big data: «Сбербанк», «Билайн» и другие компании
- Идеальный Data Scientist: кто он и как им стать
- Важные личные качества
- Глоссарий больших данных
- Технологии Big data
- Принципы работы с большими данными
- Какими методами работают с BigData
- Плюсы и минусы профессии
- Профессиональные направления в мире Big Data
- СУБД типа ключ-значение
Колоночные СУБД
Колоночные СУБД очень похожи на реляционные. Они так же состоят из строк, которые имеют атрибуты, а строки группируются в таблицах. Различия в логических моделях несущественные, а вот на уровне физического хранения данных различия значительные.
В реляционных СУБД данные хранятся «построчно», это означает что для считывания значения определенной колонки, придется прочитать практически всю строку, как минимум от первой до нужной колонки. В колоночной СУБД данные хранятся «поколоночно», т.е. колонка — это как отдельная таблица. Соответственно чтение будет происходить из конкретного столбца сразу. На практике это реально работает очень быстро (проверено мной на нескольких реализованных хранилищах данных).
Основные преимущества колоночных СУБД – эффективное выполнения сложных аналитических запросов на больших объемах, и легкое, практически мгновенное, изменение структуры таблиц с данными, плюс существенная компрессия и сжатие, которое позволяет значительно экономить место.
Яркие представители колоночных СУБД — Sybase IQ (ныне SAP IQ), Vertica, ClickHouse, Google BigTable, InfoBright, Cassandra.
Когда выбирать колоночные СУБД
Один из весомых аргументов за использование именно колоночной СУБД — это если вы хотите построить хранилище данных, и планируете делать выборки со сложными аналитическими вычислениями. Косвенный признак, который так же может сигнализировать о том, что имеет смысл, хотя бы посмотреть в сторону колоночных СУБД — это если количество строк, из которых делаются выборки, превышает сотни миллионов.
Когда не выбирать колоночные СУБД
Учитывая специфику колоночных СУБД, будет не эффективно ее использовать, если выборки достаточно простые, параметры выборки статичны, и если преобладают выборки по ключевым значениям. Так же, если количество строк в таблице, из которой делается выборка, меньше сотен миллионов строк, то скорее всего не будет большого преимущества, по сравнению с реляционной СУБД.
Нужно так же иметь ввиду, что в колоночных СУБД могут быть и другие ограничения. Например, может отсутствовать поддержка транзакций, а язык запросов может отличаться от классического SQL, и прочее.
Как работает технология Big-Data?
Пользователи социальной сети Facebook загружают фото, видео и выполняют действия каждый день на сотни терабайт. Сколько бы человек не участвовало в разработке, они не справятся с постоянным потоком информации. Чтобы дальше развивать сервис и делать сайты комфортнее — внедрять умные рекомендации контента, показывать актуальную для пользователя рекламу, сотни тысяч терабайт пропускают через алгоритм и получают структурированную и понятную информацию.
Сравнивая огромный объем информации, в нем находят взаимосвязи. Эти взаимосвязи с определенной вероятностью могут предсказать будущее. Находить и анализировать человеку помогает искусственный интеллект.
Нейросеть сканирует тысячи фотографий, видео, комментариев — те самые сотни терабайт больших данных и выдает результат: сколько довольных покупателей уходит из магазина, будет ли в ближайшие часы пробка на дороге, какие обсуждения популярны в социальной сети и многое другое.
Методы работы с большими данными:
- Машинное обучение
- Анализ настроений
- Анализ социальной сети
- Ассоциация правил обучения
- Анализ дерева классификации
- Генетические алгоритмы
- Регрессионный анализ
Машинное обучение
Вы просматриваете ленту новостей, лайкаете посты в Instagram, а алгоритм изучает ваш контент и рекомендует похожий. Искусственный интеллект учится без явного программирования и сфокусирован на прогнозировании на основе известных свойств, извлеченных из наборов «обучающих данных».
Машинное обучение помогает:
- Различать спам и не спам в электронной почте
- Изучать пользовательские предпочтения и давать рекомендации
- Определять лучший контент для привлечения потенциальных клиентов
- Определять вероятность выигрыша дела и устанавливать юридические тарифы
Анализ настроений
Анализ настроений помогает:
- Улучшать обслуживание в гостиничной сети, анализируя комментарии гостей
- Настраивать стимулы и услуги для удовлетворения потребностей клиента
- Определить по мнениям в социальной сети о чем думают клиенты.
Анализ социальных сетей
Анализ социальных сетей впервые использовали в телекоммуникационной отрасли. Метод применяется социологами для анализа отношений между людьми во многих областях и коммерческой деятельности.
Этот анализ используют чтобы:
Увидеть, как люди из разных групп населения формируют связи с посторонними лицами
Выяснить важность и влияние конкретного человека в группе
Найти минимальное количество прямых связей для соединения двух людей
Понять социальную структуру клиентской базы
Изучение правил ассоциации
Люди, которые не покупают алкоголь, берут соки чаще, чем любители горячительных напитков?
Изучение правил ассоциации — метод обнаружения интересных взаимосвязей между переменными в больших базах данных. Впервые его использовали крупные сети супермаркетов для обнаружения интересных связей между продуктами, используя информацию из систем торговых точек супермаркетов (POS).
С помощью правил ассоциации:
- Размещают продукты в большей близости друг к другу, чтобы увеличились продажи
- Извлекают информацию о посетителях веб-сайтов из журналов веб-сервера
- Анализируют биологические данные
- Отслеживают системные журналы для обнаружения злоумышленников
- Определяют чаще ли покупатели чая берут газированные напитки
Анализ дерева классификации
Статистическая классификация определяет категории, к которым относится новое наблюдение.
Статистическая классификация используется для:
- Автоматического присвоения документов категориям
- Классификации организмов по группам
- Разработки профилей студентов, проходящих онлайн-курсы
Генетические алгоритмы
Генетические алгоритмы вдохновлены тем, как работает эволюция, то есть с помощью таких механизмов, как наследование, мутация и естественный отбор.
Генетические алгоритмы используют для:
- Составления расписания врачей для отделений неотложной помощи в больницах
- Расчет оптимальных материалов для разработки экономичных автомобилей
- Создания «искусственно творческого» контента, такого как игра слов и шутки
Регрессионный анализ
Как возраст человека влияет на тип автомобиля, который он покупает?
На базовом уровне регрессионный анализ включает в себя манипулирование некоторой независимой переменной (например, фоновой музыкой) чтобы увидеть, как она влияет на зависимую переменную (время, проведенное в магазине).
Регрессионный анализ используют для определения:
- Уровней удовлетворенности клиентов
- Как прогноз погоды за предыдущий день влияет на количество полученных звонков в службу поддержки
- Как район и размер домов влияют на цену жилья
Как используется Биг-Дата?
Этот постоянно увеличивающийся поток информации о данных датчиков, текстовых, голосовых, фото- и видеоданных означает, что теперь мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Это привносит революционные изменения в мир бизнеса едва ли не в каждой отрасли. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать приобретение, и когда. Биг Дата также помогает компаниям выполнять свою деятельность намного эффективнее.
Даже вне сферы бизнеса проекты, связанные с Big-Data, уже помогают изменить наш мир различными путями:
- Улучшая здравоохранение — медицина, управляемая данными, способна анализировать огромное количество медицинской информации и изображений для моделей, которые могут помочь обнаружить заболевание на ранней стадии и разработать новые лекарства.
- Прогнозируя и реагируя на природные и техногенные катастрофы. Данные датчиков можно проанализировать, чтобы предсказать, где могут произойти землетрясения, а модели поведения человека дают подсказки, которые помогают организациям оказывать помощь выжившим. Технология Биг Даты также используется для отслеживания и защиты потока беженцев из зон военных действий по всему миру.
- Предотвращая преступность. Полицейские силы все чаще используют стратегии, основанные на данных, которые включают их собственную разведывательную информацию и информацию из открытого доступа для более эффективного использования ресурсов и принятия сдерживающих мер там, где это необходимо.
Лучшие книги о технологии Big-Data
Рынок технологий больших данных в России и мире
По данным на 2014 год 40% объема рынка больших данных составляют сервисные услуги. Немного уступает (38%) данному показателю выручка от использования Big Data в компьютерном оборудовании. Оставшиеся 22% приходятся на долю программного обеспечения.
Наиболее полезные в мировом сегменте продукты для решения проблем Big Data, согласно статистическим данным, – аналитические платформы In-memory и NoSQL . 15 и 12 процентов рынка соответственно занимают аналитическое ПО Log-file и платформы Columnar. А вот Hadoop/MapReduce на практике справляются с проблемами больших данных не слишком эффективно.
Результаты внедрения технологий больших данных:
- рост качества клиентского сервиса;
- оптимизация интеграции в цепи поставок;
- оптимизация планирования организации;
- ускорение взаимодействия с клиентами;
- повышение эффективности обработки запросов клиентов;
- снижение затрат на сервис;
- оптимизация обработки клиентских заявок.
Hirotec: ускорение принятия решений на производстве
Компания Hirotec производит комплектующие для автомобилей BMW, Ford и General Motors. Используя потенциал big data и IoT, она устранила «проблему вчерашнего дня», когда на каждой утренней летучке обсуждаются вопросы, связанные с днём предыдущим. Облачная платформа ThingWorx (интеллектуальная разработка компании PTC) собирает критичные для бизнеса данные и помогает решать производственные проблемы максимально оперативно, сразу же, не дожидаясь следующего совещания. Руководители, инженеры и другие специалисты Hirotec получают доступ к данным и отслеживают изменения в режиме реального времени.
Эволюция профессии: от 1960-х годов до наших дней
Кого-то это может удивить, но анализ данных — совсем не новое направление. Первые специалисты в этой области появились еще в середине 1960-х годов, когда начали зарождаться методы извлечения полезной информации из данных. Современные специалисты отличаются от этих первопроходцев большим набором доступных инструментов для работы — компьютеров, фреймворков (начиная с Excel и заканчивая профессиональным ПО вроде Sklearn, RapidMiner, TensorFlow и прочими), и неограниченным доступом в интернет. А еще — более сложными и интересными задачами, которые появились благодаря развитию технологий.
Если раньше данные анализировали в основном для того, чтобы мониторить процессы, то теперь есть возможность строить предиктивные модели, предсказывать последствия тех или иных шагов или изменений рыночной ситуации и своевременно реагировать на нее.
Футурология
Предикативная аналитика: как предсказать эпидемию и успех в бизнесе
Анализ Big Data с множества аппаратов ККТ и прогнозирование выручки конкретной торговой точки (места оказания услуг)
Пользователю сервиса (оценка потенциала локации: прогноз выручки, факторы окружения, а также рекомендации по ассортименту), который принадлежит типичному «заинтересованному лицу» — Оператору фискальных данных ОФД.ру, обещается предоставление информации — базирующейся на аналитике Big Data:
- по прогнозируемой величине выручки магазина — на год;
- по рекомендуемому ассортименту (который точно раскупят, будут приходить ради него);
- по сочетанию товарных позиций (чтобы лучше продавались);
- по динамике спроса — в определенные часы, дни недели, сезоны;
- по доходам целевых категорий потребителей;
- по объему целевой аудитории потребителей (что интересно — выражаемому в квартирах — расположенных поблизости магазина);
- по количеству близлежащих конкурентов;
- по развитости местной инфраструктуры;
- по отраслевым показателям (средний чек, средняя выручка).
Максимум информации визуализируется — в том числе с использованием карты местности.
Показывается, где живут потребители, сколько минут им надо идти до магазина (или другой торговой точки или оказания услуг) — и где конкуренты, тоже показывается.
Отображается количество автобусных остановок — если говорить о показателях, имеющих отношение к инфраструктуре.
Понятно, что Big Data, на основании которой программа строит аналитику – необязательно фискальные данные. Но почти наверняка именно они — одна из основ соответствующей аналитики, с помощью которой пользователю сервиса представляется выкладка по указанным выше типам информации.
Фискальные данные — настоящие, не выдуманные, и потому представляющие собой исключительно качественный источник информации для прогнозов и по выручке и по всему остальному. Подделать или искусственно откорректировать их крайне сложно: онлайн-кассы защищены криптографическими алгоритмами высочайшей надежности.
Сервис работает, анализируя данные в значительной степени «постфактум» — то есть, рассчитан он, главным образом, на действующие предприятия. Но есть сервис, что акцентирован в том числе на предикативной функции — позволяющей оценить перспективы планируемого бизнеса.
Достоинства реляционных баз
- Имеют простую структуру, которая подходит к большинству типов данных.
- Используют SQL, который широко распространен и по умолчанию поддерживает операции объединения.
- Позволяют быстро обновлять данные. Вся БД хранится на одном компьютере, а отношения между записями используются как указатели, то есть вы можете обновить одну запись — и все связанные с ней записи немедленно обновятся.
- Реляционные БД также поддерживают атомарные транзакции. Что это? Предположим, я хочу перевести X долларов от Алисы к Бобу. Я хочу осуществить 3 действия: уменьшить баланс Алисы на X, увеличить баланс Боба на X и задокументировать транзакцию. Я могу назначить эти действия атомарной единицей БД — или произойдут все действия, или ни одно. Это защищает от ошибок при сбоях.
Решения на основе Big data: «Сбербанк», «Билайн» и другие компании
У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.
Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.
Идеальный Data Scientist: кто он и как им стать
Специалист по анализу данных может работать в отраслях, где актуальны принятие решений на основе данных, оцифровка и моделирование бизнес-процессов. То есть практически в любой отрасли. Активнее других этих специалистов ищут ИТ-компании, предприятия финансового сектора и сферы услуг для бизнеса.
Освоить базовые навыки работы с данными может практически любой человек, обладающий минимальными знаниями в высшей математике и программировании. При этом для новичков появляется все больше средств автоматического машинного обучения и конструирования архитектур, которые можно использовать без специализированных знаний в отрасли. Все, что нужно, — правильно настроить готовую модель для решения конкретной задачи и применения ее не специалистами машинного обучения. Она сама будет определять функцию потерь и визуализировать метрики качества, параметры производительности и другие показатели. На выходе получается обученная модель с анализом ее производительности на представленных данных.
Но чтобы стать действительно высококлассным специалистом, нужно копать глубже.
Знания и умения
Основы математической статистики, линейной алгебры, математического анализа и программирования — необходимая база для того, чтобы вырасти в хорошего специалиста по анализу данных. Так что если человек задумался о карьере в этой области до поступления в вуз, стоит выбрать университет, где можно получить эти знания.
Экономика образования
Как выбрать профессию, когда ее сменить и почему это важно
Также важно понимать, как устроена сфера, какие задачи и модели сегодня особенно актуальны, определиться, с каким типом данных интереснее работать, оценить ситуацию на рынке — выяснить, какие специалисты нужны бизнесу. Например, не так давно больше всего вакансий было в области компьютерного зрения, а сегодня уже на пике популярности обработка текстов
Завтра, вероятно, лидерство захватят графовые нейронные сети и рекомендательные системы. Все меняется очень быстро, поэтому идеальный вариант — не зацикливаться на одной области, ведь чем больше разнообразных задач способен решать специалист по работе с данными, тем больше он востребован.
Компетенции, необходимые специалисту в области больших данных, можно разделить на две большие группы: профессиональные и надпрофессиональные. К первым относятся такие навыки, как:
- инжиниринг данных (Data Engineering);
- поддержка инфраструктуры;
- внедрение моделей и поддержание их жизненного цикла;
- оценка рисков;
- понимание целей внедрения продукта;
- оценка экономического эффекта от внедрения продукта;
- умение быстро прототипировать решения.
Помимо этого, хорошего специалиста отличают: стремление постоянно углублять и актуализировать свои знания в соответствии с потребностями бизнеса и способность переключаться на новые задачи и методы.
Экономика образования
Пять ключевых soft skills для программиста
Часто переквалифицироваться на работу с большими данными хотят специалисты с опытом работы в других областях ИТ. Для них кратчайшим путем будут образовательные проекты крупных компаний.
Совет тем, кто мечтает о карьере специалиста по анализу данных: помните, что от вашей активности и организованности зависит гораздо больше, чем от выбора места обучения. Необходимы желание достигать результат, любопытство и целеустремленность, а также объединяющая всех специалистов по искусственному интеллекту вера в то, что вы меняете жизнь к лучшему.
Важные личные качества
Big Data Analyst работает с огромными массивами информации, что накладывает отпечаток на его характер. Чтобы справляться с обязанностями, аналитику больших данных надо:
быть дисциплинированным, усидчивым, терпеливым и методичным;
уметь долго концентрировать внимание;
быть способным работать в режиме многозадачности;
обладать развитым техническим и аналитическим мышлением;
уметь работать в команде.
Кроме того, аналитик больших данных должен быть достаточно прагматичным, уверенным в своих силах, ведь от его умения делать выводы на основании полученной информации во многом зависит успех бизнеса и принятие стратегически важных решений.
Глоссарий больших данных
- Большие данные – широкий термин для обозначения наборов данных, которые не могут быть корректно обработаны обычными компьютерами или инструментами из-за их объема, скорости поступления и разнообразия. Этот термин также обычно применяется к технологиям и стратегиям для работы с такими данными.
- Пакетная обработка – это вычислительная стратегия, которая включает обработку данных в больших наборах. Обычно этот метод идеально подходит для работы с несрочными данными.
- Кластеризованные вычисления – это практика объединения ресурсов нескольких машин и управления их общими возможностями для выполнения задач. При этом необходим уровень управления кластером, который обрабатывает связь между отдельными нодами.
- Озеро данных – большое хранилище собранных данных в относительно сыром состоянии. Этот термин часто используется для обозначения неструктурированных и часто меняющихся больших данных.
- Добыча данных – это широкий термин для обозначения разных практик поиска шаблонов в больших наборах данных. Это попытка организовать массу данных в более понятный и связный набор информации.
- Хранилище данных (data warehouse) – это большое, упорядоченное хранилище для анализа и отчетности. В отличие от озера данных хранилище состоит из отформатированных и хорошо упорядоченных данных, интегрированных с другими источниками. Хранилища данных часто упоминаются в отношении больших данных, но часто они являются компонентами обычных систем обработки данных.
- ETL (extract, transform, и load) – извлечение, преобразование и загрузка данных. Так выглядит процесс получения и подготовки необработанных данных к использованию. Он связан с хранилищами данных, но характеристики этого процесса также обнаруживаются в конвейерах систем больших данных.
- Hadoop – это проект Apache с открытым исходным кодом для больших данных. Он состоит из распределенной файловой системы под названием HDFS и планировщика кластеров и ресурсов, который называется YARN. Возможности пакетной обработки предоставляются механизмом вычисления MapReduce. Вместе с MapReduce в современных развертываниях Hadoop можно запускать другие вычислительные и аналитические системы.
- Вычисления в памяти – это стратегия, которая предполагает полное перемещение рабочих наборов данных в память кластера. Промежуточные вычисления не записываются на диск, вместо этого они хранятся в памяти. Это дает системам огромное преимущество в скорости по сравнению с системами, связанными с I/O.
- Машинное обучение – это исследование и практика проектирования систем, которые могут учиться, настраиваться и улучшаться на основе передаваемых им данных. Обычно под этим подразумевают реализацию прогнозирующих и статистических алгоритмов.
- Map reduce (не путать с MapReduce от Hadoop) – это алгоритм планирования работы вычислительного кластера. Процесс включает в себя разделение задачи между нодами и получение промежуточных результатов, перетасовку и последующий вывод единого значения для каждого набора.
- NoSQL – это широкий термин, обозначающий базы данных, разработанные вне традиционной реляционной модели. Базы данных NoSQL хорошо подходят для больших данных благодаря их гибкости и распределенной архитектуре.
- Потоковая обработка – это практика вычисления отдельных элементов данных при их перемещении по системе. Это позволяет анализировать данные в режиме реального времени и подходит для обработки срочных операций с использованием высокоскоростных метрик.
Big dataMLМашинное обучение
Технологии Big data
Несмотря на то, что сама технология хранения больших данных была изобретена сравнительно недавно на сегодняшний день её можно считать полностью устоявшейся и играющей немалую роль в большинстве направлений деятельности человека. Начиная разговор о технологиях, использующихся для обеспечения работы Big data нужно изначально разделить их на программное обеспечение процесса, оборудование и услуги сервисного обслуживания. А теперь обо всём подробнее.
Программы для обработки Big data
Стоит отметить, что на сегодняшний день имеется пять видов ПО.
- SQL представляет собой язык структурированных обращений, который позволяет работать с Big data. С его помощью становится возможным создание модифицированных данных. Управление массивом накопленных данных осуществляется с помощью, соответствующей СУБД.
- NoSQL этот подход расшифровывается как «не только SQL». Содержит несколько способов реализации базы Больших данных, отличающихся от традиционных, использующихся для стандартных баз. Такой подход хорошо использовать для информационной базы, собранной на основе данных из социальных сетей.
- MapReduce используется для выполнения вычислений над большим количеством данных в параллельном режиме. При этом не данные отправляются в программу, а определённым данным предлагается отдельная программа. Обработка происходит последовательно двумя методами, из названий которых сложилась сама технология. При этом MAP выбирает нужные данные, а Reduce их агрегирует.
- Hadoop чаще всего применяется для реализации контекстных и поисковых процессов на сайтах, имеющих высокую нагрузку. Характерной особенностью системы является защита от поломки. Каждый блок имеет копию на соседнем узле.
- SAP HANA высокопроизводительная версия первого варианта ПО. Призвана обеспечить высокую скорость обработки принятых запросов.
Оборудование
Основным оборудованием считаются серверы и инфраструктурные объекты. Серверы представляют собой непосредственное хранилище для собранной информации, а инфраструктура — средства ускорения, источники питания, обеспечивающие бесперебойную работу, серверные консоли и тому подобное.
Услуги сервиса
Этот раздел обеспечения функционирования Big data обеспечивает построение самой архитектуры БД. А также её обустройство и оптимизацию под конкретные нужды и обеспечение безопасности хранения информации.
Все эти составляющие в комплексе представляют собой отдельные платформы, предназначенные для обработки баз Больших Данных.
Принципы работы с большими данными
Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:
1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.
3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.
Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.
Какими методами работают с BigData
Big Data предусматривают различные методы обработки. Они позволяют при помощи всевозможных информационных технологий работать с большим потоком информации. Обычным компьютерам такие задачи не под силу. Искусственный интеллект и нейросети – лидеры в соответствующей сфере.
Работа с данными может производится через:
- машинное обучение;
- регрессионные анализы;
- анализы социальных сетей;
- изучение древа классификаций;
- анализ правил обучения;
- просмотр настроений;
- генетическую алгоритмизацию.
Все эти варианты используют в определенных целях. Каждый аналитик должен хорошо разбираться в предложенных методах. Это поможет понять, когда и что применять во время контактирования с BigData.
Обучение машинного типа
Эта модель предусматривает:
- выявление нежелательных сообщений и явного спама;
- сбор предпочтений пользователей в целях формирования различных рекомендаций;
- обнаружения самого хорошего метода привлечения клиентуры;
- установку различных юридических тарифов;
- определение выгодности и выигрышности того или иного дела (концепции).
Так, пользователь работает с огромным источником информации – интернетом. Во время этого происходит считывание сведений, указанных в интернет-обозревателе, а также непосредственно просмотренных веб-страничек. Специальный алгоритм учитывает все это, а затем начинает предлагает юзеру похожие ресурсы.
Машинное обучение помогает искусственному интеллекту без явного программирования прогнозировать различные события и выдачу информации, опираясь на уже известные свойства (которые извлекаются из «обучающих материалов»).
Ассоциации
Еще одно решение для работы с Big Data. Применяется для того, чтобы:
- грамотно размещать продукцию – так, чтобы люди чаще покупали ее (всю, а не конкретный товар);
- анализировать биологические сведения;
- выявлять реальных и потенциальных «недоброжелателей» путем изучения журнала системного типа;
- определять покупательские способности;
- извлекать электронные материалы обо всех пользователях, посетивших ту или иную страницу в Сети.
Метод правил ассоциаций распространен в крупных торговых сетях, где для сбора и хранения применяются специальные устройства. Они называются POS-системы.
Древо классификаций
Big Data может помочь:
- автоматически присваивать файлам категории;
- классифицировать организмы;
- разрабатывать профили и аккаунты для онлайн-клиентов.
Для этого используется метод статистической классификации (древа). В ходе реализации осуществляется определение категорий, к которым относятся новейшие и последние появившиеся наблюдения. Это – своеобразный помощник-классификатор.
Социальные сети и настроения
Социальная сеть имеет колоссальное значение для современных юзеров и компаний. Это – огромное хранилище полезной информации, которую можно использовать для разработки всевозможных инновационных бизнес-процессов.
Метод анализа соцсетей способствует:
- прояснению принципов формирования связей между пользователями;
- поиску наименьшего количества связей для того, чтобы соединить нескольких человек;
- пониманию социальной структуры потенциальных и реальных клиентов;
- уточнению значимости того или иного человека в выделенной группе.
Также рекомендуется обратить внимание на анализ настроений. Этот вариант необходим при:
- решении проблем, связанных с повышением качества обслуживания через оставляемые комментарии;
- настройке оптимального спектра услуг и предложений для предельного удовлетворения клиентуры;
- попытках понять, о чем думают пользователи, изучая социальные сети.
Впервые эти методы оказались крайне полезными в телекоммуникации. С развитием IT они стали неотъемлемой частью анализа Big Data для компаний и организаций.
Генетические алгоритмы
Помогают:
- составлять различные графики и расписания;
- рассчитывать каждый раз оптимальные расходы сырья на производство эффективных машин и устройств;
- создавать искусственно творческий софт – игры слов, шутки и им подобные.
Следуют генетические алгоритмы принципам работы эволюции
«Обращают внимание» и опираются на естественный отбор и всевозможных преобразованиях (мутациях)
Регрессионный анализ
Большой объем данных может обрабатываться путем метода регрессионного анализа. Этот поход в Big Data оказывается эффективным при:
- оценке, насколько клиентура удовлетворена теми или иными услугами/компаниями/товарами;
- определения влияния погоды на звонки в службы поддержки населения;
- выявлении того, как влияет район и размер жилья на его стоимость.
В ходе реализации используются независимые переменные. Это помогает уточнять необходимые данные и отслеживать основы влияния зависимыми материалами.
Плюсы и минусы профессии
Плюсы
- Профессия новая и стремительно набирает популярность.
- Большое количество клиентов заинтересовано в услугах Big Data Analyst.
- Специалисты по большим данным получают высокую заработную плату.
- Возможность получить работу мечты в крупной российской компании, например, «Яндекс» или Mail.ru Group, или деловое предложение от зарубежных корпораций, холдингов: аналитика Big Data – это дорогое удовольствие, позволить его себе могут только гиганты бизнеса или госструктуры.
- Возможен профессиональный рост и смена профиля деятельности.
Минусы
- Работа малоподвижная и однообразная.
- Часто ненормированый рабочий день.
- Постоянное психологическое напряжение.
- Нет вакансий в небольших городах, но этот недостаток компенсируется возможностью работать удаленно.
Профессиональные направления в мире Big Data
Под термином «большие данные» скрывается множество понятий: от непосредственно самих информационных массивов до технологий по их сбору, обработке, анализу и хранению. Поэтому, прежде чем пытаться объять необъятное в стремлении изучить все, что относится к Big Data, выделим в этой области знаний следующие направления:
- инженерия – создание, настройка и поддержка программно-аппаратной инфраструктуры для систем сбора, обработки, аналитики и хранения информационных потоков и массивов, включая конфигурирование локальных и облачных кластеров. За эти процессы отвечают администратор и инженер Big Data. Чем отличается работа администратора больших данных от деятельности сисадмина, мы писали в этом материале. Какие именно навыки, знания и умения нужны специалистам по инженерии больших данных, а также сколько они за это получают, мы описываем в отдельных материалах.
На стыке вышеуказанных 2-х направлений находятся программист Big Data и DevOps-инженер, а также специалист по сопровождению жизненного цикла корпоративных данных (DataOps) и директор по данным (CDO, Chief Data Officer), который курирует на предприятии все вопросы, связанные с информацией. О роли каждого профессионала в Agile-команде мы немного рассказывали здесь.
Профессиональные направления и специальности Big Data
СУБД типа ключ-значение
Наверное один из самых простых типов СУБД. В упрощенном виде, это некая таблица с уникальным ключом и собственно связанным с ним значением, в котором может быть что угодно. Чаще всего такие СУБД используют для кэширования, т.к. они очень быстро работают, а это и не сложно, когда есть уникальный ключ, и запрос возвращает только одно значение. У некоторых представителей данных СУБД есть возможность работать полностью в памяти, а так же есть возможность задавать срок жизни записи, после истечения которого, записи будут автоматически удаляться.
Наиболее известные СУБД такого типа — Redis и Memcached.
Когда выбирать СУБД ключ-значение
Если СУБД будет использоваться для кэширования данных или для брокеров сообщений, то это очень подходящий тип. Так же, такая СУБД хорошо подходит для баз где нужно хранить достаточно простые структуры, и иметь к ним очень быстрый доступ.
Когда не выбирать СУБД ключ-значение
Если вы предполагаете хранить в базе данных много сущностей (таблиц), а у сущностей будут сложные структуры с разными типами данных. Так же, если вы предполагаете делать из этой таблицы сложные запросы которые возвращают множества строк.