Огромное разнообразие различных платформ и инструментов для анализа данных может поставить в тупик любого специалиста, перед которым стоит задача построения бизнес процесса на основе продвинутого анализа данных предприятия. Сегодня машинное обучение и глубокий анализ данных уже не является чем-то новым. Это обязательный пункт, без которого бизнес не сможет нормально конкурировать в современном мире. Анализ собираемой информации — ключ к улучшению показателей бизнеса. Но для этого нужно располагать и оперировать инструментами для анализа данных. Какими? Давайте рассмотрим этот вопрос. Мы собрали для вас наиболее полный список представленных на рынке фреймворков, платформ, решений и систем продвинутой аналитики.
Кажется, что низкая стоимость распределенных вычислений и быстрота обработки делают Hadoop для Больших Данных примерно таким же по значимости решением, как и все остальные вместе взятые программные продукты. Любой перечень платформ Big Data с открытым исходным кодом действительно начинается с «железнорожденного слона», но Hadoop — не единственный краеугольный камень.
1 Hadoop
Presto поддерживает ANSI SQL, а это значит, что вдобавок к JSON, ARRAY, MAP и ROW, можно использовать стандартные типы данных SQL, функционал оконного интерфейса, статистические и аппроксимативные агрегатные функции.
По сравнению с Hive, у Presto есть недостаток: более активное участие в разработке, построении и развертывании определенных пользователем функций. Тем не менее, Presto считается одним из лучших механизмов с открытым исходным кодом для анализа Больших Данных.
7 Drill
9 IBM SPSS Modeler
Платформа IBM SPPS Modeler — коммерческий конкурент RapidMiner, который характеризуется низким порогом входа для начинающих. Понятность для новичков обеспечивается режимами «автопилота». Авто-модели (Auto Numeric, Auto Classifier) перебирают несколько возможных моделей с разными параметрами, определяя среди них лучшие. Не слишком опытный аналитик может построить на таком решении адекватную модель.
К основным особенностям SPSS следует отнести:
Пользовательский интерфейс SPSS постоянно улучшается, благодаря чему систему можно назвать интуитивно понятной. Выполнение простых задач вроде создания формул не требует подготовки в принципе. Все это делает IBM SPSS Modeler хорошим решением по части анализа данных для новичков.
Все достоинства IMB SPSS Modeler может затмить один недостаток, который отсекает крупную аудиторию пользователей. Речь о том, что данная система — это не лучший инструмент для анализа Больших Данных. Атрибуты, которые делают SPSS простым в использовании, слишком ограничены для масштабных подходов при работе с технологиями Big Data. В совсем плохих случаях, SPSS от перегрузки просто «падает».
Тем не менее, IBM SPSS Modeler остается популярным решением благодаря простоте использования и незатейливому интерфейсу.
10 KNIME
Аналитическая платформа Qlik предлагает полный доступ к ассоциативной машине индексации данных QIX, которая позволяет устанавливать взаимосвязи между несколькими источниками информации, которые, как правило, скрыты в иерархических моделях данных. «Фишка» в том, что именно QIX применяется компанией Qlik при создании своих остальных решений. QIX Engine использует столбчатое расположение данных в оперативной памяти, что обеспечивает высокую производительность при их индексации и сжатии. На практике это позволяет проводить data mining в более свободной форме, без необходимости предварительно определять возможные пользовательские запросы. В свою очередь, программисты могут более быстро создавать приложения на основе технологий Больших Данных, а пользователи — оперативно получать ответы.
Архитектура Qlik Analytics Platform включает в себя следующие элементы:
- Консоль управления Qlik (QMC) и Dev Hub.
- Интерфейсы программирования приложений (API) и наборы средств разработки (SDK) Qlik Sense.
- Вспомогательные службы Qlik Engine и Qlik Sense.
Платформа для анализа данных Qlik может быть использована в разработке аналитических приложений, информационных сервисов или платформ Интернета вещей. А обеспечение системой хороших визуальных и интерактивных возможностей позволяет пользователю лучше исследовать имеющиеся данные.
12
Это платформа российской разработки. Система предоставляет наиболее полный набор методов для Data Mining . В частности, в STATISTICA Data Miner реализованы инструменты предварительной обработки, фильтрации и чистки данных, что позволяет эффективно отбирать признаки из сотен тысяч возможных предикторов.
Особенностью данной платформы является возможность получения непосредственного доступа к базам данных даже без выполнения явных операций экспорта/импорта. ПО «умеет» обрабатывать, считывать и записывать данные почти со всех стандартных файлов. Сами прогнозные модели могут быть сгенерированы в различных форматах (PMML, C++, C#, Java, SAS, хранимые процедуры баз данных).
Пользователи отмечают, что благодаря встроенному Мастеру Data Mining, выполняющему автоматическое построение моделей, STATISTICA Data Miner отлично подходит людям, не связанным с разработкой ПО (например, аналитикам по маркетингу). Тем не менее, широкий набор методов кластеризации, архитектур нейронных сетей, деревьев классификации и регрессии, многомерного моделирования, анализа последовательностей, ассоциаций и связей делает данную платформу мощным инструментом в руках эксперта.
Отметим также, что недавно компания представила новый продукт — STATISTICA Big Data Analytics, который, как понятно из названия, дополняет список ПО для анализа Больших Данных. Данная платформа является масштабируемой; она может создавать выборки с помощью MapReduce, искать на движке Lucene/SOLR, проводить аналитику Mahout, работать в «облаке» и с текстом Natural Language Processing. А если интегрировать STATISTICA Big Data Analytics с корпоративной версией STATISTICA Enterprise, это позволит внедрить аналитику Больших Данных на уровне предприятия.
13 Informatica Intelligent Data Platform
Компания Informatica называет свою разработку «путем виртуальных данных». Informatica Intelligent Data Platform предоставляет интеллектуальные и управляющие сервисы, которые могут работать с большинством популярных данных и форматов: веб, социальные сети, машинные журналы.
Данная интеллектуальная платформа для анализа данных включает в себя Vibe — виртуальный механизм, который позволяет произвести интеграцию сопоставленных данных один раз, а затем запускать их в различных средах. Подобно STATISTICA Data Miner, Informatica IDP базируется на интерфейсе типа drag-and-drop, т. е. пользователю нужно лишь перетаскивать на рабочую среду необходимые элементы, а все инструкции генерируются системой автоматически.
Главной «фишкой» Informatica Intelligent Data Platform является подход, касающийся ввода структурированных, частично структурированных и неструктурированных данных на одной семантической волне. Понимание между этими данными возможно благодаря подходам мапинга, эвристики и сопоставлению с образцом.
Компания Informatica, которая считается одним из главных игроков в сфере разработки аналитических инструментов для работы с технологиями Big Data, гордится тем, что IDP является единственной платформой, получившей награды как от Gartner, так и Forrester почти во всех категориях управления данными.
Архитектурно Informatica Intelligent Data Platform состоит из 3 слоев:
- Vibe — это упомянутый выше движок управления любым типом данных. Поскольку сейчас Vibe является встроенным механизмом, он предоставляет всеобщий доступ к данным, независимо от их местоположения или формата. Так как Vibe исполнен в виде виртуальной машины, движок может работать на любой локальной серверной платформе, кластерах Hadoop или облачном сервисе.
- Data Infrastructure. Инфраструктурный слой данных располагается над виртуальной машиной Vibe. Он включает в себя все сервисы, предназначенные для автоматизации непрерывной подачи «чистых», безопасных и подключенных данных в любом масштабе к любой платформе, кластерам Hadoop или облачному сервису.
- Data Intelligence. Интеллектуальный слой данных находится поверх Data Infrastructure. Он собирает метаданные, семантические данные и прочую информацию со всей платформы. Как только данные собраны, Data Intelligence сегментирует их для упрощения дальнейшей обработки. Роль данного слоя — предоставить методы для обработки Больших Данных. Речь идет об аналитике, business intelligence (BI) , а также operational intelligence (OI) в режиме реального времени. А с недавнего времени Data Intelligence расширила список «навыков» Informatica IDP машинным обучением.
Итак, главными характеристиками платформы для анализа данных от Informatica являются гибридная структура, позволяющая подключить любое приложение к любому устройству, систематичность и глобальность данных, а также демократизация данных, исключающая обязательное присутствие у пользователя навыков разработки ПО и знание какого-либо языка программирования для анализа информации.
Data Lake отвечает за консолидацию данных в едином хранилище. Этот компонент нивелирует сложность хранения силоса данных, связанного с большим количеством разрозненной информации. Data Curator базируется на значениях из озера данных и предоставляет единый формат всех изученных и проиндексированных наборов данных как с самого Data Lake, так и с внешних источников. Согласно Dell EMC , куратор данных сохраняет до 80% времени специалистам по анализу данных при подготовке информации для аналитики. Data Governor содержит информацию о происхождении данных и обеспечивает их безопасность на протяжении всего процесса анализа. Также куратор данных позволяет видеть и использовать наборы данных в формате «end-to-end».
Итого, с Dell EMC Analytic Insights Module пользователь может:
- исследовать, использовать и индексировать все данные в едином формате с помощью Data Curator;
- узнать происхождение, обеспечить управление и безопасность для всех приложений и хранилищ данных с помощью Data Governor;
- преобразовать всю важную информацию в управляемые данными приложения и бизнес-модели.
21 Windows Azure HDInsight
Azure Machine Learning не только предоставляет возможность для создания моделей прогнозного анализа, но и обеспечивает полностью управляемый сервис, который можно использовать для развертывания предиктивных моделей в виде готовых к использованию веб-сервисов.
При всей своей функциональности, нельзя сказать, что Azure Machine Learning поглощает финансовые ресурсы в гигантских масштабах. Поскольку сервис работает на публичном облаке Azure, необходимость приобретения «железа» или ПО отпадает сама собой.
Пожалуй, именно Azure Machine Learning на сегодняшний день является наилучшим инструментом для работы с машинным обучением.
23 Pentaho Data Integration
Система Pentaho Data Integration (PDI) — это компонент комплекса Pentaho, отвечающий за процесс извлечения, преобразования и выгрузки данных (ETL). Несмотря на то, что использовать ETL-системы предполагается в рамках комплекса хранения данных, средства PDI могут быть применены с целью:
- обмена данными между приложениями или базами данных;
- экспорта данных из таблиц баз данных в файлы;
- загрузки массивов данных в базы данных;
- обработки данных;
- интеграции в приложения.
Pentaho исключает необходимость писать код, ведь весь процесс разработки ведется в визуальной форме, что дает основание говорить о PDI, как об ориентированной на работу с метаданными системе. С помощью рабочей панели и интерактивных графических инструментов, пользователи могут анализировать данные по нескольким измерениям.
Pentaho Data Integration упрощает интеграцию больших объемов данных с помощью «drag-and-drop» инструмента, который перемещает данные из хранилищ в хранилища Big Data. Система также способна дополнять и объединять структурированные источники данных с частично структурированными и неструктурированными источниками, чтобы в итоге сформировать единую картину.
Инструмент может быть полностью персонализирован: настройка визуализации, интерактивных отчетов, рабочей панели и специальный анализ — все это доступно пользователю. А поскольку PDI на 100% является Java-платформой, построенной на промышленных стандартах вроде веб-сервиса RESTful, интеграция с любым приложением не вызывает проблем.
24 Teradata Aster Analytics
Teradata Aster Analytics — это инструмент, который в рамках одного интерфейса и синтаксиса позволяет работать с текстом, графикой, машинным обучением, паттернами и статистикой. Бизнес-аналитики и специалисты по анализу данных могут провести комплексный анализ данных со всего предприятия путем выполнения одного запроса. У Teradata Aster Analytics есть более 100 интегрированных передовых аналитических запросов.
Данный инструмент позволяет объединить Graph, R и MapReduce в пределах одного фреймворка. Со всеми функциями, которые выполняются как команды SQL, и со всеми аналитическими движками, встроенными в инструмент, Aster Analytics обеспечивает высокую производительность при обработке больших массивов данных.
Аналитика Teradata Aster Analytics доступна в пределах экосистемы Hadoop и Amazon Web Services.
Aster Analytics на Hadoop:
- Расширяет сценарии использования озера данных. Aster Analytics делает «железнорожденного слона» доступным для большинства бизнес-аналитиков с навыками работы на SQL или R.
- Работает нативно. Пользователям не нужно перемещать данные из Hadoop на серверы для анализа данных.
- Быстро реализует аналитику. Пользователи могут создавать изолированную программную и рабочую среду на одном кластере Hadoop на одних и тех же данных.
Aster Analytics на AWS:
- Ускоряет окупаемость бизнеса. Компания может быстро подготовить аналитическую изолированную программную среду на облаке и, с целью ускорения процесса развития, использовать встроенные SQL-запросы.
- Повышает гибкость аналитики. Специалисту по анализу данных предоставляется мощный набор разноплановых инструментов: каждый аналитик может найти подходящее средство для работы с Большими Данными.
- Снижает финансовую нагрузку. Компании могут использовать встроенные передовые аналитические функции и наборы данных без необходимости использования нового оборудования.
25
Это инструмент, который направлен на то, чтобы оптимизировать ресурсы и повысить рентабельность в масштабах всей компании.
Интеграция экспертной аналитики с менеджером моделей на выходе дает более быстрые и точные результаты прогнозов, а также привносит прогностические идеи в бизнес-процессы и приложения — сферы, где пользователи взаимодействуют.
С SAP BusinessObjects Predictive Analytics можно:
- автоматизировать приготовление данных, прогнозное моделирование, развертывание — и, как итог, легко переучить модель;
- использовать расширенные возможности визуализации, чтобы быстрее сделать выводы;
- интегрироваться с языком программирования R, чтобы открыть доступ к большому количеству пользовательских скриптов;
- скооперироваться с SAP HANA .
SAP BusinessObjects Predictive Analytics расширяет границы возможностей Spark, чтобы предоставить клиентам более продвинутую интерактивную аналитику данных. Актуальная версия инструмента позволяет подключиться к SAP HANA Vora и выполнять прогнозное моделирование автоматически. Используя нативное моделирование Spark на одинаковых экземплярах Spark, SAP HANA Vora позволяет выполнять распределенную обработку автоматизированных алгоритмов.
Отметим, что Forrester Research в апреле 2015 года наградил SAP статусом лидера в предсказательной аналитике на Больших Данных.
26 Oracle Big Data Preparation
Построенный в среде Hadoop и Spark с целью масштабируемости, облачный сервис Oracle Big Data Preparation предлагает аналитикам высоко интуитивный и интерактивный способ подготовки структурированных, частично структурированных и неструктурированных данных для их последующей обработки.
Как и большинство вышеописанных инструментов, Oracle Big Data Preparation нацелен на бизнес-пользователей, поэтому сервис прост в использовании. Масштабируемость позволяет работать с итерационным машинным обучением в кластерной среде вычислений. Еще одним преимуществом Oracle Big Data Preparation является интеграция с рядом облачных сервисов.
Что касается функций данного инструмента, то их можно разбить на 4 части: потребление, расширение, управление и публикация, а также интуитивный авторинг.
В потреблении (ingest) сервис импортирует и работает с разнородной информацией, очищает данные (например, от незначимых символов), стандартизирует даты, номера телефонов и другие данные, а также вычисляет и удаляет ненужные дубликаты данных.
К расширению (enrich) следует отнести определение категорий данных и идентификацию их характеристик в терминах атрибутов, свойств и схем, обнаружение метаданных (обнаружение схемы определяет схему/метаданные, которые прямо или косвенно определены в заголовках, полях или тегах).
Управление и публикации (govern and publications) подразумевают под собой интерактивную панель управления, которая обеспечивает единый график всех обработанных наборов данных с соответствующими метриками и возможностями для дальнейшего детального аудита и анализа. В свою очередь, различные форматы публикаций обеспечивают максимальную гибкость.
Резюме
Нами был рассмотрен ряд средств для анализа данных от лучших производителей Big Data-решений. Как вы могли заметить, большинство решений являются опенсорсными, то есть имеют открытый исходный код. Фреймворков, баз данных, аналитических платформ и прочих инструментов действительно много, поэтому от вас требуется четкое понимание задачи. Определившись с поставленной целью, вы без проблем подберете нужное средство (или набор средств), которое позволит провести полноценный анализ данных.
Результаты опроса работодателей свидетельствуют о том, что специалисты по обработке больших данных (Big Data) работают в 6% компаний. Основной спрос на аналитиков Big Data формируют IT и телеком-компании, банки и крупные розничные сети.
Вопрос: «Работают ли в вашей компании специалисты по анализу больших массивов данных (Big Data, Data Scientist)?»
Вариант ответа | Все сферы деятельности | ИТ / Телеком | Банки | Ритейл |
Да | 6% | 21% | 17% | 13% |
Нет | 75% | 60% | 50% | 45% |
Затрудняюсь ответить | 19% | 19% | 33% | 42% |
В своих комментариях представители крупных компаний отмечали, что аналитика больших данных является важным направлением бизнеса.
«Big Data аналитики входят в подразделение Digital. Это стратегическое для нас направление, оно подчиняется напрямую генеральному директору. Создано подразделение в таком формате меньше года назад. Наш бизнес связан с получением огромного количество данных, поэтому аналитика для нас очень важна. У нас очень сильная команда и очень амбициозные задачи», - говорит представитель оператора связи.
«У нас около 15 направлений/проектов по банку, где такие специалисты востребованы. Каждому проекту нужны свои специалисты, и они могут разные данные анализировать», - комментирует рекрутер крупного коммерческого банка.
Специалисты по подбору персонала отмечали ряд сложностей в подборе аналитиков больших данных, вызванных дефицитом квалифицированных кадров и отсутствием критериев по оценке компетенций: «Сложно оценивать уровень квалификации и экспертизы. У нас очень высокие требования. Мы проводим многоступенчатый отбор, с несколькими этапами интервьюирования, с тестами, проверяющими аналитические способности. Очень большое количество кандидатов отсеивается».
«Все мы хотим уже состоявшихся специалистов, реализовавших успешные кейсы, но их мало на рынке. Сложно определить уровень человека, потому как задачи разные, не совсем понятно, будет ли адекватен его опыт для нас», - добавляет представитель крупного коммерческого банка.
Проблемы с поиском кадров увеличиваются из-за отсутствия общепринятого названия должности специалистов, занимающихся анализом больших данных, и пула стандартных должностных обязанностей.
Вакансии, подразумевающие работу с большими данными, могут носить совершенно различные названия, например: аналитик big data; математик/математик-программист; менеджер по анализу систем; архитектор big data; бизнес-аналитик; BI-аналитик; информационный аналитик; специалист Data Mining; инженер по машинному обучению.
Специалистов по работе с Big Data можно разделить на 2 направления:
инженеры Big Data - в большей степени отвечают за хранение, преобразование данных и быстрый доступ к ним;
аналитики Big Data - отвечают за анализ больших данных, выявление взаимосвязей и построение моделей.
В должностные обязанности аналитика Big Data входит:
Построение процесса сбора данных для возможности их последующей оперативной обработки;
анализ и прогнозирование потребительского поведения, сегментация клиентской базы (кластеризация, классификация, моделирование, прогнозирование);
персонализация продуктовых предложений;
анализ эффективности внутренних процессов и операционной деятельности;
выработка решений по оптимизации текущих процессов на основании результатов анализа;
анализ рисков, подозрительных операций, выявление мошенничества;
обеспечение полноты и взаимосвязанности данных из разных источников (многоканальные продажи, маркетинг, интернет);
формирование периодических отчетов для оценки результатов, визуализация и презентация данных.
Заработные платы аналитиков Big Data и требования к их профессиональным навыкам
Зарплатный диапазон | Требования и пожелания к профессиональным навыкам |
- Высшее образование (математика, математическая статистика) - Знание методов математической статистики, алгоритмов анализа данных и математического моделирования - Знание современных технологий обработки больших данных - Знание основ реляционных БД и языка SQL - Знание английского языка на уровне чтения технической документации |
|
80 000 - 110 000 руб. |
- Отличные аналитические навыки, способность видеть новые пути решения задач - Владение статистическими инструментами SPSS, R, MATLAB, SAS Data Miner, Tableau - Глубокие знания методов статистического анализа данных, построения математических моделей (нейронные сети, байесовские сети, кластеризация, регрессионный, факторный, дисперсионный и корреляционный анализы и т.п.) - Опыт работы с большими массивами данных, реляционными БД - Опыт анализа больших массивов данных с выявлением зависимостей и закономерностей - Опыт работы с инструментами визуализации данных (в т.ч. для построения графов) - Опыт работы аналитиком Big Data от 1 года |
- Знание скриптовых языков программирования Python/Ruby/Perl - Опыт машинного обучения - Опыт использования Hadoop, Google big table - Опыт работы аналитиком Big Data от 2 лет Возможное пожелание: знание английского языка на свободном или разговорном уровне |
|
- Опыт построения коммерчески успешных сложных моделей поведения целевой аудитории помощью data mining инструментов - Опыт работы аналитиком Big Data от 3 лет Возможные пожелания: Код для вставки в блог
Аналитик Big Data |