Вернуться на главную страницу выпуска>>
Один из главных трендов последних лет на ИТ-рынке – оформление концепции Big Data и появление решений для обработки огромных объемов информации. Методика анализа «больших данных» в режиме реального времени позволяет извлечь ощутимую пользу и коренным образом менять развитие бизнеса.
Экспоненциальный рост количества данных во всем мире давно стал привычным явлением. Увеличивается как сумма накопленной информации, так и количество информационных источников. Современная организация должна эффективно управлять как потоками структурированных данных (например, из корпоративных информационных систем), так и неструктурированных (социальные сети, СМИ и т.д.). Причем порядка 80% всей информации относится к классу неструктурированной (мультиструктурированной), считают в Gartner.
По данным исследования IDC Digital Universe Study, в 2011 г. во всем мире создано и реплицировано 1,8 зеттабайт (1,8 трлн гигабайт). В период 2007-2011 гг. наша «цифровая Вселенная» расширилась в 9 раз, причем скорости роста потоков данных будут только расти - в ближайшее десятилетие объемы информации могут увеличиться еще в 50 раз. Используя традиционные методы, уже невозможно эффективно работать с информационными массивами. Взрывной рост потоков информации во всем мире потребовал разработки не только новых средств ее хранения, но и построения принципиально иных моделей ее обработки, поиска, анализа и использования.
Комплекс подходов, методов и инструментов для работы с разнообразной структурированной и неструктурированной информации получил название Big Data («большие данные»). Применительно к нему компания Gartner приводит три основных характеристики, так называемые «три V»: объем (aнгл. Volume), скорость (англ. Velocity), многообразие (англ. Variety). Согласно отчету McKinsey, при работе с Big Data используется широчайший спектр методов анализа: Data Mining (интеллектуальный анализ данных), краудсорсинг, интеграция разнородных данных, статистический анализ, прогнозная аналитика, имитационное моделирование, искусственные нейронные сети и т.д.
От появления термина Big Data (его авторство принадлежит редактору журнала Nature Клиффорду Линчу) до представления первых продуктов, относящихся к обработке больших массивов данных, прошло всего чуть больше года. На сегодня в портфолио практически всех ведущих ИТ-корпораций есть решения по Big Data. Такие вендоры, как EMC, IBM, HP, Microsoft, Oracle, SAP, либо вывели на рынок собственные продукты, либо интегрировали разработки приобретенных компаний.
Есть и ряд игроков, для которых Big Data, как и BI, является главным бизнес-направлением. Это такие компании, как InterSystems, SAS, Teradata. Также есть известная открытая платформа Apache Hadoop. На рынок «больших данных» обращают самое пристальное внимание и венчурные инвесторы – только в 2011 г. они вложили в него более $500 млн. По данным Gartner, Big Data стал технологическим трендом №2 в 2011 году после виртуализации, опередив такие направления, как энергоэффективность, мобильность и проч.
По прогнозам IDC, затраты на решения Big Data, включая технологии и сервисы, будут расти в среднем на 40% в год, что в семь раз превысит темпы роста ИТ-рынка в целом. Если в 2010 г. объем сегмента Big Data оценивался аналитиками в $3,2 млрд, то в 2015 г. он составит $16,9 млрд. Рост рынка «больших данных» обусловлен тем, что как крупные компании, так и стартапы должны постоянно бороться за клиентов и долю рынка, отмечает Дэн Вэссет (Dan Vesset), вице-президент IDC по решениям для бизнес-аналитики.
Рынок Big Data сравнительно молодой и находится на пути становления, так что число внедрений пока невелико. Как и во многих других ИТ-направлениях, пионерами по работе с «большими данными» стали банки и финансово-инвестиционные компании. Решения Big Data помогают кредитным учреждениям выявлять риски, определять тренды развития, делать обоснованные прогнозы и даже бороться с мошенничеством. Среди наиболее перспективных направления для развития Big Data также можно отметить госсектор, ритейл, сферу недвижимости.
В России кейсов по системам класса Big Data пока единицы. Например, компания «Сургутнефтегаз» внедрила решение SAP HANA, банк «Санкт-Петербург» использует комплекс Oracle Exadata Database Machine, а ВТБ24 управляет рисками с помощью SAS Banking Intelligence Solutions.
Предприятия сталкиваются с большими объемами данных, с потребностью в их быстрой обработке, с большим количеством источников. Оценивая текущее состояние рынка «больших данных» и перспективы его роста, аналитики IDC выделяют три основных сценария обращения к Big Data:
1)развертывание систем там, где объем накопленных исторических данных превышает 100 терабайт;
2)развертывание систем высокоскоростной обработки информации, поступающей из разных источников, при необходимости мониторинг в режиме реального времени, так как многие данные быстро устаревают;
3)развертывание решений там, где объемы информации еще не являются критически большими, но растут очень быстро – более чем на 60% в год.
По мере развития рынка, многие концепции и решения для работы с информацией будут быстро устаревать. В результате «большие данные» к 2020 году станут «просто данными». Аналитики Gartner категоричны: те компании, которые к тому времени не адаптируют архитектуру ИТ, а также программное и аппаратное обеспечение к новым реалиям, столкнутся с тяжелыми экономическими последствиями и вынуждены будут «выйти на пенсию».
Концепция Big Data несет далеко идущие последствия для всего мира. По мнению участников профессионально сообщества Wikibon, работа с «большими данными» рассматривается как конкурентное преимущество в любой из отраслей рынка, и только обращение к Big Data способно принести ощутимую пользу при анализе информации. Новые принципы работы с пластами информации, как архивной, так и вновь генерируемой, окажут влияние на науку, производство и бизнес, а значит, на всю нашу жизнь.
Андрей Арсентьев специально для TopS Info