Главная

Миссия

Содержание

Новости

Связи

Авторы

Публикации

О нас

Форум гармонии

Peace from Harmony
Форсайт. Формула Big Data: семь «V» + неординарная задача

 

 

Блог Форсайт.

Формула Big Data: семь «V» + неординарная задача

13.06.2018

https://www.fsight.ru/blog/formula-big-data-sem-v-neordinarnaja-zadacha-2/

На английском: https://www.fsight.ru/en/

 

         Мир сходит с ума по Big Data, и это вполне логично: всем интересно, какие технологии будут использоваться в ближайшем будущем, когда на нас обрушатся новые лавины данных, и что из этого выйдет.

         Все знают, что суть технологий Big Data – это работа с гигантскими массивами данных (что следует, впрочем, уже из самого термина). Но объем данных еще не делает погоды.

         Аналитики придумали емкую формулу Big Data – они считают, что в определении проекта Big Data должны фигурировать семь важных характеристик, «7 V»: Volume, Velocity, Variety, Veracity, Variability, Visualization, Value. То есть объем, скорость, разнообразие, достоверность, изменчивость, визуализация, ценность. При этом каждая «V» важна для понимания общей картины.

         Меньше всего вопросов вызывают первые три «V»: Volume, Velocity, Variety. Действительно, кто будет спорить, что Big Data – это прежде всего объем, Volume? Объем данных растет по экспоненте: например, самолеты ежегодно генерируют 2,5 млрд ТБ данных с датчиков, установленных в двигателях. При этом данные постоянно обновляются, генерятся новые, и скорость обновления (Velocity – вторая «V») также важна для того, чтобы считать их «большими». Например, каждую минуту в мире выполняется почти 2,5 миллиона запросов к поисковой системе Google. Задача проектов Big Data заключается в том, чтобы справиться с огромной скоростью, с которой данные создаются, и анализировать их в режиме реального времени.

         Третья «V» – Variety, разнообразие. Это означает, что проекты Big Data должны включать данные в самых разных форматах: структурированные и неструктурированные данные, текстовые, графические, данные корпоративной почты или соцсетей, вплоть до видео. Каждый из этих типов данных требует различных типов анализа и подходящих инструментов. Социальные медиа могут помочь владельцам бренда проанализировать настроения клиентов, а сенсорные данные предоставят информацию о том, как чаще всего используется продукт, чтобы применить эти знания для его улучшения.

         Еще недавно трех «V» было вполне достаточно. Но все на свете изменяется, в том числе и подходы к определению. Поэтому аналитики присовокупили еще четыре «V», чтобы избежать недопонимания. Итак, в определение были добавлены Veracity, Variability, Visualization, Value. Рассмотрим каждый из этих пунктов.

         Veracity – Достоверность: безусловно, эта характеристика является крайне важной, поскольку любой анализ будет совершенно бесполезен, если данные окажутся недостоверными. Более того, нам крайне важно заранее удостовериться, что с данными все ок, ведь их неточность может привести к неправильным решениям. Самый простой пример – контакты с ложными именами и неточной контактной информацией.

         Variability – Изменчивость: новое веяние в сфере Big Data. Здесь речь идет о том, что значение одних и тех же данных может различаться в зависимости от контекста, например, одни и те же слова в Твиттере могут иметь различные значения и отражать различные настроения. Мы должны учитывать все нюансы! Для того чтобы выполнить правильный анализ настроений, алгоритмы должны быть в состоянии понять контекст и быть в состоянии расшифровать точное значение слова в этом контексте.

          Visualization – Визуализация: это необходимая часть анализа, поскольку именно визуализация делает большие данные доступными для человеческого восприятия. Визуализация больших объемов сложных данных гораздо более эффективна и понятна для человека, чем электронные таблицы и отчеты, полные чисел и формул. Конечно, визуализация в рамках Big Data не означает построение обычных графиков или круговых диаграмм: возможно, будут построены сложные графики, которые будут включать в себя множество переменных данных, однако они все равно останутся понятными и читаемыми.

         Value – Ценность: здесь речь идет о том, чтобы извлечь максимум пользы из результатов анализа больших данных. Важно то, как вы будете использовать эти данные и сможете ли превратить свою организацию в продвинутую компанию, которая опирается на идеи, полученные из анализа данных, для принятия решений.

         Однако и этих семи «V» недостаточно для понимания сути Big Data (особенно в версии их использования в инновационном сферном мышлении и планетарном сферном СуперИИ – Л.С.: https://peacefromharmony.org/?cat=ru_c&key=1109): речь идет о том, что все эти семь характеристик должны быть применены к сложной задаче, как правило, с несколькими переменными и нетривиальным условием.

         И небольшое заключение в итоге: безусловно, мы не могли со спокойной совестью пройти мимо Big Data, поэтому сейчас в рамках продукта «Форсайт. Аналитическая платформа» развиваются все необходимые для работы с большими данными технологии: поддержка Hadoop, интеграция с программно-аппаратными комплексами, интеграция с решениями SAP.

------------------------------------

 






Up
© Website author: Leo Semashko, 2005; © designed by Roman Snitko, 2005