Big Data (Большие данные) – это современный термин, обозначающий большое количество структурированной и неструктурированной информации, ежедневно наводняющей сферу бизнеса. Но объемы этой информации – не самое важное, намного важнее то, как организации взаимодействуют с ней. Эти данные анализируются и используются для принятия решений, а также при построении стратегий развития и укрепления компаний.
ИСТОРИЯ BIG DATA (БОЛЬШИХ ДАННЫХ)
Термин «большие данные» относится к данным, настолько обильным и сложным, чей быстрый прирост сложно или невозможно обрабатывать при помощи традиционных подходов. Получение и хранение большого количества информации долгое время были камнем преткновения аналитиков, поэтому концепт больших данных набрал обороты в ранних 2000-х годах. Тогда Дуглас Б. Лейни сформулировал «правило трёх V», которое сейчас используется повсеместно, а тогда было основой концепта больших данных:
- Объем (Volume): Организации получают информацию от множества источников, включая биржу, смарт-девайсы («Интернета Вещей» - IoT), промышленное оборудование, видео, социальные сети и еще ряд ресурсов. В прошлом проблемой было хранение этих данных, но бюджетные хранилища на таких платформах как Hadoop и так называемых «озерах данных» облегчили это бремя.
- Скорость прироста (Velocity): С развитием Интернета Вещей, потоки информации наводнили бизнес-поле с беспрецедентной скоростью, и обрабатываться они должны своевременно. RFID-метки, сенсоры и интеллектуальные счетчики позволяют иметь дело с потоками данных в режиме почти реального времени.
- Многообразие (Variety): Данные поступают во всех возможных форматах – от структурированных, числовых данных с традиционных баз, до текстовых документов, электронных писем, видео, аудио файлов и биржевых данных.
Нам, представляются релевантными еще два признака, свойственные большим данным:
- Переменчивость (Variability): Вдобавок к скорости прироста и многообразию, течение потока данных непредсказуемо – оно меняется часто и значительно. Это непросто, но владельцам бизнеса необходимо знать, что находится в трендах социальных сетей и как обуздывать сезонные и тематические пики выгрузки данных.
- Достоверность (Veracity): Достоверность – это качество данных. Из-за вариативности источников процесс связки, подбора, очищения и трансформации данных в системе затруднен. Бизнесам необходимо выстраивать отношения и коррелировать иерархию многочисленных ссылок на данные в единую систему. В противном случае, их данные быстро выйдут из-под контроля.
ПОЧЕМУ ВАЖНЫ BIG DATA (БОЛЬШИЕ ДАННЫЕ)?
Важно не количество данных, которыми вы обладаете, а то, что вы с ними делаете. Вы можете взять информацию из любого источника и проанализировать ее, чтобы найти ответы на следующие вопросы:
- Как уменьшить цены?
- Как сэкономить время?
- Как оптимизировать предложения и развивать свой продукт?
- Как принимать мудрые решения?
Комбинируя мощные аналитические подходы и большие данные можно достичь выполнения таких бизнес-задач, как:
- Определение причин провалов, выявление проблем и дефектов производства в практически реальном времени.
- Генерирование купонов на распродажу в соответствии с привычками и особенностями покупателя.
- Пересчет всеобщего портфолио рисков за минуты.
- Предупреждение мошенничества.
КОМУ ИНТЕРЕСНЫ БОЛЬШИЕ ДАННЫЕ?
Большие данные представляют собой большой интерес для производителей. Натиск Интернета Вещей и связанных с ним устройств создал мощный всплеск информации, которую организации собирают, структурируют и анализируют. Большие данные – это всегда возможность сделать большие открытия – для любой организации, крупной или нет.
Углубленное изучение требует наличия больших данных, потому что они позволяют отделить скрытые схемы от ответов на интересующие Вас вопросы без «подгонки» данных. Чем глубже вы изучаете, тем выше качество данных, тем лучше результаты.
МОТИВИРОВАННЫЕ ДАННЫМИ ИННОВАЦИИ
Сегодня эксабайты больших данных открывают бесчисленные возможности улучить производство. От более точных прогнозов до повышения оперативной эффективности и улучшения впечатления покупателя – всё возможно, если использовать большие данные с умом. Аналитика – двигатель перемен, затрагивающих весь мир. Это ключ к улучшению условий жизни, исцелению болезней, защиты уязвимых слоев населения и сохранению ресурсов.
КАК РАБОТАТЬ С БОЛЬШИМИ ДАННЫМИ?
Прежде, чем большие данные начнут работать на бизнес, необходимо осознать, какой путь - источники, системы, обладателей и пользователей – проходят большие данные. Ниже приведены пять ключевых шагов к тому, чтобы стать Большим Боссом Больших Данных – структурированных, неструктурированных и полуструктурированных.
ШАГ 1. ПОСТРОЙТЕ СТРАТЕГИЮ БОЛЬШИХ ДАННЫХ
В идеале, стратегия больших данных – это план, выработанный для того, что бы Вы могли видеть все доступные пути для принятия, хранения, обработки, распределения и использования данных внутри компании и за ее пределами. Стратегия больших данных устанавливает планку для успеха бизнеса на фоне обилия информации. Разрабатывая стратегию, важно учесть существование – и будущее развитие – бизнеса, его технологий, целей и инициатив. Это призывает к тому, чтобы с большими данными обращались, как и с любым другим ценным активом, а не как с второсортным приложением.
ШАГ 2. УЗНАЙТЕ ОБ ИСТОЧНИКАХ ДАННЫХ
- Потоки данных поступают из Интернета Вещей и сопряженных с ним устройств, вливающихся в информационные системы из умной одежды, машин, медицинских устройств, промышленного оборудования и прочего. Эту информацию можно анализировать прямо в момент поступления, решая, что из нее нужно оставить, от чего – избавиться, и что подлежит дальнейшему анализу.
- Данные социальных сетей поступают из таких источников, как Facebook, YouTube, Instagram, так далее. Эта категория включает в себя огромное количество изображений, видео, голосовых, текстовых и аудио данных, пригодных для маркетинга, распродаж и поддерживающих функций. Эти данные зачастую неструктурированы или полу-структурированы, поэтому их анализ и обработка представляют собой неповторимое испытание.
- Публично доступные данные поступают из массивов открытых источников, например, data.gov, которым руководит правительство США, или Всемирная книга фактов ЦРУ и Портал открытых данных ЕС.
- Другие источники больших данных – такие, как «озера», облака поставщиков и покупателей.
ШАГ 3. ПОЛУЧИТЕ ДОСТУП К БОЛЬШИМ ДАННЫМ, ОБРАБАТЫВАЙТЕ ИХ И ХРАНИТЕ
Современные компьютерные системы способны обеспечить необходимую для обработки массивов данных скорость, мощность и гибкость. Помимо надежного доступа, компании нуждаются в методиках сбора данных, проверки их качества и обеспечения управления данными, а так же их хранения и подготовки к аналитике. Некоторые данные могут храниться в локальной системе традиционных хранилищ, но существуют так же и доступные, недорогие способы хранения данных в облаках, «озерах» и Hadoop.
ШАГ 4. АНАЛИЗИРУЙТЕ
С помощью высокопроизводительных технологий, таких как грид-вычисления или in-memory аналитика, организации могут использовать все свои большие данные для анализа. Другой подход заключается в предварительном определении актуальности данных. В обоих случаях, аналитика больших данных – это ценный опыт для любой компании. Большие объемы данных все чаще используются в современных аналитических разработках, таких как искусственный интеллект.
ШАГ 5. ПРИНИМАЙТЕ УМНЫЕ, МОТИВИРОВАННЫЕ ИНФОРМАЦИЕЙ РЕШЕНИЯ
Хорошо обработанные данные, которым можно доверять, позволят проводить качественный анализ, на основе которого можно принимать надежные решения. Любому бизнесу необходимо использовать большие данные и действовать, основываясь на информации, которую они предоставляют, чтобы оставаться конкурентоспособными. Принимать решения, продиктованные аналитическими результатами, а не интуицией. Преимущества таких решений очевидны. Организации, управляемые данными, работают лучше, являются более развитыми и более прибыльными.
ДАЛЬНЕЙШИЕ ШАГИ
Большие данные требуют чуткого управления и поддержки продвинутых аналитических технологий. Чтобы подготовить большие данные, меняющиеся ежесекундно, для аналитической обработки, Вам необходимо получить доступ, оформить профиль, очистить данные и преобразовать их. При наличии большого количества источников, объемов и скорости прироста, подготовка данных может занимать огромное количество времени, и тут не обойтись без профессиональной помощи.