Все чаще встречается упоминание данного термина и все более расплывчатой и многозначительной видится его сущность. По своей сути Big data или большие данные — просто объем информации, который невозможно в разумные сроки (или в принципе) обработать при помощи обычного программного обеспечения. Трудно себе представить, чтобы весь жизненный цикл от первого запуска до утилизации каждого экземпляра выпущенной продукции (например, пылесоса) может быть получен, структурирован и обработан в Microsoft Excel. С другой стороны, при упоминании больших данных зачастую на ум приходит организация сбора все больших объемов информации о каждом гражданине многими государствами, что безусловно указывает на серьезные психические отклонения, отсутствие эмпатии, низкий уровень интеллекта и органическую неспособность к управлению сложными субъектами и процессами современного государственного управления. Но, отбросив этическую сторону вопроса, big data и методы работы с большими данными — всего лишь инструмент, который может приносить пользу, например, улучшать продукцию, предугадывать ожидания потребителей, экономить ресурсы и повышать экономическую эффективность деятельности.
Основа больших данных - структурированные и неструктурированные документы, сообщения, а также аудио, видеоданные гетерогенной природы. Такие данные могут быть получены автоматически при помощи телеметрии, собирающей данные о поведении пользователя на сайте, ежедневных маршрутах перемещения навигационных программ, посещения различных магазинов и кафе, оцифровке архивных документов, распознавания речи и текста с видеозаписей, анкеты, научные работы, мельчайшие изменения измеряемых параметров микроскопических сегментов изделий на тестах в производственных лабораториях, колебания здания при термических расширениях, данные конкурентной разведки…
Объем данных в зависимости от интересов компании может быть очень велик и измеряться тера- пета- и экзабайтами (тысячи, миллионы и миллиарды гигабайт). Собранные данные в неструктурированном виде обычно имеют ценность на небольшом временном промежутке зачастую равном периоду первичной обработки и структуризации. Хранение таких объемов на собственных мощностях компании зачастую экономически необосновано. Часто для временного хранения привлекаются компании-подрядчики с соответствующими центрами обработки данных и компетенциями сотрудников.
Перед непосредствено обработкой данные должны быть структурированы и гомогенезированы, т.е. приведены к единообразной структуре. Например, поля данных из телефонного справочника и базы данных клиентов магазина должны иметь одинаковый формат и храниться в соответствующих полях по результатам преобразования. Или, например, аудиоданные должны быть преобразованы в текст.
Преобразованные данные подвергаются обработке. Существует множество технологий от так называемых OLAP(аналитическая обработка данных по запросу)-кубов, являющихся по сути ускоренными методами статистической обработки информации с функцией предварительной агрегации, до машинного обучения/использований нейросетей с функцией прогнозирования дальнейшего развития ситуации. Объемы данных и требуемые вычислительные ресурсы часто велики, алгоритмы и методы работы довольно сложны и требуют вовлечения специалистов высокой квалификации и соответствующего оборудования, что зачастую не имеет смысла в самостоятельном исполнении для компании при эпизодическом проведении исследований.
По результатам работы составляются отчеты, применимые при принятии тех или иных решений.
Мы будем рады ответить на все возникшие вопросы и свяжемся с Вами удобным для Вас способом.