Блог

Большие данные

Давайте попробуем разобраться что же скрывается за понятием "Большие данные".


Ранее под этот критерий попадали любые массивы данных, для обработки которых уже не хватало стандартного ПК и стандартного программного обеспечения и требовались специальные инструменты для обеспечения распределенных вычислений и серверные мощности.

Время не стоит на месте, и то что было Большими данными в 2012 году уже не будет являться большими данными в 2022. Объемы данных растут по экспоненте. Кратно возрастает и производительность современного оборудования. За те же деньги сегодня можно обработать гораздо больший массив данных и сделать это гораздо быстрее, что и стало причиной тотальной цифровизации и внедрение data-driven подходов (подходов основанных на данных)

Считаем массив Большими данными при выполнении хотя бы одного из трех условий:

  • Соответствующий объем - размер данных должен исчисляться миллиардами (например, количество строк в табличных базах данных)
  • Скорость появления данных. Данные должны появляться с такой скоростью, что обработать стандартными средствами их уже просто не возможно - новые данные появляются быстрее, чем обрабатываются.
  • Разнообразие. Разнородность типов информации, содержащейся в массиве данных, таких как тест, видео, аудио. Либо таблицы, содержащие значительное количество столбцов, которое представляют разные свойства данных.


На самом деле, большие данные это не что-то новое - они были всегда. Просто ранее не было технологий способных быстро обрабатывать такие массивы и превращать информацию в продукт или выгоду.

Помните ключевое - не так важен размер данных, как важно то, что вы с ними делаете😉
Made on
Tilda