Насколько велики данные "Bigdata"?

Сколько объема данных может быть классифицировано как Bigdata?

С какими размерами данных можно решить, что настало время для таких технологий, как Hadoop, и использовать возможности распределенных вычислений?

Я считаю, что для этих технологий есть определенная премия, поэтому как убедиться, что использование методов Bigdata будет использовать текущую систему?

Ответ 1

Чтобы процитировать страницу wiki для Bigdata:

Когда становится трудно хранить, искать, анализировать, делиться и т.д. данный объем данных с использованием наших традиционных инструментов управления базами данных, что большой и сложный набор данных называется Bigdata.

В принципе, все его родственники. То, что считается Bigdata, зависит от возможностей организации, управляющей набором данных. Для некоторых организаций, сталкиваясь с сотнями гигабайт данных в первый раз, может возникнуть необходимость пересмотреть варианты управления данными. Для других может потребоваться десятки или сотни терабайт, прежде чем размер данных станет значительным.

Количество данных является лишь одним из ключевых элементов при определении Bigdata. Variety в данных и velocity, при которых данные увеличиваются, являются двумя другими основными элементами при определении набора данных, который должен быть Bigdata.

Variety в данных означает наличие множества различных данных и типов файлов, которые могут потребоваться для анализа и обработки способами, которые не соответствуют традиционным реляционным базам данных. Некоторые примеры этого сорта включают звуковые и видеофайлы, изображения, документы, геопространственные данные, веб-журналы и текстовые строки.

velocity относится к скорости изменения данных и как быстро ее нужно обрабатывать, чтобы генерировать значительную ценность. Традиционные технологии особенно плохо подходят для хранения и использования высокоскоростных данных. Поэтому нужны новые подходы. Если данные, о которых идет речь, создаются и агрегируются очень быстро и должны быстро использоваться, чтобы выявить шаблоны и проблемы, тем больше скорость и тем более вероятно, что вы столкнулись с проблемой Bigdata.

Кстати, если вы ищете "экономически выгодное" решение, вы можете изучить amazon EMR.

Ответ 2

"Большие данные" - несколько неопределенный термин, используемый больше для маркетинговых целей, чем принятие технических решений. То, что один человек называет "большими данными", другой может рассматривать только повседневную работу в одной системе.

Мое правило состоит в том, что большие данные начинаются там, где у вас есть рабочий набор данных, который не вписывается в основную память в одной системе. Рабочий набор - это данные, над которыми вы активно работаете в данный момент. Например, если у вас есть файловая система, в которой хранится 10 ТБ данных, но вы используете это для хранения видео для редактирования, вашим редакторам может понадобиться всего несколько сотен концертов в любой момент времени; и они, как правило, передают данные с дисков, что не требует произвольного доступа. Но если вы пытаетесь выполнить запросы базы данных с полным набором данных 10 ТБ, который меняется на регулярной основе, вы не хотите, чтобы эти данные были недоступны с диска; который начинает становиться "большими данными".

Для основного эмпирического правила я могу настроить готовый сервер Dell для 2 ТБ ОЗУ прямо сейчас. Но вы платите существенную премию за то, что много RAM в одну систему. 512 ГБ ОЗУ на одном сервере гораздо более доступным, поэтому, как правило, более экономично использовать 4 машины с 512 ГБ ОЗУ, чем одна машина с 2 ТБ. Поэтому вы, вероятно, можете сказать, что более 512 ГБ данных рабочего набора (данные, которые вам нужно получить для любого вычисления в повседневной основе) будут квалифицироваться как "большие данные".

Учитывая дополнительные затраты на разработку программного обеспечения для систем "больших данных" , в отличие от традиционной базы данных, для некоторых людей было бы более выгодно перейти на эту систему с 2 ТБ, а не перепроектировать их систему для распределения между несколькими системы, поэтому в зависимости от ваших потребностей, где-то между 512 ГБ и 2 ТБ данных может быть точкой, где вам нужно перейти в системы "больших данных" .

Я бы не использовал термин "большие данные" для принятия технических решений. Вместо этого сформулируйте свои фактические потребности и определите, какие технологии необходимы для удовлетворения этих потребностей. Немного подумайте о росте, но помните, что системы все еще растут; поэтому не пытайтесь перепланировать. Многие системы "больших данных" могут быть трудными в использовании и негибкими, поэтому, если вам действительно не нужны они для распространения ваших данных и вычислений на десятки или сотни систем, они могут быть больше проблем, чем они того стоят.