В чем основные сложности у современных дата-центров? Часть 4

27 Мая 2014
В чем основные сложности у современных дата-центров? Часть 4
Четвертая часть интервью с Дэвидом Горбетом, вице-президентом по инжинирингу компании MarkLogic, опубликованного на ODBMS.org 25 марта 2014 года.

Вопрос: Для каких типов критических приложений применение такого «дата-центра, ориентированного на данные» будет полезно?

Дэвид Горбет: Если у вас есть конкретное приложение, которое использует конкретные данные, и вам не потребуется добавлять новые источники данных в это приложение, или не придется использовать данные в другом приложении, то вам НЕ нужен дата-центр, ориентированный на данные. Но я затрудняюсь вообразить такое ограниченное приложение. Даже самые простые бизнес-приложения сейчас не работают в режиме standalone – они отправляют данные в хранилище и получают их оттуда.

Новый способ мышления заключается в том, что все данные являются ценными, и данные больше не ограничиваются теми данными, которые создаются внутри организации. Все больше данных приходит из-за пределов организации – данные об упоминаниях, социальные сети, связанные данные, данные сенсоров и логи.

Дата-центр, ориентированный на данные, не относится к приложениям или к типу приложений. Это относится к тому, как мы воспринимаем данные в новой эре.

Вопрос: Как Hadoop укладывается в идею дата-центра, ориентированного на данные?

Дэвид Горбет: Hadoop (здесь можно дать ссылку на - ru.wikipedia.org/wiki/Hadoop), это ключевая технология для дата-центра, ориентированного на данные.

HDFS – отличная файловая система, позволяющая экономно хранить большие объемы данных.

Я отношусь к этой технологии, как к новой разделенной инфраструктуре хранения для «больших данных». Сейчас HDFS работает относительно медленно, поэтому если вам нужна скорость, вам может понадобиться NAS, SAN или даже DAS или SSD. Но если у вас очень много данных, то будет гораздо дешевле хранить их в HDFS, чем в традиционных для дата-центра файловых системах. Hadoop MapReduce – отличная технология для пакетной аналитики. Если вам надо пройтись по большому объему данных и сделать нетривиальные вещи с ними, это та технология, которой стоит воспользоваться. Недостатком MapReduce является то, что это технология для пакетной обработки, не для реального времени.

Таким образом, Hadoop – это технология, которая позволяет создать ориентированный на данные дата-центр. Но она должна сопровождаться высокопроизводительными технологиями хранения для тех данных, которые требуют такого SLA. И также – более мощными технологиями аналитики для работы в реальном времени. Hadoop не является системой управления базами данных, поэтому вам нужно также выбрать такую систему.
Получить консультацию специалиста
Персональный ассистент
Cloud.Xelent