Какие базы данных занимаются крупнейшими сайтами Всемирной паутины?

Этот вопрос предназначен для того, чтобы служить в качестве списка баз данных и их конфигураций, которые используют основные веб-сайты, и будет отличной ссылкой для тех, кто думает о масштабировании своего веб-сайта до размера Twitter, Facebook или даже Google.

Пожалуйста, держите свои ответы до минимума и не забудьте указать любые используемые источники.

EDIT:

Кроме того, пожалуйста, жирный и имя веб-сайта, и базу данных для упрощения сканирования.

Ответ 1

Facebook.com

  • MySQL с MyRocks. Используется для хранения информации о пользователях и социальных действиях, таких как лайки, комментарии и публикации.
  • Hive (Хранилище данных для Hadoop, поддерживает таблицы и вариант SQL, называемый hiveQL). Используется для "простых заданий суммирования, бизнес-аналитики, машинного обучения и многих других приложений"
  • Cassandra (многомерное распределенное хранилище значений ключей). В настоящее время используется для личных сообщений Facebook.

В настоящее время работает 610 (скоро будет 1000) узлов Hadoop в одном кластере с хранилищем данных Hive. И Hive, и Cassandra были открыты из Facebook.

Статистика Facebook:

  • Более 200 миллионов активных пользователей
  • Более 100 миллионов пользователей заходят в Facebook хотя бы раз в день
  • Более 30 миллионов пользователей обновляют свои статусы хотя бы раз в день
  • Средний пользователь имеет 120 друзей на сайте

Источники:

Ответ 3

LinkedIn.com

  • Oracle (реляционная база данных)
  • MySQL (реляционная база данных)

Базы данных, реплицированные на нескольких серверах для обеспечения высокой доступности. Каждая конкретная Служба использует свою собственную специфичную для домена БД.

Статистика LinkedIn:

  • 22 миллиона участников.
  • 4+ миллионов уникальных посетителей/месяц
  • 40 миллионов просмотров страниц в день
  • 2 миллиона запросов/день

Источники:

Ответ 4

Flickr использует MySQL.

YouTube использует MySQL, но они переходят в Google BigTable.

Myspace использует SQL Server.

Википедия использует MySQL.

Ответ 5

Microsoft.com

  • SQL Server (там нет ничего удивительного)

Статистика Microsoft.com:

  • 250 миллионов уникальных посещений/месяц.
  • 70 миллионов просмотров страниц в день.
  • 15 000 соединений в секунду.
  • Поддерживает в среднем 35 000 одновременных подключений к 80 веб-серверам.

Источники:

Ответ 6

Yahoo.com

  • PostgreSQL (изменено). Клиент может подключиться к любому из узлов в кластере (или подмножеству, ограниченному политикой). Запрос отправляется от клиента к серверу, к которому он решил подключиться. Компилятор SQL на этом node компилирует и оптимизирует запрос для этого единственного node (no parallelism).

Статистика Yahoo.com:

  • 24 миллиарда событий в день
  • 2-петабайт, претендует на самую большую базу данных (март 2008 г.)

Источник:

Ответ 7

Twitter.com

  • MySQL (реляционная база данных).
  • Cassandra (многомерный, распределенный хранилище ключей). Twitter просто "начинает использовать Cassandra в Twitter" (см. Второй источник).

В мае 2008 года Twitter имел 1 экземпляр MySQL для записи с несколькими экземплярами ведомого MySQL для чтения.

Статистика в Twitter:

  • Всего пользователей: 1+ миллионов
  • Всего активных пользователей: 200 000 в неделю
  • Всего сообщений в Twitter: 3 миллиона в день
  • 5% пользователей Twitter составляют 75% всей активности.
  • 72,5% всех пользователей, присоединившихся в течение первых пяти месяцев 2009 года.

Источники:

Ответ 8

Digg

  • MySQL (реляционная база данных) для масштабирования операций чтения
  • MemcacheDB (Key-Value Store) для масштабирования записей

Оба хранилища данных распределены по нескольким серверам.

Статистика Digg:

  • 30 миллионов пользователей
  • 26 миллионов уникальных вещей в месяц
  • 2 миллиарда запросов в месяц
  • 13 000 запросов в секунду, пик на 27 000 запросов в секунду.

Источники: