Повреждения GitHub Redis и Resque?

Кто-нибудь знает, как GitHub имеет дело с потенциальной неудачей или временной недоступностью сервера Redis при использовании Resque?

Есть и другие, которые, похоже, собрали полузасушливые решения в качестве перехвата для redis-кластера с использованием zookeeper (см. https://github.com/ryanlecompte/redis_failover и Решения для аварийного восстановления redes. У других, похоже, есть "плохой переход на другой ресурс", который переключает подчиненного на мастера с первого взгляда на проблемы с подключением без координации между клиентами redis (но это кажется проблематичным в сценарии временного отсутствия).

Вопрос: Разве Defunkt когда-либо говорил о том, как GitHub справляется с неудачей Redis? Есть ли лучший способ перехода на другой ресурс, который не связан с zookeeper?

Исходный пост в resque утверждает, что часть рационального выбора Redis была возможностью перехвата master-slave, но сообщение не описывает, как GitHub использует это, поскольку все работники нуждаются в доступе для чтения + записи к Redis ( см. https://github.com/blog/542-introducing-resque).

Ответ 1

Базовая библиотека Resque не обрабатывает сбои. Если ящик сразу же вылетел из сообщения, сообщение исчезнет навсегда. Вам придется написать свой собственный код для обработки сбоев, что довольно сложно.

https://github.com/resque/resque/issues/93