У меня есть два вопроса -
Q1. Есть ли более эффективный способ справиться с ситуацией с ошибками в MPI, кроме контрольной точки/отката? Я вижу, что если node "умирает", программа резко останавливается. Есть ли способ продолжить выполнение после того, как node умирает? (нет проблем, если это за счет точности)
Q2. Я прочитал в "http://stackoverflow.com/info/144309/what-is-the-best-mpi-implementation", что OpenMPI имеет лучшую отказоустойчивость, а в последнее время MPICH-2 также имеет аналогичные функции.. кто-нибудь знает, что это такое и как их использовать? это "режим"? могут ли они помочь в ситуации, указанной в Q1?
любезно ответ. Спасибо.