Одновременное выполнение нескольких сеансов тензорного потока

Я пытаюсь запустить несколько сеансов TensorFlow одновременно на машине CentOS 7 с 64 процессорами. Мой коллега сообщает, что он может использовать следующие два блока кода для создания параллельного ускорения на своей машине с использованием 4 ядер:

mnist.py

import numpy as np
import input_data
from PIL import Image
import tensorflow as tf
import time


def main(randint):
    print 'Set new seed:', randint
    np.random.seed(randint)
    tf.set_random_seed(randint)
    mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

    # Setting up the softmax architecture
    x = tf.placeholder("float", [None, 784])
    W = tf.Variable(tf.zeros([784, 10]))
    b = tf.Variable(tf.zeros([10]))
    y = tf.nn.softmax(tf.matmul(x, W) + b)

    # Setting up the cost function
    y_ = tf.placeholder("float", [None, 10])
    cross_entropy = -tf.reduce_sum(y_*tf.log(y))
    train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)

    # Initialization 
    init = tf.initialize_all_variables()
    sess = tf.Session(
        config=tf.ConfigProto(
            inter_op_parallelism_threads=1,
            intra_op_parallelism_threads=1
        )
    )
    sess.run(init)

    for i in range(1000):
        batch_xs, batch_ys = mnist.train.next_batch(100)
        sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})

    correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
    accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))

    print sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels})

if __name__ == "__main__":
    t1 = time.time()
    main(0)
    t2 = time.time()
    print "time spent: {0:.2f}".format(t2 - t1)

parallel.py

import multiprocessing
import numpy as np

import mnist
import time

t1 = time.time()
p1 = multiprocessing.Process(target=mnist.main,args=(np.random.randint(10000000),))
p2 = multiprocessing.Process(target=mnist.main,args=(np.random.randint(10000000),))
p3 = multiprocessing.Process(target=mnist.main,args=(np.random.randint(10000000),))
p1.start()
p2.start()
p3.start()
p1.join()
p2.join()
p3.join()
t2 = time.time()
print "time spent: {0:.2f}".format(t2 - t1)

В частности, он говорит, что наблюдает

Running a single process took: 39.54 seconds
Running three processes took: 54.16 seconds

Однако, когда я запускаю код:

python mnist.py
==> Time spent: 5.14

python parallel.py 
==> Time spent: 37.65

Как вы можете видеть, я получаю значительное замедление, используя многопроцессорность, тогда как мой коллега этого не делает. Кто-нибудь имеет представление о том, почему это может произойти и что можно сделать, чтобы исправить это?

ИЗМЕНИТЬ

Вот пример вывода. Обратите внимание, что загрузка данных, по-видимому, происходит параллельно, но обучение отдельных моделей имеет очень последовательный вид на выходе (и который можно проверить, посмотрев на использование ЦП в top по мере выполнения программы)

#$ python parallel.py 
Set new seed: 9672406
Extracting MNIST_data/train-images-idx3-ubyte.gz
Set new seed: 4790824
Extracting MNIST_data/train-images-idx3-ubyte.gz
Set new seed: 8011659
Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz
I tensorflow/core/common_runtime/local_device.cc:25] Local device intra op parallelism threads: 1
I tensorflow/core/common_runtime/local_session.cc:45] Local session inter op parallelism threads: 1
0.9136
I tensorflow/core/common_runtime/local_device.cc:25] Local device intra op parallelism threads: 1
I tensorflow/core/common_runtime/local_session.cc:45] Local session inter op parallelism threads: 1
0.9149
I tensorflow/core/common_runtime/local_device.cc:25] Local device intra op parallelism threads: 1
I tensorflow/core/common_runtime/local_session.cc:45] Local session inter op parallelism threads: 1
0.8931
time spent: 41.36

Еще один EDIT

Предположим, мы хотим подтвердить, что проблема, по-видимому, связана с TensorFlow, а не с многопроцессорной обработкой. Я заменил содержимое mnist.py на большой цикл следующим образом:

def main(randint):
    c = 0
    for i in xrange(100000000):
        c += i

Для вывода:

#$ python mnist.py
==> time spent: 5.16
#$ python parallel.py 
==> time spent: 4.86

Следовательно, я думаю, что проблема здесь не в мультипроцессе.

Ответ 1

От комментария OP (user1936768):

У меня есть хорошие новости: Оказывается, по моей системе, по крайней мере, мои пробные программы не выполнялись достаточно долго, чтобы запускать другие экземпляры TF. Когда я помещаю более длинную рабочую примерную программу в основном, я действительно вижу параллельные вычисления

Ответ 2

Одна из возможностей заключается в том, что ваши сеансы пытаются использовать 64 ядра каждый и топать друг на друга Возможно, попробуйте установить NUM_CORES на меньшее значение для каждого сеанса С >

sess = tf.Session(
    tf.ConfigProto(inter_op_parallelism_threads=NUM_CORES,
                   intra_op_parallelism_threads=NUM_CORES))