Использование реализации временного классификатора Tensorflow (CTC)

Я пытаюсь использовать реализацию CTC Tensorflow в пакете contrib (tf.contrib.ctc.ctc_loss) без успеха.

  • Прежде всего, кто-нибудь знает, где я могу прочитать хороший пошаговый учебник? Документация Tensorflow очень бедна в этой теме.
  • Должен ли я предоставить ctc_loss метки с пустой меткой или нет?
  • Я не мог переучивать свою сеть, даже используя набор данных поезда длиной 1 более 200 эпох.: (
  • Как рассчитать коэффициент ошибок метки с помощью tf.edit_distance?

Вот мой код:

with graph.as_default():

  max_length = X_train.shape[1]
  frame_size = X_train.shape[2]
  max_target_length = y_train.shape[1]

  # Batch size x time steps x data width
  data = tf.placeholder(tf.float32, [None, max_length, frame_size])
  data_length = tf.placeholder(tf.int32, [None])

  #  Batch size x max_target_length
  target_dense = tf.placeholder(tf.int32, [None, max_target_length])
  target_length = tf.placeholder(tf.int32, [None])

  #  Generating sparse tensor representation of target
  target = ctc_label_dense_to_sparse(target_dense, target_length)

  # Applying LSTM, returning output for each timestep (y_rnn1, 
  # [batch_size, max_time, cell.output_size]) and the final state of shape
  # [batch_size, cell.state_size]
  y_rnn1, h_rnn1 = tf.nn.dynamic_rnn(
    tf.nn.rnn_cell.LSTMCell(num_hidden, state_is_tuple=True, num_proj=num_classes), #  num_proj=num_classes
    data,
    dtype=tf.float32,
    sequence_length=data_length,
  )

  #  For sequence labelling, we want a prediction for each timestamp. 
  #  However, we share the weights for the softmax layer across all timesteps. 
  #  How do we do that? By flattening the first two dimensions of the output tensor. 
  #  This way time steps look the same as examples in the batch to the weight matrix. 
  #  Afterwards, we reshape back to the desired shape


  # Reshaping
  logits = tf.transpose(y_rnn1, perm=(1, 0, 2))

  #  Get the loss by calculating ctc_loss
  #  Also calculates
  #  the gradient.  This class performs the softmax operation for you, so    inputs
  #  should be e.g. linear projections of outputs by an LSTM.
  loss = tf.reduce_mean(tf.contrib.ctc.ctc_loss(logits, target, data_length))

  #  Define our optimizer with learning rate
  optimizer = tf.train.RMSPropOptimizer(learning_rate).minimize(loss)

  #  Decoding using beam search
  decoded, log_probabilities = tf.contrib.ctc.ctc_beam_search_decoder(logits, data_length, beam_width=10, top_paths=1)

Спасибо!

Обновление (06/29/2016)

Спасибо, @jihyeon-seo! Итак, у нас на входе RNN что-то вроде [num_batch, max_time_step, num_features]. Мы используем dynamic_rnn для выполнения рекуррентных вычислений с учетом ввода, выводя тензор формы [num_batch, max_time_step, num_hidden]. После этого нам нужно сделать аффинную проекцию в каждом тильместепе с распределением веса, поэтому мы должны изменить на [num_batch * max_time_step, num_hidden], умножить на весовую матрицу формы [num_hidden, num_classes], суммировать смещение, отменить reseape, transpose (поэтому у нас будет [max_time_steps, num_batch, num_classes] для входа потери ctc), и этот результат будет входной функцией ctc_loss. Я все сделал правильно?

Это код:

    cell = tf.nn.rnn_cell.MultiRNNCell([cell] * num_layers, state_is_tuple=True)

    h_rnn1, self.last_state = tf.nn.dynamic_rnn(cell, self.input_data, self.sequence_length, dtype=tf.float32)

    #  Reshaping to share weights accross timesteps
    x_fc1 = tf.reshape(h_rnn1, [-1, num_hidden])

    self._logits = tf.matmul(x_fc1, self._W_fc1) + self._b_fc1

    #  Reshaping
    self._logits = tf.reshape(self._logits, [max_length, -1, num_classes])

    #  Calculating loss
    loss = tf.contrib.ctc.ctc_loss(self._logits, self._targets, self.sequence_length)

    self.cost = tf.reduce_mean(loss)

Обновление (07/11/2016)

Спасибо @Xiv. Вот код после исправления ошибки:

    cell = tf.nn.rnn_cell.MultiRNNCell([cell] * num_layers, state_is_tuple=True)

    h_rnn1, self.last_state = tf.nn.dynamic_rnn(cell, self.input_data, self.sequence_length, dtype=tf.float32)

    #  Reshaping to share weights accross timesteps
    x_fc1 = tf.reshape(h_rnn1, [-1, num_hidden])

    self._logits = tf.matmul(x_fc1, self._W_fc1) + self._b_fc1

    #  Reshaping
    self._logits = tf.reshape(self._logits, [-1, max_length, num_classes])
    self._logits = tf.transpose(self._logits, (1,0,2))

    #  Calculating loss
    loss = tf.contrib.ctc.ctc_loss(self._logits, self._targets, self.sequence_length)

    self.cost = tf.reduce_mean(loss)

Обновление (07/25/16)

I опубликовано в GitHub часть моего кода, работая с одним высказыванием. Не стесняйтесь использовать!:)

Ответ 1

Я пытаюсь сделать то же самое. Здесь то, что я нашел, может вас заинтересовать.

Было действительно трудно найти учебник для CTC, но этот пример был полезным.

А для пустой метки слой CTC предполагает, что пустым индексом является num_classes - 1, поэтому необходимо указать дополнительный класс для пустой метки.

Кроме того, сеть CTC выполняет уровень softmax. В вашем коде уровень RNN связан с уровнем потерь CTC. Вывод слоя RNN внутренне активирован, поэтому вам нужно добавить еще один скрытый слой (это может быть выходной слой) без функции активации, затем добавить слой потерь CTC.

Ответ 2

См. здесь для примера с двунаправленной реализацией LSTM, CTC и редактирования расстояния, обучающей модели распознавания фонемы в корпусе TIMIT. Если вы тренируетесь по этому набору учебных корпусов, вы должны будете получить коэффициенты ошибок фонемы до 20-25% после 120 эпох или около того.