Использование глубокого обучения для прогнозирования подпоследовательности из последовательности

У меня есть данные, которые выглядят так:

Здесь можно просмотреть и был включен в код ниже. На самом деле у меня есть ~ 7000 выборок (строка), загружаемый тоже.

Задача получает антиген, предсказывает соответствующий эпитоп. Таким образом, эпитоп всегда является точной подстрокой антигена. Это эквивалентно Последовательность для обучения последовательностям. Вот мой код, который работает в Recurrent Neural Network под Keras. Он был смоделирован в соответствии с example.

Мой вопрос:

Можно ли использовать RNN, LSTM или GRU для прогнозирования подпоследовательности, как указано выше?
Как повысить точность кода?
Как мне изменить свой код, чтобы он мог работать быстрее?

Вот мой код запуска, который дал очень плохую оценку точности.

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from __future__ import print_function
import sys
import json
import pandas as pd
from keras.models import Sequential
from keras.engine.training import slice_X
from keras.layers.core import Activation,  RepeatVector, Dense
from keras.layers import recurrent, TimeDistributed
import numpy as np
from six.moves import range

class CharacterTable(object):
    '''
    Given a set of characters:
    + Encode them to a one hot integer representation
    + Decode the one hot integer representation to their character output
    + Decode a vector of probabilties to their character output
    '''
    def __init__(self, chars, maxlen):
        self.chars = sorted(set(chars))
        self.char_indices = dict((c, i) for i, c in enumerate(self.chars))
        self.indices_char = dict((i, c) for i, c in enumerate(self.chars))
        self.maxlen = maxlen

    def encode(self, C, maxlen=None):
        maxlen = maxlen if maxlen else self.maxlen
        X = np.zeros((maxlen, len(self.chars)))
        for i, c in enumerate(C):
            X[i, self.char_indices[c]] = 1
        return X

    def decode(self, X, calc_argmax=True):
        if calc_argmax:
            X = X.argmax(axis=-1)
        return ''.join(self.indices_char[x] for x in X)

class colors:
    ok = '\033[92m'
    fail = '\033[91m'
    close = '\033[0m'

INVERT = True
HIDDEN_SIZE = 128
BATCH_SIZE = 64
LAYERS = 3
# Try replacing GRU, or SimpleRNN
RNN = recurrent.LSTM


def main():
    """
    Epitope_core = answers
    Antigen      = questions
    """

    epi_antigen_df = pd.io.parsers.read_table("http://dpaste.com/2PZ9WH6.txt")
    antigens = epi_antigen_df["Antigen"].tolist()
    epitopes = epi_antigen_df["Epitope Core"].tolist()

    if INVERT:
        antigens = [ x[::-1] for x in antigens]

    allchars = "".join(antigens+epitopes)
    allchars = list(set(allchars))
    aa_chars =  "".join(allchars)
    sys.stderr.write(aa_chars + "\n")

    max_antigen_len = len(max(antigens, key=len))
    max_epitope_len = len(max(epitopes, key=len))

    X = np.zeros((len(antigens),max_antigen_len, len(aa_chars)),dtype=np.bool)
    y = np.zeros((len(epitopes),max_epitope_len, len(aa_chars)),dtype=np.bool)

    ctable = CharacterTable(aa_chars, max_antigen_len)

    sys.stderr.write("Begin vectorization\n")
    for i, antigen in enumerate(antigens):
        X[i] = ctable.encode(antigen, maxlen=max_antigen_len)
    for i, epitope in enumerate(epitopes):
        y[i] = ctable.encode(epitope, maxlen=max_epitope_len)


    # Shuffle (X, y) in unison as the later parts of X will almost all be larger digits
    indices = np.arange(len(y))
    np.random.shuffle(indices)
    X = X[indices]
    y = y[indices]

    # Explicitly set apart 10% for validation data that we never train over
    split_at = len(X) - len(X) / 10
    (X_train, X_val) = (slice_X(X, 0, split_at), slice_X(X, split_at))
    (y_train, y_val) = (y[:split_at], y[split_at:])

    sys.stderr.write("Build model\n")
    model = Sequential()
    # "Encode" the input sequence using an RNN, producing an output of HIDDEN_SIZE
    # note: in a situation where your input sequences have a variable length,
    # use input_shape=(None, nb_feature).
    model.add(RNN(HIDDEN_SIZE, input_shape=(max_antigen_len, len(aa_chars))))
    # For the decoder input, we repeat the encoded input for each time step
    model.add(RepeatVector(max_epitope_len))
    # The decoder RNN could be multiple layers stacked or a single layer
    for _ in range(LAYERS):
        model.add(RNN(HIDDEN_SIZE, return_sequences=True))

    # For each of step of the output sequence, decide which character should be chosen
    model.add(TimeDistributed(Dense(len(aa_chars))))
    model.add(Activation('softmax'))

    model.compile(loss='categorical_crossentropy',
                optimizer='adam',
                metrics=['accuracy'])

    # Train the model each generation and show predictions against the validation dataset
    for iteration in range(1, 200):
        print()
        print('-' * 50)
        print('Iteration', iteration)
        model.fit(X_train, y_train, batch_size=BATCH_SIZE, nb_epoch=5,
                validation_data=(X_val, y_val))
        ###
        # Select 10 samples from the validation set at random so we can visualize errors
        for i in range(10):
            ind = np.random.randint(0, len(X_val))
            rowX, rowy = X_val[np.array([ind])], y_val[np.array([ind])]
            preds = model.predict_classes(rowX, verbose=0)
            q = ctable.decode(rowX[0])
            correct = ctable.decode(rowy[0])
            guess = ctable.decode(preds[0], calc_argmax=False)
            # print('Q', q[::-1] if INVERT else q)
            print('T', correct)
            print(colors.ok + '☑' + colors.close if correct == guess else colors.fail + '☒' + colors.close, guess)
            print('---')

if __name__ == '__main__':
    main()

Ответ 1

Можно ли использовать RNN, LSTM или GRU для прогнозирования подпоследовательности, как указано выше?

Да, вы можете использовать любой из них. LSTM и ГРУ являются типами RNN; если по RNN вы имеете в виду полностью связанный RNN, они оказались в немилости из-за проблемы исчезающих градиентов (1, 2). Из-за относительно небольшого числа примеров в вашем наборе данных GRU может быть предпочтительнее LSTM из-за его более простой архитектуры.

Как повысить точность кода?

Вы упомянули, что ошибка обучения и проверки достоверна. В общем, это может быть связано с одним из нескольких факторов:

Уровень обучения слишком низок (не проблема, поскольку вы используете Адам, алгоритм адаптивной скорости обучения для каждого параметра)
Модель слишком проста для данных (совсем не проблема, поскольку у вас очень сложная модель и небольшой набор данных)
У вас исчезают градиенты (возможно, проблема с трехслойной RNN). Попробуйте уменьшить количество слоев до 1 (в общем, хорошо начать с создания простой модели, а затем увеличить сложность), а также рассмотреть поиск гиперпараметра (например, 128-мерное скрытое состояние может быть слишком большим - попробуйте 30?).

Другой вариант, так как ваш эпитоп является подстрокой вашего ввода, должен предсказать начальные и конечные индексы эпитопа внутри последовательности антигена (потенциально нормированные длиной антигенной последовательности) вместо предсказания подстроки по одному символу за раз. Это будет проблемой регрессии с двумя задачами. Например, если антиген FSKIAGLTVT (длиной 10 букв), а его эпитоп - KIAGL (позиции от 3 до 7, один на основе), то вход будет FSKIAGLTVT, а выходы будут 0,3 (первая задача) и 0,7 (вторая задача).

Альтернативно, если вы можете сделать все антигены одинаковой длины (путем удаления частей вашего набора данных с короткими антигенами и/или измельчения концов длинных антигенов, предполагая, что вы знаете априори, что эпитоп не близок к концам), вы можете создать его как проблему классификации с двумя задачами (начало и конец) и классы длины последовательности, где вы пытаетесь назначить вероятность запуска и окончания антигена в каждой из позиций.

Как мне изменить свой код, чтобы он мог работать быстрее?

Уменьшение количества слоев значительно ускорит ваш код. Кроме того, GRU будут быстрее, чем LSTM из-за их более простой архитектуры. Однако оба типа повторяющихся сетей будут медленнее, чем, например, сверточных сетей.

Не стесняйтесь присылать мне адрес электронной почты (адрес в моем профиле), если вы заинтересованы в сотрудничестве.