Я хотел бы использовать некоторые предварительно подготовленные словарные вложения в модели Keras NN, которые были опубликованы Google в очень известной статье. Они предоставили код для обучения новой модели, а также вложения здесь.
Однако из документации не ясно, как извлечь вектор внедрения из заданной строки символов (слова) из простого вызова функции python. Большая часть документации, по-видимому, сосредоточена на демпинге векторов на файл для всего предложения, предположительно для сентиментального анализа.
До сих пор я видел, что вы можете использовать предварительные вложения со следующим синтаксисом:
embedding_layer = Embedding(number_of_words??,
out_dim=128??,
weights=[pre_trained_matrix_here],
input_length=60??,
trainable=False)
Однако преобразование разных файлов и их структур в pre_trained_matrix_here
мне не совсем понятно.
У них есть несколько выходов softmax, поэтому я не уверен, какой из них будет принадлежать, и, кроме того, как выровнять слова в моем вводе в словарь слов, для которых они есть.
Есть ли простой способ использовать эти слова / char вложения в keras и/или построить часть вложения символов/слова модели в keras, чтобы добавить другие уровни для других задач NLP?