Как добавить новые вложения для неизвестных слов в Tensorflow (подготовка и предварительная установка для тестирования)

Мне любопытно, как я могу добавить нормализованный рандомизированный вектор размерности 300 (element 'type = tf.float32) всякий раз, когда встречается слово, неизвестное предварительно обученному словарю. Я использую предварительно подготовленные словарные вставки GloVe, но в некоторых случаях я понимаю, что сталкиваюсь с неизвестными словами, и я хочу создать нормализованный рандомизированный вектор слов для этого нового найденного неизвестного слова.

Проблема в том, что с моей текущей настройкой я использую tf.contrib.lookup.index_table_from_tensor для преобразования из слов в целые числа на основе известный словарь. Эта функция может создавать новые токены и хешировать их для некоторого предопределенного количества слов из словаря, но мой embed не будет содержать вложение для этого нового неизвестного значения хэш-функции. Я не уверен, могу ли я просто добавить рандомизированное вложение в конец списка embed.

Я также хотел бы сделать это эффективным образом, поэтому, возможно, была бы наиболее эффективной функция pre-built shadoworflow или метод, включающий функции tensorflow. Я определяю заранее известные специальные маркеры, такие как токен конца предложения, и по умолчанию неизвестно как пустая строка ( "по индексу 0" ), но это ограничено по возможности изучать разные разные неизвестные слова. В настоящее время я использую tf.nn.embedding_lookup() как последний шаг внедрения.

Я хотел бы иметь возможность добавлять новые случайные 300d-векторы для каждого неизвестного слова в данных обучения, и я также хотел бы добавить заранее сделанные случайные векторы слов для любых неизвестных токенов, не встречающихся в процессе обучения, которые, возможно, встречаются во время тестирование. Каков наиболее эффективный способ сделать это?

def embed_tensor(string_tensor, trainable=True):
    """    
    Convert List of strings into list of indicies then into 300d vectors
    """
    # ordered lists of vocab and corresponding (by index) 300d vector
    vocab, embed = load_pretrained_glove()

    # Set up tensorflow look up from string word to unique integer
    vocab_lookup = tf.contrib.lookup.index_table_from_tensor(
        mapping=tf.constant(vocab),
        default_value = 0)
    string_tensor = vocab_lookup.lookup(string_tensor)

    # define the word embedding 
    embedding_init = tf.Variable(tf.constant(np.asarray(embed),
                                 dtype=tf.float32),
                                 trainable=trainable,
                                 name="embed_init")

    # return the word embedded version of the sentence (300d vectors/word)
    return tf.nn.embedding_lookup(embedding_init, string_tensor)

Ответ 1

Приведенный ниже пример кода адаптирует вашу функцию embed_tensor таким образом, что слова встроены следующим образом:

Для слов, которые имеют преднамеренное вложение, вложение инициализируется предварительным вложением. Вложение можно сохранить фиксированным во время обучения, если trainable False.
Для слов в данных обучения, у которых нет предварительно преднамеренного вложения, вложение инициализируется случайным образом. Вложение можно сохранить фиксированным во время обучения, если trainable False.
Для слов в тестовых данных, которые не встречаются в данных обучения и не имеют предварительно обработанного вложения, используется один случайный инициализированный вектор внедрения. Этот вектор не может быть обучен.

import tensorflow as tf
import numpy as np

EMB_DIM = 300
def load_pretrained_glove():
    return ["a", "cat", "sat", "on", "the", "mat"], np.random.rand([6, EMB_DIM])

def get_train_vocab():
    return ["a", "dog", "sat", "on", "the", "mat"]

def embed_tensor(string_tensor, trainable=True):
  """
  Convert List of strings into list of indices then into 300d vectors
  """
  # ordered lists of vocab and corresponding (by index) 300d vector
  pretrained_vocab, pretrained_embs = load_pretrained_glove()
  train_vocab = get_train_vocab()
  only_in_train = set(train_vocab) - set(pretrained_vocab)
  vocab = pretrained_vocab + only_in_train

  # Set up tensorflow look up from string word to unique integer
  vocab_lookup = tf.contrib.lookup.index_table_from_tensor(
    mapping=tf.constant(vocab),
    default_value=len(vocab))
  string_tensor = vocab_lookup.lookup(string_tensor)

  # define the word embedding
  pretrained_embs = tf.get_variable(
      name="embs_pretrained",
      initializer=tf.constant_initializer(np.asarray(pretrained_embs), dtype=tf.float32),
      trainable=trainable)
  train_embeddings = tf.get_variable(
      name="embs_only_in_train",
      shape=[len(only_in_train), EMB_DIM],
      initializer=tf.random_uniform_initializer(-0.04, 0.04),
      trainable=trainable)
  unk_embedding = tf.get_variable(
      name="unk_embedding",
      shape=[1, EMB_DIM],
      initializer=tf.random_uniform_initializer(-0.04, 0.04),
      trainable=False)

  embeddings = tf.concat([pretrained_embs, train_embeddings, unk_embedding], axis=0)

  return tf.nn.embedding_lookup(embeddings, string_tensor)

FYI, чтобы иметь разумное, неслучайное представление для слов, которые не встречаются в данных обучения, и не имеют предварительно подготовленного вложения, вы могли бы рассмотреть возможность сопоставления слов с низкой частотой в ваших данных обучения с помощью unk (это не в вашем словаре) и сделать unk_embedding обучаемым. Таким образом, вы узнаете прототип для слов, невидимых в данных обучения.

Ответ 2

Я никогда не пробовал, но я могу попытаться предоставить возможный способ с использованием тех же механизмов вашего кода, но я подумаю об этом позже.

Метод index_table_from_tensor принимает параметр num_oov_buckets, который перетасовывает все ваши слова oov в предопределенное количество ковшей.

Если вы установите этот параметр на определенное "достаточно большое" значение, вы увидите, что ваши данные распространяются среди этих ковшей (каждый ведро имеет идентификатор ID > последнего словарного слова).

Итак,

если (при каждом поиске) вы устанавливаете (т.е. assign) последние строки (соответствующие ведрам) вашей переменной embedding_init в случайное значение
если вы сделаете num_oov_buckets достаточно большим, чтобы столкновения были минимизированы.

вы можете получить поведение, которое (приближение) к тому, что вы просите очень эффективным способом.

Случайное поведение может быть оправдано теорией, аналогичной хэш-таблице: если количество ведер достаточно велико, метод хэширования строк будет с высокой вероятностью назначать каждое слово овева другому ведру (т.е. минимизировать столкновения к тем же ведрам). Поскольку вы назначаете различное случайное число для каждого другого ведра, вы можете получить (почти) различное сопоставление каждого слова oov.