В этом сообщении в блоге Необоснованная эффективность повторяющихся нейронных сетей, Андрей Карпати упоминает будущие направления для машинного обучения на основе нейронных сетей:
Концепция внимания - это самое интересное недавнее архитектурное новшество в нейронных сетях. [...] мягкая схема внимания для адресации памяти удобна, потому что она держит модель полностью дифференцируемой, но, к сожалению, она жертвует эффективностью, потому что все, на что можно обратить внимание, сопровождается (но мягко). Подумайте об этом, объявив указатель на C, который не указывает на конкретный адрес, но вместо этого определяет весь дистрибутив по всем адресам во всей памяти, а разыменование указателя возвращает взвешенную сумму указанного содержимого (что было бы дорого работа!). Это побудило несколько авторов к тому, чтобы сменять модели мягкого внимания на трудное внимание, когда вы выбираете конкретный кусок памяти для наблюдения (например, действие чтения/записи для некоторой ячейки памяти, а не чтение/запись со всех ячеек в некоторой степени). Эта модель значительно более философски привлекательна, масштабируема и эффективна, но, к сожалению, она также недифференцируема.
Я думаю, что я понял метафору указателя, но что именно внимание и почему трудно не дифференцировать?
Я нашел объяснение относительно внимания здесь, но все еще путается о мягкой/твердой части.