Непрерывные и дискретные искусственные нейронные сети

Я понимаю, что это, вероятно, очень нишевый вопрос, но кто-нибудь имел опыт работы с непрерывными нейронными сетями? Меня особенно интересует то, что непрерывная нейронная сеть может быть полезна для того, что вы обычно используете для дискретных нейронных сетей.

Для ясности я выясню, что я подразумеваю под непрерывной нейронной сетью, поскольку, я полагаю, ее можно интерпретировать как означающую разные вещи. Я не означает, что функция активации непрерывна. Скорее, я намекнул на идею увеличения числа нейронов в скрытом слое до бесконечного количества.

Итак, для ясности, вот архитектура вашего типичного сдержанного NN: alt textx - вход, g - это активация скрытого слоя, v - это веса скрытого слоя, w - веса выходного уровня, b - это смещение и, по-видимому, выходной слой имеет линейную активацию (а именно, нет).

Разность между дискретным NN и непрерывным NN изображена на этом рисунке: alt text Это означает, что количество скрытых нейронов становится бесконечным, так что ваш конечный результат является интегральным. На практике это означает, что вместо вычисления детерминированной суммы вы должны аппроксимировать соответствующий интеграл квадратурой.

По-видимому, это распространенное заблуждение с нейронными сетями, из-за чего слишком много скрытых нейронов вызывают чрезмерное поведение.

Мой вопрос конкретно, учитывая это определение дискретных и непрерывных нейронных сетей, мне было интересно, есть ли у кого-нибудь опыт работы с последним и какие вещи они использовали для них.

Дальнейшее описание по теме можно найти здесь: http://www.iro.umontreal.ca/~lisa/seminaires/18-04-2006.pdf

Ответ 1

В прошлом я работал над несколькими исследовательскими проектами, использующими непрерывные NN. Активация была выполнена с использованием биполярного гиперболического загар, сеть заняла несколько сотен входов с плавающей запятой и выдала около ста значений с плавающей запятой.

В этом конкретном случае целью сети было изучение динамических уравнений минерального поезда. В сети было дано текущее состояние поезда и предсказанная скорость, динамика между вагонами и другое поведение поездов на 50 секунд в будущем.

Обоснование этого конкретного проекта в основном касалось производительности. Это предназначалось для встроенного устройства, и оценка NN была гораздо более дружелюбной к производительности, чем решение традиционной системы ODE (обычного дифференциального уравнения).

В общем случае непрерывный NN должен уметь изучать любую функцию. Это особенно полезно, когда невозможно или чрезвычайно сложно решить систему с использованием детерминированных методов. В отличие от двоичных сетей, которые часто используются для целей распознавания/классификации паттерна.

Учитывая их неопределенный характер, NN любого рода - это обидчивые животные, выбор правильных видов входов/сетевой архитектуры может быть несколько черным искусством.

Ответ 2

Я думаю, что это либо представляет интерес только для теоретиков, пытающихся доказать, что никакая функция не выходит за пределы мощности аппроксимации архитектуры NN, или это может быть предложение о методе построения кусочно-линейного приближения (посредством обратного распространения) функция. Если это последний, я думаю, что существуют существующие методы, которые намного быстрее, менее подвержены локальным минимумам и менее подвержены переобучению, чем обратное распространение.

Мое понимание NN заключается в том, что соединения и нейроны содержат сжатое представление данных, которые он обучил. Ключ в том, что у вас есть большой набор данных, который требует больше памяти, чем "общий урок", характерный для каждого примера. NN предположительно является экономичным контейнером, который перегонит этот общий урок из этого огромного корпуса.

Если ваш NN имеет достаточно скрытых единиц для плотной выборки оригинальной функции, это эквивалентно тому, что ваш NN достаточно велик, чтобы запомнить учебный корпус (в отличие от его обобщения). Подумайте о том, что учебный корпус также является образцом исходной функции при заданной резолюции. Если у NN достаточно нейронов, чтобы пробовать функцию с еще более высоким разрешением, чем ваш учебный корпус, тогда просто нет давления для обобщения системы, потому что это не ограничивается количеством нейронов, чтобы сделать это.

Поскольку никакого обобщения не требуется и не требуется, вы можете просто запомнить корпус, сохранив все ваши данные обучения в памяти и используя k-ближайший сосед, который будет always работать лучше, чем любой NN, и всегда будет выполняться так же, как и любой NN, даже если разрешение выборки NN приближается к бесконечности.

Ответ 3

В литературе машинного обучения этот термин не совсем уловил, что объясняет всю путаницу. Похоже, что это была одна из статей, интересная в этом, но на самом деле она ничего не привела, что может означать несколько вещей; автор, возможно, просто потерял интерес.

Я знаю, что байесовские нейронные сети (со счетным числом скрытых единиц, бумага "непрерывных нейронных сетей" распространяется на несчетный случай) были успешно использованы Radford Neal (см. его тезис об этом), чтобы выиграть NIPS 2003 Feature Selection Challenge, используя байесовские нейронные сети.

Ответ 4

Нейронные сети с подачей вперед всегда "непрерывны" - это единственный способ, с помощью которого работает обратное обучение (вы не можете backpropagate через дискретную/ступенчатую функцию, потому что она не дифференцируется по порогу смещения).

У вас может быть дискретная (например, "горячая" ) кодировка входного или целевого вывода, но все вычисления являются непрерывными. Выход может быть ограничен (то есть с выходным слоем softmax, так что выходы всегда суммируются до единицы, как это принято в настройке классификации), но опять же, все еще непрерывный.

Если вы имеете в виду сеть, которая предсказывает непрерывную, неограниченную цель - подумайте о любой проблеме прогнозирования, где "правильный ответ" не является дискретным, а модель линейной регрессии не будет достаточной. Например, повторяющиеся нейронные сети в разное время были модным методом для различных приложений финансового прогнозирования.