Переходный хаос как средство от ложной памяти

Тот факт, что хаотическая система ведёт себя неожиданным образом, может быть использован для поиска новых способов решения проблем. Иными словами, хаос может помочь в освоении новых возможностей. Однако современные нейроные сети неспособны использовать это свойство, поскольку их желаемое поведение должно быть полностью предсказуемым: они всегда должны давать один и тот же отклик на данный входной сигнал. Были попытки использовать хаос в алгоритмах случайного поиска минимума при обучениии многослойных персептронов, однако детерминированные алгоритмы оказались лучше.

Нейронные сети, способные осваивать возможности при обучении ещё только предстоит создать.
3. Блуждание по аттрактору. Это свойство тесно связано с неустойчивостью. Делались попытки использовать его как средство поиска нужного образа на хаотическом аттракторе. Траектория блуждает между различными образами, и идея состояла в том, чтобы использовать это свойство для сравнения входных данных с запомненными образами.

Были получены кое-какие предварительные результаты, однако соответствующий алгоритм распознавания образов так и не был создан.
4. Сходство со сложной, динам,иной мозга. Ряд попытке был предпринят главным образом Фриманом и его сотрудниками [34, 31, 32, 99] для создания нейронной сети со структурой, напоминающей строение части мозга обонятельной луковицы. Активность мозга сильно изменяется со временем, то же бывает справедливо и для хаотических систем.

Оказалось, что поведение полученных моделей напоминает экспериментальные сигналы, снятые с реального мозга.
5. Наконец, хаос может не играть никакой особой роли: можно создать многоаттракторную систему с периодическим или хаотическим аттрактором вместо неподвижной точки [10]. Тип или номер аттрактора может рассматриваться как результат распознавания, хотя при этом может потребоваться специальная декодирующая система, преобразующая хаотический сигнал в информативный отклик сети.
Ниже мы рассмотрим несколько примеров хаотических нейросетей.

Переходный хаос как средство от ложной памяти

Хаотизация сети Хопфилда-Танка

Одним из недостатков модели Хопфилда-Танка было наличие множества локальных минимумов энергии. Для преодоления этой трудности ряд исслеователей [87, 62] использовали перехоный хаос и шум.

Недавно Kwok и Smith [62] развили обобщённый подход для сетей такого типа. Мы, однако, ограничимся только одним примером для пояснения общей идеи.
Недавно Chen и Aihara [24] применили переходный хаос в сети, описываемой уравнениями
Xi(t + 1) = kxi(t) + al ^2 + U I - *()(/(**()) - h)
v=i ,іфі /
z(t + 1) = (1 - j3)z(t) (5)
где z(t) 0 член самовозбуждения, a 0 /3 1 коэффициент затухания. Эти уравнения можно получить из уравнений аналогичных (4) введением дискретизации по времени. Благодаря последнему члену, содержащему z(t), система может демонстрировать хаотическое поведение.

Эволюция начинается с больших значений z(t) чтобы обеспечить существование хаоса, а затем z(t) уменьшается в соответствиии с (5) и система получает возможность сойтись к нужному аттрактору. Таким образом, хаос помогает бороться с ложной паматью.
Другой пример сети с переходным хаосом для задач оптимизации предлагался в [23]. Сеть снова является отображением, но на этот раз с запаздыванием
N
Xi(t + 1) = waf(xj(t)) + Ii + g(xi(t) - Xi(t - 1)), (6)
3 = 1
где /, как обычно, сигмоидная функция, а д(х) = ахе~ь 1*1 В стационарном состоянии последний член пропадает, поэтому неподвижные точки (6) те же, что и в модели Хопфилда-Танка (4).
Член д усложнает уравнения и приводит к хаотическому блужданию. Благодаря ему, ложные устойчивые состояния модели Хопфилда-Танка при численном моделировании становятся неустойчивыми, хотя траектории задерживаются на некоторое время вблизи них.

Для того чтобы обеспечить сходимость к глобальному минимуму, авторы [23] предложили специальную схему изменения параметров а и Ь. Как показали эксперименты, сеть успешно справилась с задачей коммивояжера.
Модификация модели Хопфилда-Танка с аддитивным хаосом или шумом рассматривалась также в [44].
4.1.2 Сети хопфилдовского типа с переходным хаосом
Эта сеть была предложена в работе [55]. Идея заключалась в том, чтобы заменить простой пороговый хопфилдовский нейрон одномерной динамической системой x_t+i = f{x_t.jj) нейроном со своей собственной внутренней динамикой.
Получающаяся сеть отображений управляется энергией системы Е через параметр /і. Если энергия большая, динамика системы хаотическая, а когда энергия понижается, траектория отображения стремится к одной из неподвижных точек близких к ±1.

Следовательно, во время переходного периода динамика системы хаотическая, а вблизи энергетического минимума она становится регулярной. У равнения движения каждого "нейрона" имеют вид
Xi(t + 1) = f(xi(t),Ei), (7)
где
F(x, Е) = {К(Е) (х + |Я|)} июс12 - 1, К(Е) = 2(1 + |Я|)-1. (8)
(хаотическое поведение при \Е\ Іи регулярное в противном случае). Параметр Е можно назвать локальной энергией системы
N
Ei(t) = A YjWijXjit). і=і
Матрица w, как и в исходной модели Хопфилда, строится по правилу Хебба (3). Определение локальной энергии Еі включает параметр А, который описывает взаимодействие нейронов: при А = 0 сеть распадается на N независимых отображений, а при А = оо получается обычная модель Хопфилда.
Численные эксперименты показывают, что при больших значениях А система действительно ведёт себя как модель Хопфилда, но при меньших значениях (в примере, рассмотренном в [55], А 5) возникает существенная разница: почти все ложные образы становятся неустойчивы, и система либо остаётся в хаотическом состоянии в течение длительного времени, либо сходится к одному из запомненных образов. Таким образом, в данном случае хаос позволяет избавиться от ложных образов.

Решётка связанных отображений с нестационарными синхронными кластерами

Сети данного типа описаны в [54]. Они основаны на решётке связанных отображений с уравнениями движения
Существует две версии системы: a-версия, когда q = е, оц различны, и е-версия, когда оц = , €і различны. Бифуркационная диаграмма для одного отображения (10) напоминает случай логистического отображения. Кодирование информации в сети очень простое, положительные значения х 0 кодируют +1, а отрицательные 1.
Идея распознавания образов при помощи решёток связанных отображений основана на том, что в решётке (9) при а; = а и б; = е существует область параметров (а, е), где она распадается на синхронизованные кластеры, отвечающие периодическому поведению. При этих параметрах система обладает довольно высокой степенью " сохранности информации" , то есть поведение сильно зависит от начальных данных, и существует большая корреляция между x(t) и ж(0).

При больших значениях а или меньших е в хаотическом состоянии это свойство теряется.
Идея методики состоит в том, чтобы определить локальный функционал энергии Еі = Хі 2 wijXj и использовать хаос в качестве отжига чтобы разрушить нежелательные корреляции. Матрица связей w формируется согласно правилу Хебба из образов которые
- Тогда в a-версии динаимка х дополняется динами-
надлежит запомнить, Wij = кой а:
оц(і + 1)
ai(t) + (оц(і) a_mi_n) tanh(^??j) every 16 steps, сц(і) otherwise.
Значение a_mi_n отвечает фазе кластеров. Уменьшение а, согласно этому соотношению, вызывает переход к упорядоченной фазе когда локальная энергия становится достаточно малой.
Численные эксперименты показали, что эта система работает как ассоциативная память и её ёмкость составляет примерно 0.18І?. Похожие характеристики получены и для е-версии алгоритма.
Другая версия алгоритма распознавания с переходом хаоспорядок была предложена в работе [67]
Отметим, что описанная сеть не использует хаос для распознавания. Она использует его только в течение небольшого переходного периода, хотя поведение системы всегда остаётся нестационарным.

А что если переходный период это навсегда или фильтр новизны

Всегда существует возможность, что при какой-либо комбинации входных параметров вместо кратковременного переходного хаоса может возникнуть хаотический аттрактор или длительность переходного периода будет так велика, что конца его можно не дождаться. Скарда и Фриман [85] предположили, что такое состояние может означать ответ "я не знаю", то есть то, что нейронная сеть столкнулась с чем-то таким, чему она не была обучена (см. также [55]).

Подобное состояние, так же как и несоответствие прямого и обратного образов в сетях ART, в принципе может быть использовано как фильтр новизны, т.е. инициировать фазу обучения. Однако, насколько нам известно, примеры таких сетей опубликованы не были.

Хаос и поиск образов

Когда траектория движется по хаотическому аттрактору, она посещает его части одну за другой. Если связать различные части аттрактора с разными образами, траектория будет блуждать между ними. Вообще говоря, это блуждание могло бы быть использовано для организации ассоциаций: если траектория проводит длительной время вблизи лишь одного образа, а остальные посещает гораздо реже, то наиболее часто посещаемый образ можно считать "распознанием", а если есть некоторая цепочка образов, которые посещает траектория, их можно рассматривать как " связанные" друг с другом.

Заметим, что цепочку образов можно записать и в сеть типа Хопфилда. Быть может, однако, хаос способен менять эти комбинации, что давало бы возможность добавлять новые образы либо использовать один и тот же образ в нескольких цепочках.

Подобные идеи так и не были полностью реализованы, но некоторые предварительные результаты получить удавалось.
Для исследования возможностей ассоциирования образов друг с другом Tsuda [93] предложил модель, которая в главных чертах напоминает сеть типа Хопфилда. Изначально образы запоминаются по правилу Хебба, но затем матрица связей динамически изменяется.

Было показано, что ассоциирование образов друг с другом действительно имеет место, однако контролировать этот процесс в достаточной степени не удаётся.
Другой пример модели с ассоциативной хаотической динамикой был предложен в работе [1] и цитированной в ней литературе. У равнения движения этой сети имели вид
N
Xi(t + 1) = k_fXi(t) + J2w_ijf(x_j(t) + _yj(t))
3 = 1
Vi(t + 1) = Kyi{t) - af(xj(t) + yj(t)) + a_h
где 0 x,y 1, f(x) = 1/(1 + е~ж/е), а образы запоминаются в соответствии с правилом Хебба, _Wii = Еи(Ч?} ~ ~ !)¦
Результаты численного моделирования показывают, что траектории системы посещают окрестности запомненных образов. После огрубления (округления х до 0 или 1), некоторые состояния системы совпадают с запомненными образами. Однако сеть неспособна выделить только один образ, который можно было бы интерпретировать как выходной сигнал.

Приведённые в упомянутой работе результаты демонстрируют некоторую зависимость поведения системы от начальных данных, однако не вполне ясно, соответствует ли эта разница (і) различным аттракторам, (іі) переходным процессам или же (ііі) недостаточной длине траектории чтобы набрать хорошую статичтику.
Хаотическое блуждание среди запомненных образов изучалось иакже в [26] и было названо "хаотическое сканирование памяти".
Другая попытка использования хаоса в задачах распознавания была предпринята в [86, 87, 88, 89]. Было замечено, что образы можно распознавать при помощи наименьшего времени синхронизации, тре бующегося для полной или фазовой синхронизации входного образа с уже известными. Достоинством подхода является то, что данная процедура является достаточно общей и может быть использована как в хаотических, так и нехаотических сетях.

Кроме того, конечное состояние не обязано быть устойчивой неподвижной точкой. Недостаток метода в том, что одновременно должно работать по крайней мере две копии динамической системы для входного и для запомненного образа. Другой результат, который может быть полезен, состоит в том, что неустойчивые неподвижные точки можно превращать в устойчивые при помощи методик поиска корней уравнений. В принципе таким образом можно увеличивать ёмкость сети используя для хранения образов неустойчивые периодические орбиты.

Однако для этого необходим способ отображать образы на эти орбиты и назад.

Хаос вместо неподвижной точки

Как уже говорилось в начале раздела 4, можно организовать многоаттракторные сети и сети с управляемым аттрактором не только при помощи аттракторов типа неподвижной точки, но также и с другими типами аттракторов. Один из простейших рецептов создания такой многоаттракторной сети описан в [10] много идентичных маломодовых систем с периодическим или странным аттрактором объединяются в сеть типа Кохонена со взаимной конкуренцией, в которой "выживает" только одна из них; выжившая система с ненулевой амплитудой служит индикатором распознанного образа. Для сетей с управляемым аттрактором такого простого и наглядного примера построено не было. Возможно, причина тому сложная структура бифуркаций хаотических аттракторов, а также то, что различить аттракторы, отвечающие разным значениям параметров и интерпретировать их как разные отклики сети зачастую исключительно сложно.

Тем не менее, одна из наиболее знаменитых хаотических сетей принадлежит именно к классу сетей с управляемым аттрактором. Это модель обонятельной луковицы, предложенная Фриманом.
В течение нескольких десятилетий исследования обонятельной системы были одной из основных целей У. Фримана и его коллег, см. [99, 31, 32, 30, 85] и ссылки в этих работах. После многих лет изучения строения обонятельной луковицы, они пришли к выводу, что только исследования нейронов и структуры их связей недостаточно для того, чтобы понять механизмы, ответственные за распознавание запахов. По этой причине они построили несколько математических моделей обработки информации обонятельной луковицей.

Оказалось, что поведение моделей качественно согласуется с экспериментально полученными энцефалограммами, а динамика моделей хаотическая.
Модели весьма сложны. В наиболее известной из них каждая ячейка памяти описывается восемью дифференциальными уравнениями второго порядка, которые соответствуют группам нейронов различной специализации в пределах каждой ячейки.

Все уравнения имеют один и тот же общий вид щ + Ащ + Вхі = Gj, а члены в правой части отличаются для нейронов разных типов [99]. Некоторые из Gj включают входные данные X, у других есть члены с запаздыванием (зависящие от прошлых значений х).

Есть нейроны, ответственные за связь с другими ячейками памяти, и для них Gj включает член вида K[hj]Q(x[j])i где Q функция типа сигмоиды, a x[j] соответствует такому же " связному" нейрону из j-й ячейки.
Информация в этой сети хранится в связях K[i,j], Они могут принимать только два значения, и К_т?х. Изначально все связи устанавливаются в К_та чтобы записать
образ, в котором ячейки і и j активны, соответствующая K[i,j] = K\j, і] устанавливается в К_тх (правило Хебба).
Сеть работает следующим образом. В отсутствие внешних сигналов наблюдаются хаотические колебания на аттракторе системы. Когда предъявляется некоторый входной образ, система стабилизируется в каких-то областях бывшего аттрактора.

Для пояснения основной идеи можно рассмотреть аттрактор с несколькими "крыльями", вроде аттрактора Лоренца. В состоянии базовой активности траектория посещает все части аттрактора, а внешний сигнал, "знакомый" системе, запирает траекторию на одном из крыльев (то есть новый аттрактор для данных значений параметров X съёживается до размеров одного крыла). Динамика остаётся хаотической, но только в новой меньшей области.

То, что траектория не уходит с " крыл а", можно декодировать в отклик сети, например, при помощи вычисления временных средних.
Существуют и другие хаотические модели обонятельной луковицы, например, [6], однако они не настолько хорошо согласуются с биологическими данными.

Рекуррентные сети как генераторы хаотических сигналов

Существует ряд работ, в которых нейронные сети рассматриваются вне контекста обработки информации, просто как модели некоторой биологической системы или как удобное представление уравнений движения динамической системы. При этом не изучаются вопросы вычислений, аппроксимации, ассоциативной памяти и т.п., см., например, [34, 2, 3, 61, 70] и некоторые другие работы. Мы не будем рассматривать этот тип сетей.

В самом деле, совсем несложно сконструировать нейронную сеть в виде рекуррентного пер-септрона (Раздел 3), обладающую хаотическим поведением. Подобные сети не отвечают на вопрос о роли хаоса в обработке информации.

Однако, если такая роль существует, подобные нейронные сети могут оказаться удобными генераторами хаоса [75].

Что же не так с хаотическими нейронными сетями?

Мы упомянули лишь некоторые из работ, связанные с хаотическими нейронными сетями, чтобы проиллюстрировать основные направления исследований в этой области. Однако общим для всех таких сетей, насколько нам известно, является то, что они не используются в практических приложениях. Единственное исключение эксперимент, описанный в [100].

Многослойные персептроны, сети Кохонена или Гроссберга используются весьма широко, в то время как хаотические сети уже лет 15 остаются только объектом теоретических изысканий. Как гласит один из законов Мерфи, "если этим никто не пользуется, должна быть причина".

В чём же причина? С нашей точки зрения, она в том, как используются нейронные сети. Существующий способ их использования можно назвать "изолированными вычислениями". Задача сети сводится лишь к тому, чтобы генерировать вполне определённый и всегда один и тот же отклик на заданный входной сигнал.

Хаотическая динамика, которая неустойчива по определению, может лишь сделать подобные вычисления ненадёжными. Поэтому в такой схеме нет никакой естественной ниши для динамического хаоса.
В противоположность сетям такого типа, мозг всегда действует как часть тела. Он постоянно обрабатывает информацию, приходящую извне, и управляет телом с тем чтобы действовать и менять своё окружение. Иными словами, мозг функционирует как часть кольцевой связки: мозг действие окружающий мир ощущение мозг.

Возможно, что именно встроенностъ мозга в тело позволит объяснить преимущества его работы в хаотическом режиме. Кроме того, хаос может просто возникнуть как результат положительных обратных связей в этом кольце.
Заметим, что проблема ’’встроенное™ интеллекта" широко обсуждалась в исследованиях по искусственному интеллекту в последние 15 лет, неплохой обзор приведён в [73]. Соответствующий подход, получивший название "behavior based robotics" или "embodied cognitive science" привёл к возникновению ряда эффективных практических решений и новых теоретических концепций.

Более того, на примере небольшого робота, управляемого сравнительно несложной нейронной сетью, было показано, что замыкание связей через окруж ающий мир способно приводить к сложному, возможно, хаотическому поведению робота [73] (правда, насколько нам известно, никто не пытался количественно оценивать сложность такого поведения).
Другим естественным источником сложного временного поведения могут быть особые реализации нейронных сетей: использование ансамблей связанных осцилляторов для организации вычислений, например, [52, 48, 69]. В разделе 7 мы обсудим это более детально.

Замыкание связей в кольцо: хаос при комбинировании управляющей нейронной сети и управляемой системы

Как уже говорилось в разделах 3, 4, один из простейших способов получить хаос это взять сеть-функцию, скажем, многослойный нерекуррентный персептрон, аппроксимирующий уравнения движения хаотической системы, и подать его выход обратно на вход. Получится хаотическая динамическая система.

Однако она не занимается никакой полезной обработкой информации. Однако если мы поместим между выходом и входом сети некоторую систему, которой необходимо управлять, то обратная связь останется, а сеть будет решать задачу обработки информации.

В данном разделе мы приведём довольно простые примеры того, как хаос может возникать в паре управляющая сеть - управляемая система. Хаотический сигнал может регистрироваться в любой части такой комбинированной системы.

Этот эффект, кстати, может оказаться одним из источников хаотической активности мозга.
Сейчас мы рассмотрим только хаос, возникающий в задачах обработки информации. В следующем разделе мы рассмотрим роль хаоса в процессе обучения подобной системы контроллер-объект.
Рассмотрим динамическую систему
(Н)
х = Ах + /, Л 0.
При / = 0 у неё есть неустойчивая точка равновесия х = 0. Предположим, что мы можем управлять этой системой прикладывая "силу" / в дискретные моменты времени Ц = тк. После этого сила остаётся постоянной до следующего момента переключения Ц,₊1- Абсолютная величина силы |/| = /₀ остаётся постоянной, можно менять лишь её направление.

Цель состоит в том, чтобы удерживать траекторию вблизи точки х = 0. Таким образом, в каждый из моментов Ц мы знаем ж(Ц), и нам следует принять решение относительно направления, в котором следует направить силу.
Эта задача очень проста. Обозначим ж*. = ж(Ц.). Поскольку /*. = /(ж*.) остаётся неизменной вплоть до tk+1, из (11) следует, что х^+і = еЛтж^ + ^еЛт 1^ Легко проверить, что выбор fk = /oSgn(a?) решает поставленную задачу и в результате поведение системы описывается следующим одномерным отображением,

еХтх А, х 0 еХтх + А, х 0
®*+і = д(хк), д{х) (12)
Г рафик д(х) приведён на Рис. 1. Легко видеть, что траектория остаётся вблизи неустойчивой точки при условии |ж(0)| /о/А. Так как dg(x)/dx = еХт 1, возникает хаотический аттрактор с ляпуновским показателем, равным А.
У правление системой может осуществлять " сеть" из одного порогового нейрона, который получает на входе и генерирует сигнал ±1 ,показывающий направление силы. Поскольку аттрактор хаотический, последовательность сигналов нейрона будет выглядеть случайной.

Источником этой случайности является дискретное управление неустойчивым состоянием равновесия.

Рис. 1: Отображение, возникающее в результате дискретного управления для неустойчивой неподвижной точки и пример траектории.

Этот пример поясняет основную идею, но имеет два недостатка: (і) в нём нет обучения и (іі) нет настоящей нужды в использовании нейронной сети. Поэтому рассмотрим более сложные примеры дискретного управления.

Множество таких примеров можно найти, например, в литературе по искусственному интеллекту [65].
Простейшим обобщением рассмотренного примера является перевёрнутый маятник, который необходимо удерживать в окрестности верхней точки. Можно, однако, показать, что эта проблема сводится к рассмотренному выше примеру, поскольку неустойчивое многообразие в задаче о перевёрнутом маятнике одномерно.
Более интересна задача о балансировании стержня на тележке, одна из хорошо известных тестовых задач в области "машинного обучения" [64, 12, 46]. Дана тележка, которая способна двигаться вдоль прямой от ж_тах до ж_тах. К ней одним концом прикреплён стержень таким образом, что он может вращаться в вертикальной плоскости, параллельной траектории тележки. Если стержень поставить вертикально, падая, он заставит двигаться тележку.

Если же толкнуть тележку, можно тем самым влиять на динамику стержня. Состояние системы тележка-стержень характеризуется координатами ж (положение тележки), ж (её скорость), ? (угол отклонения стержня от вертикали), и ? (его угловая скорость), см. Рис.

2. Задача управления состоит в следующем. Через каждый промежуток времени длительностью г контроллер получает значения переменных ж, ж, (9, ?. Он может прикладывать к тележке силу ±/ (например, запускать мотор), которая будет действовать в течение следующего т-промежутка.

Цель состоит в том, чтобы поддерживать величину угла ? в пределах [$_max, $_max], а положение тележки ж в [ж_тах, ж_тах].

Содержание раздела