d9e5a92d

Модели - аналогии кибернетических систем

П
(6.14) n(t) = ПH (t) = n0 exp (- I(t)),
i =1
где n
i =1
(6.15) I(t) = ^ Ii (t).
i =1
Если предположить, что характеристики элементов и темп поступления информации постоянны, то есть постоянно количество информации, перерабатываемое каждым элементом в единицу времени: Ii(t) = ?і t, то (6.14) переходит в классическую экспоненту
n
с показателем I(t) = t І? .
i =1
А. Гипотеза о монотонном уменьшении числа допустимых состояний не снижает общности приведенных рассуждений, так как в случае их роста получится выражение вида
n(t) = n? (1 - e -I(t'),
примерно с теми же промежуточными выкладками.
Результаты моделей 6.2, 6.3, 6.5, 6.6, и 6.8 могут рассматриваться как частные случаи модели 6.9.
Во всех моделях настоящего раздела скорость научения определяется количеством накопленной информации, поэтому для увеличения скорости научения, в рамках рассматриваемой модели, целесообразно выбирать как можно больший темп передачи информации. Следует, однако, учитывать, что в реальных системах превышение некоторого порогового (для обучаемой системы) объема поступающей информации может оказать отрицательное влияние и снизить эффективность научения (аналог эффекта интерференции навыков). -
Таким образом, в теоретико-информационных моделях итеративного научения экспоненциальный характер кривых научения обусловлен постоянством количества информации, обрабатываемой, передаваемой, усваиваемой и т.д. элементами системы в единицу времени.

Модели - аналогии кибернетических систем

Отличие моделей итеративного научения, рассматриваемых в настоящем разделе, от описанных выше заключается в том, что объектами исследования являются не живые системы, изучение которых основывается на гипотетических аналогиях и предположениях о зависимости между параметрами элементов и обучаемой системы, а кибернетические системы - автоматы, алгоритмы, нейронные сети и др. Другими словами, при построении математических моделей итеративного научения биологических систем выше использовались аналогии с физическими явлениями, те или иные интуитивные предположения и т.д.

В моделях - аналогиях кибернетических (абстрактно-логических моделях, не реализованных материально, в отличие от технических) систем принципы функционирования последних с одной стороны переносятся (на уровне гипотез) на моделируемые системы, а с другой стороны многие кибернетические системы используют аналогии с системами живой природы.
Проведенное разделение не случайно. Например, конечные автоматы и нейронные сети нашли широкое распространение в теории управления, прикладной математике и других областях науки не только как модели живых систем, но и как объекты, заслуживающие самостоятельного изучения и используемые при синтезе управляющих систем, распознавании образов и т.д. [68? 72].

К этому же классу моделей мы относим и модели, использующие аналогии с методами оптимизации - существует целый ряд моделей ИН, в которых предполагается, что природа использует тот или иной алгоритм для снижения, например, значения рассогласования. С другой стороны, если мы хотим на основании анализа поведения, например, нейронной сети при ее научении [34] сделать какие-то выводы о поведении человека и животных при итеративном научении, то необходимо понять какое отношение исследуемая кибернетическая система имеет к сети нейронов в мозге человека.
При этом, однако, надо четко понимать, что искусственные системы ведут себя тем или иным образом не сами по себе, а в строгом соответствии с теми правилами и алгоритмами, которые были в них заложены человеком - создателем системы.
Первым использованием методов поиска экстремума при анализе и моделировании поведения биологических систем является, по-видимому, метод оврагов [32], в котором все переменные (параметры системы) разбиваются на два качественно различных класса - существенные и несущественные. Одни из них характеризуются тем, что при их изменении значение минимизируемой функции изменяется достаточно быстро (спуск по склону оврага - поверхности функции), а другие - достаточно медленным изменением минимизируемой функции (спуск по наклонному дну оврага).

Соответственно, для максимально быстрого достижения минимума нужно насколько возможно быстро двигаться именно по дну оврага (отметим, что здесь и в ходе дальнейшего изложения мы не будем обсуждать локальность алгоритмов, их сходимость и т.д. [39], ограничиваясь лишь качественным анализом).
Модель 7.1.
О(Г, Ф, В). Предположим, что алгоритм минимизации рассогласования использует метод поиска корня (некоторой функции fx) на отрезке [a; b]) делением отрезка пополам. Оценка сверху рассогласования (в зависимости от числа итераций) дается выражением xn ? (b - a) / 2n, то есть xn ? a e ~7n, где


a = exp (log2 (b - a) In 2), 7 = In 2.
А. Примерно экспоненциальную сходимость (для достаточно хороших функций - см. более подробно, например [39]) имеют не только дихотомические методы поиска корня, но и многие другие. -
Модель 7.2.
О(Г). Предположим, что рассогласование системы в момент времени n определяется как среднее арифметическое текущих значений рассогласований всех N элементов.
Пусть рассогласования всех элементов в начальный момент времени равны единице, неотрицательны в любой момент времени, и в n-й момент времени рассогласование /-го элемента x;(n) может принимать с равной вероятностью любое значение, меньшее xi (n -1).
Ф(В). Тогда, если определить рассогласование всей системы 1 N
как XN(n) = ^ xi (n), то, если число элементов достаточно
N i=i
велико, то рассогласование системы Xn = Xn-1 /2 n, n = 1, 2,
Xo = 1.
А. Предположение о невозрастании рассогласований элементов вполне соответствует известному принципу не упускать достигнутого [93, 94]. В то же время, использование среднего арифметического в качестве значения рассогласования системы и предположение о равновероятности допустимых значений рассогласований элементов представляются не очень обоснованными. Стоит отметить некоторую близость рассматриваемой модели к моделям 5.1 и 8.4. -
Модель 7.3. (О.М. Аттли [15]).
О. Техническая система, изменяемыми характеристиками которой являются вероятности (определенных действий, состояний, реакций и т.д.).
Г. В зависимости от успеха или неуспеха на шаге n, на шаге n + 1 вероятность p определяется следующим образом:
Г Pn + a (1 - Pn )
Pn+1 = \ .
I Pn - P Pn
Ф(В). Предположим, что, если на n-ом шаге выбирается правильное действие (с вероятностью Pn), то вероятность успеха равна P (соответственно, неуспеха - (1 - p)).

Если выбирается неправильное действие (с вероятностью (1 - Pn)), то вероятность успеха равна q. Тогда ожидание успеха на (n + 1)-ом шаге равно: Vn+1 = Vn (Pn+1 P + (1 - Pn+г) q).
Подставляя закон изменения вероятности, получим, что Vn экспоненциально изменяется со временем (см. модель 4.2.).
А. Экспоненциальный вид кривой, отражающей изменение ожидаемого успеха обусловлен линейным изменением вероятности. В 50-60-х годах, в период бурного развития кибернетики, было построено значительное число самых разнообразных обучающихся машин: машины условной вероятности [15], обучающиеся матрицы [91], мышь К. Шеннона (лабиринтная модель), черепаха
Г. Земанека, машина-спекулятрикс (аналог безусловного рефлекса) и CORA (аналог условного рефлекса) Г. Уолтера [80] и др. В большинстве из них использовались линейные законы изменения переменных (в отличие, например, от нелинейных законов, используемых в гомеостате У.Р.

Эшби [93]). Более того, при исследовании общих закономерностей процессов адаптации и обучения в автоматических системах, многие законы обучения (например, линейные алгоритмы оптимального обучения) выбирались также линейными [86, 87]. -
Большой класс обучающихся автоматов составляют так называемые конечные вероятностные автоматы с переменной структурой. Под конечным автоматом понимается объект, имеющий некоторые внутренние состояния, на вход которого могут поступать внешние воздействия и выходной параметр которого может принимать одно из конечного числа значений [24-26].

Внутренние состояния автомата изменяются с изменением входных параметров, а выходные - с изменением внутренних состояний. Для нашего анализа важна способность автомата самостоятельно изменять свою структуру - преобразование вход - внутреннее состояние, вход, внутреннее состояние - выход (естественно, автомат меняет эти законы не по своему усмотрению, а в соответствии с заложенным в него алгоритмом), функционируя в нестационарной среде.

Эта способность позволяет говорить об адаптивности поведения, эффектах коллективного поведения (игры автоматов, иерархические обучаемые автоматы [48, 49]) и наличии некоторого рода научения (понимаемого в данном случае как накопление и переработка информации о внешней среде и выработка целесообразных законов поведения в данных конкретных условиях [85]).
Модель 7.4. (В.И. Варшавский, В.Ю.

Крылов и др. [24, 49]).
О. Вероятностный автомат в момент времени t совершает i-е действие (выбирает i-е выходное состояние) с вероятностью р(),
i = 1, к, где к - конечное число выходных состояний. Цель автомата - максимизировать выигрыш, зависящий от его действий и состояния окружающей среды.

Переменность его структуры означает возможность изменения вероятностей. Понятно, что если в данных условиях (при данном состоянии окружающей среды)
51
было выбрано правильное действие, приведшее к положительному выигрышу, то вероятность выбора этого действия следует увеличить, а вероятности выбора остальных действий, соответственно, уменьшить, так как должно выполняться условие нормировки (ср. с лабиринтной моделью 4.2).
Г. Предположим, что вероятности выбора действий i и j изменяются по закону A±pi(t), такому, что выполнено:
Pi(t + 1) = Pi(t) ± D±pi(t),
Pj(t + 1) = Pj(t) ± D±pj(t), j # i,
причем
D±Pi(t) + 2 A±P](t) = 0.
J * i
Ф(В, А). Если закон изменения D±pi(t) линеен по pi(t), получаем экспоненциальную последовательность. В общем случае, конечно, чисто экспоненциальной кривой наблюдаться не будет, однако, в большинстве случаев при имитационном моделировании наблюдались примерно экспоненциальные замедленноасимптотические кривые зависимости, например, среднего выигрыша от числа сыгранных партий [24, 25]. -
Другим обширным классом кибернетических систем, претендующих на моделирование явлений и процессов, происходящих в биологических системах, являются так называемые нейронные сети.
Алгоритмы научения нейронных сетей условно можно разделить на детерминированные алгоритмы и алгоритмы случайного поиска. Фактически обучение нейронной сети - не что иное как задача минимизации многоэкстремальной функции многих переменных [103].

Число известных на сегодняшний день различных методов обучения (алгоритмов минимизации) и разнообразных конструкции сетей (их архитектур) составляет, как минимум, несколько десятков. Мы рассмотрим некоторые общие подходы к обучению нейронных сетей, не вдаваясь в детали.
Модель 7.5.
О. Нейронная сеть представляет собой несколько слоев нейронов, имеющих логистические или какие-либо другие сигмообразные передаточные функции [103, 108]. Выходы нейронов 52
каждого слоя подаются на входы нейронов других слоев с определенными весами. Вес связи (i, j) - число, на которое перед суммированием на входе j-го нейрона умножается выходной сигнал i-го нейрона. Обучение нейронной сети заключается в подборе (последовательном изменении) весов нейронов, соответствующих решаемой задаче (распознавание сигнала, минимизация функции и т.д.).

Обучение происходит следующим образом: нейронной сети подаются на вход определенные сигналы, выходные сигналы сети сравниваются с нормативными значениями и на основании этого сравнения корректируются веса.
Г(Ф). Достаточно распространенными алгоритмами изменения весов являются алгоритм обратного хода (BP - backpropagation neural network) - сначала изменяются веса нейронов последнего (выходного) слоя, затем предпоследнего и т.д. [112], и так называемый случайный мультистарт (точнее, его модификации - выбирается начальная точка, следующая точка определяется путем добавления к начальной, например, гауссовского случайного вектора и инерционной добавки, сравниваются значения функции ошибки в этих точках и т.д. [97]).
В(А). Справедливости ради, следует констатировать, что в общем случае, веса отдельных нейронов и их ошибки не всегда изменяются замедленно-асимптотическим образом. Однако общая ошибка, которая чаще всего вычисляется как средняя ошибка нейронов, в большинстве случаев изменяется примерно экспоненциально (в частности - при использовании метода градиентного спуска [97]). Понятно, что динамика ошибки зависит как от используемого метода научения, так и от специфики минимизируемой функции [97].

Например, в работе [107] для аппроксимации времени обучения BP-сети предлагается полиномиальная функция. Скорость сходимости к точке минимума функции ошибки (скорость научения нейронной сети) зависит от алгоритма изменения весов нейронов, который, в свою очередь, закладывается конструктором. -
Таким образом, при научении кибернетических систем экспоненциальный характер соответствующих КН обусловлен линейным законом изменения внутренних параметров системы и/или большим числом составляющих ее элементов.

Модели коллективного поведения

В настоящем разделе рассматриваются модели итеративного научения, основывающиеся либо на результатах экспериментальных наблюдений взаимодействия членов коллектива, либо на аналогиях с принципами, используемыми в формальных моделях коллективного поведения.
Модель 8.1. (У.Р. Эшби [94]).
Одной из первых моделей адаптационного взаимодействия элементов является гомеостат Эшби, служащий хорошей иллюстрацией возможностей использования ультрастабильных динамических систем при моделировании свойств нервной системы. Следует признать, что так как при изучении гомеостата основной акцент делается на адаптивность поведения, его кривые научения в ряде случаев не являются замедленно-асимптотическими. Эта модель настолько известна и детально исследована, что мы ограничимся ссылкой на первоисточник [94]. -
Модель 8.2. (М.А. Новиков [58]).
О. Модель гомеостата может быть использована для анализа групповой деятельности операторов. Фактически, отличие от предыдущей модели заключается в том, что компенсация воздействий (внешних по отношению к конкретному оператору) осуществляется не за счет физической обратной связи (устройства прибора), а за счет целенаправленной деятельности каждого оператора, учитывающего действия остальных.
Г(Ф,В,А). Матричное уравнение Гомеостата имеет вид [58]: % = A U, U - матрица положений ручек управления, % - матрица положений стрелок приборов, A - матрица, характеризующая структуру гомеостата и величины коэффициентов взаимной связи (показания каждого прибора являются линейной комбинацией положений ручек управления).

В зависимости от способа соединения операторов (использовались кольцо, звезда, цепь и др.) и числа операторов определяется трудность решаемых задач.
А. При различных структурах трудность решаемой задачи существенно зависит от числа операторов. Предположение о линейности взаимосвязи существенно упрощает модель. При этом, опять же в силу адаптивности, динамика системы не всегда описывается замедленно-асимптотической кривой. -
Модель 8.3. (А. Раппопорт [71]).
О. Параметры самоорганизации в группе из трех испытуемых.
Г. Обозначим Hmax - максимальное значение энтропии системы, H(t) ?Hmax - текущее значение энтропии, h = Hmax - H - количество накопленной информации. Предположим, что скорость накопления информации (приращение информации за одну итерацию или за одну ошибку) постоянна (см. раздел 6) и, что остаточная энтропия равномерно распределена между опознаваемыми объектами.
Ф(В). В соответствии с принятыми предположениями, если
обозначить x(t) - полное число ошибок за время t, то--вероятность ошибки в момент t, - = у H(t) = - M ln(1--) (откуда берутся эти выражения, как справедливо заметил переводчик работы [71], не очень понятно). Если x(0) = 0, то H = ух. В результате получается следующее уравнение теоретической кривой суммарной ошибок:
X = Hmax / У - M / у [eXp(Hmax / M - l) exp (- g t / M) + 1].
А. Справедливость ряда предположений, принятых автором этой модели не очевидна, некоторые утверждения (особенно формальные) нуждаются в объяснении. Тем не менее [71] считается одной из классических работ по экспериментальному и формальному исследованию процессов самоорганизации в коллективах.

Отметим, что полученное выражение определяет зависимость накопленной ошибки от времени. Кривая текущего значения рассогласования будет логистической. -
Достаточной общностью, с нашей точки зрения, обладают теоретико-игровые модели итеративного научения, точнее - модели, использующие результаты теории коллективного поведения.
Прежде чем рассматривать конкретные модели, проведем описание общих принципов. Пусть система состоит из n элементов, каждый из которых может в момент времени t находиться в состоянии Sj(t) е W = [ si ; s+ ]. Предположим, что состояние всей системы однозначно описывается вектором состояний элементов:
П
s(t) = (s1(t), S2(t), Sn(t)), s(t) е W = П Wг, t 0.
i=1
Величину h(t) = [s(t) е W | t t}, то есть информацию о стратегиях всех элементов, выбранных до момента t, назовем историей игры.
Рассмотрим как будут вести себя элементы. Предположим, что существуют некоторые функции (р{-) = {ji(s)}, которые мы будем называть целевыми функциями элементов, отражающие интересы элементов (каждый элемент стремится максимизировать значение свей целевой функции).

Отметим, что целевая функция каждого элемента в общем случае зависит не только от его собственного состояния (выбираемой им или назначаемой ему управляющим устройством стратегии), но и от состояний других элементов, то есть имеет место игра элементов (например, каждый элемент может стремиться минимизировать функцию-индикатор [52, 53]). Мы будем считать, что эта игра некооперативная, то есть каждый элемент выбирает стратегию самостоятельно, не имея возможности договориться с остальными элементами.
Последовательно изменяя свои стратегии, элементы стремятся достичь некоторой точки равновесия. В теории игр существует несколько концепций равновесия. Если мы считаем игру элементов некооперативной, то, целесообразно рассматривать равновесие Нэша (как такую совокупность стратегий, одиночное отклонение от которой невыгодно ни одному из элементов).

Для нашего анализа первичным является не концепция равновесия, а принципы поведения элементов. Под принципом поведения i-го АЭ мы будем понимать правило, по которому он выбирает свою стратегию в момент времени t, зная свою целевую функцию и допустимое множество, зная (а иногда и не зная или зная только частично) целевые функции и допустимые множества остальных элементов и зная (а иногда и не зная или зная только частично) историю игры h(t). То есть
(8.1) si(t) = Fi(W, j, h(t), t), i = 1, П, t 0.
Предвосхищая возможные возражения против наделения элементов обучаемой системы некоторыми интересами, отметим, что, действительно, в активных системах (например, группа взаимодействующих операторов) функции {j, F} отражают интересы элементов системы, а в пассивных системах Fj(-) - не что иное, как закон (иногда неизвестный исследователю) изменения состояний элементов, удовлетворяющий физическим, биологическим и другим ограничениям.
Понятно, что, приняв ту или иную гипотезу о поведении элементов и их взаимодействии, можно рассчитать траектории каждого из них. С ростом размерности системы целесообразность использования такого метода становится проблематичной и возникает желание описать поведение системы в целом (может быть несколько усредненно и не совсем точно), не вдаваясь в подробное описание каждого из элементов.
Интуитивно, такое агрегированное описание в ряде случаев будет оказываться с ростом размерности системы все более точным.
В частном случае (8.1) превращается в динамическую систему
(8.2) Sj = fj(s(t)), i = 1, n, t 0,
или, если время дискретно, систему разностных уравнений:
(8.3) sj(k + 1) = f(s(k)), i = 1,n, к = 0, 1, 2, ... .
В последних двух случаях задача исследования динамики коллективного поведения сводится к изучению свойств динамической системы [65, 66]. В частности, необходимо определить - существует ли точка равновесия (иногда это эквивалентно исследованию существования положения равновесия динамической системы) и устойчиво ли оно, сходятся ли траектории системы к этому положению равновесия (каковы области притяжения различных равновесных точек), какова скорость сходимости и т.д.

На сегодняшний день ответов на эти вопросы в общем случае не существует, и большинство исследований сконцентрировалось на изучении тех или иных частных моделей.
Модель 8.4.
О(Г). Состояния элементов системы удовлетворяют нормальной системе дифференциальных уравнений:
(8.4) si = f(s(t), t), i = 1, n, t 0.
Пусть функции {f} непрерывны и липшицевы (удовлетворяют определенному ограничению на скорость роста) во всей допустимой области.
Ф(В). Для любой допустимой начальной точки решение системы (8.4) существует и единственно. Более того, если решение
(8.4) асимптотически устойчиво, то положение равновесия достижимо за бесконечное время (групповое свойство).
Если {fi} - линейные функции и все собственные значения соответствующей матрицы имеют отрицательные действительные части, то существуют две экспоненциальные функции, ограничивающие траекторию системы (8.4) сверху и снизу. Введение дополнительного предположения о монотонности правой части системы (8.4) приводит к замедленно-асимптотическому виду траекторий ее решения.
А. Липшицевость правой части системы дифференциальных уравнений может интерпретироваться как ограниченность скорости возможных изменений состояний элементов (и, следовательно, рассогласования), приводящая к недостижимости положения равновесия (нулевой ошибки) за конечное время. Для того, чтобы исключить возможность появления точек перегиба, следует ввести достаточно сильное предположение о монотонности правой части. -
Одним из наиболее распространенных и хорошо изученных предположений о рациональном поведении элементов активной системы является гипотеза индикаторного поведения. В соответствии с этой гипотезой на каждой итерации каждый элемент делает шаг в направлении той стратегии, которая была бы оптимальной, если все остальные элементы выбрали бы те же стратегии, что и на предыдущем шаге. В этом случае определим положение цели i-го элемента:
wt(s_t) = arg max jt(st, s_)
sii
где s_i = (s1r s2, ..., si-1, si+i, ..., sn) - обстановка для i-го элемента.
Тогда гипотезу индикаторного поведения можно записать в
виде
Si(k+1) = Si(k) + gk (Wi(s_i(k)) - s,(k)), i = 1,n, k = 0, 1, 2, ... , где параметры 0 ? gk ? 1 определяют величины шагов. Детальное исследование систем, в которых элементы ведут себя в соответствии с гипотезой индикаторного поведения проведено в [6163, 65].
С ростом числа элементов при примерно одинаковом их влиянии на систему в целом, оказывается, что поведение системы определяется некоторым усредненным элементом. При этом нет необходимости исследования всех элементов - значения показателей, характеризующих всю систему оказываются стабильными на достаточно широкой области значений параметров элементов [1, 60]. Возможность такого усреднения (без существенной потери точности описания) представляется достаточно привлекательной, так как число элементов в реальных итеративно научаемых системах, как правило, чрезвычайно велико (при этом не принципиально, что понимать под элементом - нейрон мозга, степень свободы руки и т.д.) [64].

Примером использования методов асимптотического агрегирования при исследовании коллективного поведения (в рамках гипотезы индикаторного поведения) является приводимая ниже модель (читатель, не знакомый с используемым аппаратом, может пропустить приводимые ниже формальные результаты, границы которых отмечены ?).



Содержание раздела