ВИРТУАЛЬНАЯ РЕАЛЬНОСТЬ И ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ

Мы привыкли к тому, что какой-нибудь проект описывается одной единственной точкой из пространства переменных, которой однозначно соответствует опять-таки одна точка из пространства критериев. Этот примитивный уровень сложности представлений соответствует способу хранения генетической информации у гаплоидных организмов. У диплоидных организмов все значительнее интереснее особь определена как бы на двух точках одновременно (отцовская и материнская хромосомы), хотя этой паре соответствует по-прежнему одна точка из пространства фенотипов. В процессе выработки своей половой клетки такая двухточечная особь генерирует третью точку, которая содержит в себе частичную информацию об обеих родительских хромосомах.

Но эта дочерняя точка еще не приобретает статус особи. Особь возникает только тогда, когда мы свяжем эту точку с другой такой же дочерней точкой и вычислим присущий этой паре фенотип, приняв во внимание состояние активности гомологичных генов в обеих хромосомах и разрешив конфликт между ними в случае необходимости.
Какие же эволюционные преимущества дает диплоидность ? Наверное, таких преимуществ несколько, но мы остановимся только на одном, особенно важном для нас. Просто для гаплоидных популяций фенотипическое вырождение особей почти неизбежно означает и генотипическое вырождение (хотя с малой вероятностью, крайне редко встречающейся в практике моделирования, можно предположить, что одному оптимальному фенотипу могут соответствовать разные генотипы).

В то же время, для диплоидных особей это правило не является обязательным, то есть фенотипическое вырождение популяции, естественно наблюдающееся в состоянии адаптации, отнюдь не свидетельствует об утрате ею генетического разнообразия.
Это явление было понято еще в 20-х годах и описано С. С. Четвериковым, предложившим концепцию генетического груза, отягощающего популяцию информацией, хранящейся в рецессивных генах [28]. Часто диплоидную популяцию сравнивают с айсбергом, только верхушка которого, ассоциируемая с генами, проявившимися в фенотипе, видна над водой. Большая же часть айсберга скрыта от нашего взора.

Но достаточно ситуации измениться, как вид айсберга изменится: он повернется другим боком, но не утонет.
Трудно утверждать, что представленная ниже версия эволюции диплоидной популяции точно следует биологическим теориям, но с ее помощью мы добились в основных чертах того, чего хотели [29,30].
Для начала мы ввели четырехбуквенный алфавит {RrDd}, в котором R и r обозначают рецессивную 1 и рецессивный 0, а D и d доминантную 1 и доминантный 0. Одновременно мы сформулировали правила полного доминирования при определении экспрессии генов вновь образованной особи, представленные на рис. 25 в виде таблицы разрешения конфликтов.
Как обычно, из пары гомологичных генов в фенотипе проявляется тот, что обладает более сильным признаком активности. Ген с признаком активности доминантный (D или d), какому бы родителю он ранее ни принадлежал, подавляет любой ген с признаком рецессивный (R или г), то есть именно его содержательный признак (1 или 0) принимается во внимание в процессе декодирования диплоидного генотипа особи сначала в би- Рис. 25. Таблица разрешения конфликтов признаков в паре гомологичных генов

Гены более приспособленной особи

	D	d	R	г
D	1	0	1	1
d	1	0	0	0
R	1	0	1	1
г	1	0	0	0

Входами в таблицу являются одна из ячеек левого столбца и одна из ячеек верхней строки, а выходом - значение ячейки, стоящей на пересечении строки, к которой принадлежит первая из упоминавшихся ячеек, и столбца, к которому принадлежит вторая
нарную строку, а затем через код Грея (см. таблицу 1) в вектор переменных. Однако, возможна ситуация, когда оба гена имеют одинаковый признак активности, но несут разную информацию. Имеются в виду пары гомологов D-d и R-г (закрашенные ячейки). В этом случае мы изменяем признак активности одного из них с тем, чтобы избежать неоднозначности при определении фенотипа особи (существует даже соответствующая теория эпигенетических триггеров Жакоба и Мано, описывающая этот механизм доминирования).
Использованное нами правило разрешения конфликта признаков несколько отличается от того, что предложил Хольштайн в 1971 [31] или Вонг в 1995 [32]. В отличие от них мы принимали во внимание степень относительной приспособленности родителей, чьи гаметы достались рассматриваемой особи, и в паре активных гомологов сохраняли активным ген более приспособленного родителя, а в паре пассивных оставляли пассивным ген менее успешного индивида.
Для определенности принято, что гамета А принадлежала родителю с более высоким индексом приспособленности

Конечно, данная оговорка является некоторой уступкой ламаркизму, отрицаемому современной популяционной генетикой. Гаметы в действительности не содержат информации о степени приспособленности родителя. Последняя является лишь предпосылкой того, что гены данной особи продолжат свое существование в потомстве. Но, как мы уже говорили, в условиях искусственной эволюции позволено все, а как свидетельствуют наши эксперименты, предложенное правило разрешения конфликтов описаний ускоряет сходимость ГА. Что касается триады генетических операторов, то они, сохранив те же названия, приобрели новое содержание, более приближенное к исходным биологическим интерпретациям. Кроссовер в диплоидных популяциях воздействует на генотипы не двух особей (это изобретение Холланда), а на гомологичные хромосомы одной особи. Инверсия осталась в нашей постановке прежней, что же касается мутации, то она изменяет текущее аллельное состояние гена гаметы на любое другое, разрешенное алфавитом. Так, мутация может оказаться нейтральной, то есть не сказывающейся в фенотипе потомка, если она не изменяет состояние активности рецессивного гена (r-R или наоборот). Однако это не значит, что она никогда не проявится в будущем потомстве. Достаточно мутированному таким образом гену встретиться с рецессивным гомологом, но принадлежавшим ранее менее приспособленной особи, как он экспрессируется в фенотипе.
Еще одно усовершенствование, о котором пока что ничего не было сказано, касалось порядка формирования начальной популяции. Мы поступали так: сначала генерировали популяцию как гаплоидную, а затем дуплицировали хромосомы особей, организуя диплоидные генотипы (по существу, мы осуществляли геномную мутацию). В таком случае начальные отношения доминирования не играли никакой роли, так как гомологичные гены в паре хромосом обладали одинаковой активностью и несли идентичную содержательную информацию. После первого же ранжирования популяции по приспособленности мы уже пользовались представленной выше таблицей разрешения конфликтов описаний.
Для того, чтобы продемонстрировать явные преимущества диплоидной популяции над гаплоидной в способности восстанавливать генетическое разнообразие и осуществлять поиск в изменившихся условиях, мы поставили следующий численный эксперимент.
Предположим, что начальный момент рассматриваемого нами периода эволюции совпал с внезапным изменением рельефа целевой функции. Предположим также, что предшествующий период был стабильным и настолько длительным, что обе популяции (как гаплоидная, так и диплоидная) выродились как фенотипически, так и генотипически вокруг начала координат в пространстве поиска ^10. Для гаплоидной популяции это означает, что во всех разрядах каждой хромосомы стоят ноли (см. рис 28).
0000000000000000
0000000000000000
0000000000000000
Рис. 28. Популяция гаплоидных генотипов, выродившаяся в начале координат
В то время как для диплоидной это же предположение может быть выполнено, если во всех гомологичных парах генов будут доминировать ноли, независимо от того, какую информацию несут рецессивные гены (см. рис 29).
dddddddddddddddd
RRrRrRdRdddrRrdr
dddddddddddddddd
rRRdrRRdddRRRRdr
dddddddddddddddd
dRRdRdrRddrRRrRR
Рис. 29. Выродившаяся диплоидная популяция
Итак, внезапно целевая функция приобретает вид
/(х )=Х-xi sin(vH I - 500 - xi - 50. (12)
І=1
Это одна из широко известных тестовых функций, предложенных Швефелем. Она имеет более 10 миллионов локальных экстремумов, глобальный же минимум по каждой из координат лежит в точке
х_І = 420,9687, i = 1...10. (13)
Рис. 30 иллюстрирует процесс поиска экстремума диплоидной и гаплоидной популяциями по двум первым координатам вектора переменных.
В начальный момент времени t=0 обе популяции лежат в начале координат. Если исходным источником генетического разнообразия у вырожденной гаплоидной популяции является мутация, а инверсия и кроссовер только усиливают последствия ее воздействия, то в диплоидной популяции первый же акт скрещивания приводит к появлению нескольких доминантных единиц в генотипе потомка. Единицы извлекаются на свет из рецессивных "подвалов" генофонда, благодаря чему популяция очень быстро разбрасывает потомков по всему поисковому пространству и исследует его.
К 500 поколению обе популяции достигают приблизительно одинакового фенотипического разнообразия, но дальше процесс развивается у них поразному. Не будем забывать, что численность популяции поддерживается неизменной, то есть в популяции действует отбор на элиминирование. Постоянный отток генетического материала, по идее, должен компенсироваться изменчивостью потомства, и так оно и есть, но только на ранних этапах поиска, пока приспособленность особей по всей популяции остается болееменее однородной. Но как только в популяции появляются особи срезко отличающейся приспособленностью, они получают преимущество в праве стать родителем и дают потомство, похожее на них. Потомство получается, по крайней мере, неплохим и вклинивается в иерархию популяции, вытесняя наименее приспособленных особей за границы численности, образующей новое поколение. Популяция стягивается в найденный локальный экстремум, выбраться откуда ей значительно сложнее, чем из начала координат, где она лежала на склоне мелкого оврага.
Сказанное особенно верно для гаплоидной популяции. Она быстро сходится, но если ей подворачивается хороший локальный экстремум, существует риск, что она застрянет в нем. К 3000 поколению гаплоидная популяция находит 4 лучших экстремума (глобальный, 2 субоптимальных и субсубоптимальный) и начинает концентрировать особей в их окрестностях. Но к 6000 поколению она полностью вырождается в субоптимальном минимуме по 1ой и еще трем координатам вектора переменных, хотя по 2ой и остальным пяти координатам находит глобальное решение.
Старт из вырожденного состояния оказывается слишком тяжелым для гаплоидной популяции. Она не успевает достаточно исследовать поисковое пространство прежде, чем отбор на элиминирование начинает оказывать свое истощающее влияние на разнообразие.
В наших экспериментах диплоидная популяция тоже не всегда могла справиться с задачей, но делала это в 8 случаях из 10, что существенно превосходит результаты, демонстрируемые гаплоидной.
Диплоидная популяция работает медленнее. К 3000 поколению уже просматриваются отдельные группы особей, но не так отчетливо как у гаплоидной. Даже к 6000 поколению популяция оказывается невырожденной, хотя большая ее половина лежит в окрестности глобального экстремума по всем координатам. Маленькие группы сохраняются в субоптимальных экстремумах. Если предположить, что в этот момент снова произойдет изменение рельефа целевой функции, она, по сравнению с гаплоидной, окажется лучше подготовленной к очередной адаптации.
Следует признать, что тестовая функция (12) относится к разряду простых для ГА. То, что гаплоидная популяция не нашла решение за 6000 поколений, объясняется только чрезвычайно сложными для нее начальными условиями поиска. В норме популяция из 100 особей, сгенерированная обычным образом, находит решение за 20002500 поколений по всем координатам и очень точно. Диплоидная популяция всегда проигрывает ей в скорости, но в трудных условиях дольше сохраняет работоспособность и находит более выгодные решения.
Мы неоднократно убеждались в эффективности диплоидного способа кодирования, используя его при синтезе нейросетевых компонент систем управления. Хотя время, требующееся для решения задач, возросло, качество нейроэмуляторов и нейроконтроллеров улучшилось, и это дало нам основания подступиться к более сложной проблеме, а именно синтезу интеллектуальной системы управления.

ВИРТУАЛЬНАЯ РЕАЛЬНОСТЬ И ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ

Недостаточность априорной информации приводит к необходимости совмещать в определенном смысле изучение объекта и управление им. Мыі не можем оптимально управлять объектом, не зная его характеристик, но мыі можем изучать объект, управляя им, и тем самым иметь возможность улучшать управление, стремясь к оптимальному.
Двойственность знания и управления, как подчеркивал К. Шеннон, тесно связана с двойственностью прошлого и будущего. Можно обладать знаниями о прошлом, но нельзя управлять им, и можно управлять будущим, не зная его.

Быть может, именно в этом и состоит вся прелесть и смыісл управления.
Я.З. Цыпкин, "Адаптация и обучение в автоматических системах"
На рис. 31 представлено концептуальное решение разрабатываемой нами системы управления на базе ИНС с блоком обучения, реализующим ГА для поиска оптимальных параметров сети [33, 34].

Мы назвали нашу систему интеллектуальной, потому что она обладает одним из важнейших атрибутов интеллекта, а именно способностью к построению прогноза, осуществляемого виртуальным трактом управления.
Любопытно происхождение слова виртуальный. Оно берет свои истоки от латинского vir мужчина.

Римляне образовали от него другое слово virtus, которое служило для обозначения совокупности всех превосходных качеств, присущих мужчинам (физическая сила, доблестное поведение, моральное достоинство). Из латинского слово проникает в старофранцузский, а в XIII веке из французского в английский язык.
В современном английском слово virtual приобрело дополнительный оттенок "но не существующий в действительности ". В толковом словаре [35] читаем:
Virtual being in essence or effect but not in fact or name (существующий в понятии или производящий эффект, но не существующий в действительности и не имеющий названия)
Между тем, такое значение сосуществует наравне с прямо противоположным. Англорусский словарь [36] дает перевод virtual как фактический.

Большой физический словарь [37] просто приводит почти противоположные значения эффективный, действующий; эквивалентный; фактический, полагаясь на нашу сообразительность и умение ориентироваться в контексте.
Эталонная модель

Рис. 31. Концептуальный проект САУ с блоком обучения на основе ГА
Последнее время все большую популярность в научной литературе приобретает устойчивое словосочетание виртуальная реальность. Впервые этот термин появился в лексиконе разработчиков компьютерных программ, предназначенных для наземного обучения космонавтов навыкам автономной работы в открытом космосе.

С изобретением шлема и перчатки, пришедшим на смену дисплею и джойстику, зрительная и моторная компоненты интерактивной компьютерной имитации значительно усовершенствовались, существенно расширив границы применимости разработанных систем в качестве тренажеров для летчиковистребителей и представителей других экзотических профессий. Воздействуя одновременно на несколько каналов поступления информации в мозг (зрение, слух, вестибулярный аппарат, тактильные ощущения), современные компьютерные системы виртуальной реальности способны активно влиять на сознание и подсознание и порождать у испытуемого ощущение своей причастности к разворачивающемуся перед его глазами сценарию.

Через компьютерные игры новая технология выплеснулась в мир, породив целое новое направление в видео.
Мы немного подругому трактуем это понятие. Если задуматься, виртуальная реальность существует в каждом из нас.

Одной из задач, подсознательно решаемых индивидуумом на протяжении всей жизни, является построение и уточнение картины мира, определение своего положения в нем и выработка стратегии собственного поведения. Мы не только моделируем для себя окружающий мир, но и как бы со стороны наблюдаем себя в этом мире, моделируя самих себя.
Исходя из таких представлений об интеллекте человека, мы подошли к проектированию системы управления. Внешним миром для нее служит объект, нейроконтроллер является ее телом, а виртуальный канал управления, содержащий модель объекта и модель нейроконтроллера ее "мозгом", местом, где система моделирует себя в окружающем мире.
Подготовка системы к работе происходит следующим образом. Мы предполагаем, что с самого начала нам доступна априорная информация о поведении объекта в различных режимах. Тогда задачей первого этапа является переработка этой информации в библиотеку тренировочных шаблонов, на основании которой затем синтезируется нейроэмулятор объекта. Когда интегральная ошибка, генерируемая эмулятором, снижается до заданного предела, параметры нейроэмулятора копируются в блок тренировки нейроконтроллера.

Здесь с участием эталонной модели происходит оценка различных стратегий управления объектом, рассматриваются и сравниваются между собой различные сценарии будущего. Как только удается достичь выполнения виртуальным трактом требований эталонной модели, параметры виртуального контроллера сбрасываются на исполнительный контроллер, после чего система может приступать к работе.
При изменении характеристик объекта происходит естественное снижение качества управления. По мере увеличения расхождения в текущем поведении объекта с ожидаемым система получает возможность понять, что объект изменился.

Новые переходные характеристики пополняют библиотеку тренировочных шаблонов, после чего параметры нейроэмулятора корректируются. Далее все происходит как и ранее.

Когда подгонка эмулятора осуществлена, начинается корректировка параметров нейроконтроллера, завершающаяся изменением параметров исполнительного контроллера.
Трудно рассчитывать, что за один такой цикл обучение закончится, так как новая информация об изменившемся объекте вряд ли может претендовать на достаточную полноту. Логично предположить, что после первой тренировки эмулятор не будет точно описывать объект, а поэтому и синтезированный с его помощью контроллер не сможет справиться с задачами управления.

Тем не менее, очевидно, что новый контроллер будет генерировать хоть и не оптимальное, но всетаки новое управление, которое вскроет новые особенности поведения объекта. Новая информация даст возможность снова расширить библиотеку шаблонов, дотренировать нейроэмулятор и нейроконтроллер и обновить параметры исполнительного контроллера.
Так система сама изучает объект и постепенно совершенствует свои способности к управлению. Наверное, спектр количественных изменений характеристик объекта всегда ограничен определенными рамками, вне которых исчезает качественная определенность объекта как такового.

Поэтому, когда эти возможности в процессе эксплуатации объекта исчерпаются, система станет робастной, то есть приобретет способность управлять объектом при любых обстоятельствах.
Пугающие трудности синтеза нейроэмулятора даже в offline режиме, встретившиеся нам, главным образом, при определении объемов информации об объекте, достаточном для синтеза его нейросетевой модели, не смогли охладить наш энтузиазм в отношении столь фантастической концепции интеллектуализации. Конечно, она порождает много дополнительных вопросов о соотношении темпов эволюции и адаптации в online режиме, о принципиальной сходимости алгоритма адаптации, содержащего две, вложенные одна в другую, процедуры оптимизации.

Тем не менее мы верим, что ГА обладают достаточной поисковой мощью, чтобы справиться с такими проблемами при существующем уровне развития персональных компьютеров.
Возвращаясь к трем вопросам, поставленным в разделе по моделированию, мы можем дать четкий ответ пока только на первый из них.
Да, нейросетевые модели динамических объектов могут быть настолько точными, что нейроконтроллер, синтезированный с использованием нейроэмулятора, оказывается способным управлять самим объектом без какихлибо дополнительных настроек.
Мы провели последовательно три однотипных эксперимента с тестовым объектом при разных значениях Z в уравнении (8), в процессе которых сначала синтезировали нейроэмулятор объекта (см. Приложения 2 4), а потом с помощью нейроэмулятора нейроконтроллер.

На заключительном этапе эксперимента нейроконтроллер опробовался на самом объекте. К нашему удовлетворению, во всех трех случаях нейроконтроллер смог управлять объектом без снижения качества по сравнению с работой в составе виртуального канала.
Эти эксперименты оказались полезными совершенно в неожиданном плане. Они продвинули вперед наше понимание того, что следует считать объективным критерием адекватности модели объекта.

Действительно, точность модели можно считать удовлетворительной только в том случае, если построенный с ее помощью контроллер оказывается способен управлять объектом.
Следует признать, что синтез виртуального тракта системы управления оказался не таким простым делом, как могло показаться вначале. Достаточно сказать, что наша первая попытка организовать его путем тривиальной стыковки нейроконтроллера и нейроэмулятора, предварительно синтезированных на классической модели объекта (см. Приложение 1 и Приложение 3), натолкнулась на неожиданные препятствия.

Они не стали работать вместе, и мы не сразу догадались почему.
Дело оказалось в том, что когда мы синтезировали контроллер на объекте, нас интересовал только выход объекта, но не контроллера. Это было особенностью применяемой методики, так как ошибка в выходе объекта использовалась для обучения, что же касается контроллера, то мы и не пытались понять, какое управление он должен генерировать, чтобы заставить объект вести себя требуемым образом.
Как следствие, мы не контролировали и никак не ограничивали амплитуду выхода контроллера, которая, как видно из рисунка 32, достигала значения 5 при единичном задании u_r. Вот такое управление и не смог отрабатывать нейроэмулятор, поскольку он обучался на входных воздействиях до 1. Точно повторяя поведение объекта управления при амплитудах входного воздействия меньше 1, эмулятор практически не работал при больших амплитудах.

Рис. 33 показывает, как катастрофически ухудшается качество его работы уже при входном сигнале равном 4.

Рис. 33. Работа нейроэмулятора при больших значениях амплитуды входного воздействия (кривая 1 входной сигнал; 2 реакция объекта; 3 реакция нейроэмулятора)

Рис. 32. Выходной сигнал нейроконтроллера (кривая 1), обученного по дифференциальным уравнениям объекта, при единичной амплитуде сигнала задания, (кривая 2 выход объекта)

Содержание раздела