Постановка задачи 1. Дана территория, разбитая на отдельные участки (мы принимаем все участки квадратными, одинакового размера, и далее называем эти участки ячейками). На местности заданы начальная и конечная точки как центры каких-то двух ячеек. Каждая ячейка характеризуется типом t (кодируется целым числом от 1 до N) и стоимостью c, которую приходится заплатить при перемещении агента по ячейке данного типа. Соотношения между типом и стоимостью агенту неизвестны. Типы ячеек Местность Тип Стоимость 1 c1 2 c2 ...... Nт cN 1381 14 2 2. Перемещение агента по местности заключается в последовательных переходах из одной ячейки в другую. Переход возможен в одну из 4 соседних ячеек (сверху-снизу-слева- справа). На каждом шаге своего движения агент осматривает окружающую его территорию и определяет типы ячеек в пределах этой территории t1 – t4. Также агент определяет расстояния r1 – r4 от каждой из 4 возможных ячеек, в которые он может перейти, до конечной точки своего маршрута. Конечная точка t2 t4 Расстояния r1 – r4 t1 t3 Текущее положение агента На основании этих значений агент для каждой из 4 возможных ячеек вычисляет функцию перехода F?ti,ri?, где i – номер соседней ячейки, и в соответствии с полученным значением функции определяет ячейку, в которую он переходит (т.е. для перехода выбирается ячейка с наибольшим значением F). В процессе движения по территории агент ведет учет всех ранее посещенных ячеек. Если одна или несколько соседних ячеек ранее уже были посещены, то для них принимается F=0, что приводит к невозможности повторного перемещения по этим ячейкам. ? j?1 функция содержит N+1 параметров (?1 – ?N и ?). Нахождение значений этих параметров, при которых движение агента по разным типам местности приводит к наименьшим N 3. Функция перехода принимается в виде F?t,r???if?t?j,? ,0 ?r . Таким образом, j ? K затратам W ? ?c (K – количество ячеек, по которым проходит агент в процессе своего k k?1 движения от начальной до конечной точки), является целью обучения агента, а процесс подбора этих параметров составляет его обучение. 4. Для обучения агента используется метод частиц (глава 7 в прилагаемом учебном пособии). При этом W является минимизируемой целевой функцией, зависящей от N+1 параметров (?1 –?N и?).