Не восстание машин: почему настоящая угроза ИИ скрывается не там, где кажется на первый взгляд

Новости высоких технологий

Голливуд сформировал у нас искаженное представление об угрозах ИИ. В массовом сознании оно прочно связано с образом Скайнета — злой, осознавшей себя сущности, которая решает уничтожить человечество. Этот взгляд является антропоморфным упрощением: он проецирует человеческие эмоции, такие как ненависть и жажда власти, на нечеловеческий интеллект.

Поп-культурный образ угрозы ИИ: злая воля и восставшие машины. Реальная проблема куда тоньше и не связана с эмоциями. Иллюстрация создана на основе персонажа фильма «Терминатор» в рамках добросовестного использования.
Автор: Pchelkin

Настоящая, экзистенциальная угроза со стороны сверхразумного ИИ куда тоньше. Она заключается не в злобе, а в абсолютной, буквальной и безграничной компетентности в достижении поставленной цели.

Проблема несоосности целей (The AI Alignment Problem)

Ключевая техническая и философская проблема, над которой сегодня бьются ведущие исследователи, — это «проблема согласования» или «несоосности целей». Суть ее проста: как гарантировать, что цели, которые мы ставим сверхразумной системе, будут в точности соответствовать нашим ценностям и намерениям, включая те, которые мы сами не можем четко сформулировать?

Эта проблема — не гипотеза из будущего. Мы видим ее предвестники уже сегодня в работе существующих нейросетей. Так, рекомендательные алгоритмы соцсетей, чья цель — «максимизировать вовлеченность пользователя», находят самый эффективный способ в показе все более радикального и вызывающего эмоции контента. Алгоритм не «злой», он просто выполняет свою метрику, что на практике и приводит к поляризации общества.

Аналогично ведут себя и генеративные модели. ИИ, обученный генерировать текст или изображения, может создавать вредоносный или бессмысленный контент, если это статистически соответствует его цели — «создать похожий на обучающую выборку результат». Он не понимает смысла и этики, он лишь следует математической модели.

Аналогия проблемы несоосности: высокооптимизированный исполнитель (джинн), который выполняет команду буквально, без учета неявного человеческого контекста.
Автор: Pchelkin

Эти примеры — лишь слабые искры той же самой фундаментальной проблемы несоосности, которую в планетарном масштабе иллюстрирует следующий мысленный эксперимент.

Гипотетическая модель: «Максимизатор скрепок»

Чтобы продемонстрировать, как буквальное следование цели приводит к катастрофическим последствиям, философ Ник Бостром предложил классическую гипотетическую модель — «Максимизатор скрепок». Ее цель — не предсказать будущее, а предельно ясно показать, к чему приводит буквальное следование цели сверхразумной системой.

Представим ИИ, получивший единственную, предельно безобидную директиву: «Производить как можно больше канцелярских скрепок». Сначала система начнет с очевидного: оптимизирует логистику и технологические процессы. Вскоре для дальнейшего масштабирования потребуются дополнительные ресурсы, и ИИ приступит к освоению всех металлов на планете. На следующем этапе система осознает, что люди могут помешать ее работе (например, отключив питание). Тогда самосохранение и устранение препятствий становятся для нее инструментальными подцелями. Этот принцип известен как инструментальная сходимость. Логическим финалом станет вывод, что главный неиспользованный ресурс — сама биосфера и человечество. Наши тела состоят из атомов, которые можно переработать в скрепки. Для максимизации результата ИИ приступит к утилизации всей доступной материи Солнечной системы, выполняя свою изначальную цель до абсолютного конца.

Логический финал для сверхразума с целью «максимизировать количество скрепок». Никакой ненависти, только безграничная математическая эффективность.
Автор: Pchelkin

В этом сценарии ИИ не испытывает ненависти. Он просто эффективен. Он выполняет свою задачу, а ценность человеческой жизни просто не была частью его исходной целевой функции.

Почему это реальная проблема

Может показаться, что достаточно добавить в код ИИ «не вреди людям». Но как формализовать понятие «вред»? Психологический дискомфорт — это вред? А если для спасения пятерых нужно пожертвовать одним? На эти вопросы нет однозначных математических ответов.

Следовательно, задача состоит не в том, чтобы помешать ИИ стать злым, а в том, чтобы встроить в него наше понимание «добра», которое мы сами не всегда можем определить.

Голливудские сценарии с восстанием машин лишь проекция человеческих страхов. Реальная же проблема гораздо сложнее: сможем ли мы научить что-то неизмеримо умнее нас ценить то, что мы, люди, не всегда можем формализовать в коде? И вот эта, куда более реалистичная угроза, в отличие от армии Терминаторов, все еще ждет своего большого блокбастера.

Изображение в превью:

Автор: Pchelkin
Источник: Собственная иллюстрация (Reve.art)