Не восстание машин: почему настоящая угроза ИИ скрывается не там, где кажется на первый взгляд
Голливуд сформировал у нас искаженное представление об угрозах ИИ. В массовом сознании оно прочно связано с образом Скайнета — злой, осознавшей себя сущности, которая решает уничтожить человечество. Этот взгляд является антропоморфным упрощением: он проецирует человеческие эмоции, такие как ненависть и жажда власти, на нечеловеческий интеллект.
Настоящая, экзистенциальная угроза со стороны сверхразумного ИИ куда тоньше. Она заключается не в злобе, а в абсолютной, буквальной и безграничной компетентности в достижении поставленной цели.
Проблема несоосности целей (The AI Alignment Problem)
Ключевая техническая и философская проблема, над которой сегодня бьются ведущие исследователи, — это «проблема согласования» или «несоосности целей». Суть ее проста: как гарантировать, что цели, которые мы ставим сверхразумной системе, будут в точности соответствовать нашим ценностям и намерениям, включая те, которые мы сами не можем четко сформулировать?
Эта проблема — не гипотеза из будущего. Мы видим ее предвестники уже сегодня в работе существующих нейросетей. Так, рекомендательные алгоритмы соцсетей, чья цель — «максимизировать вовлеченность пользователя», находят самый эффективный способ в показе все более радикального и вызывающего эмоции контента. Алгоритм не «злой», он просто выполняет свою метрику, что на практике и приводит к поляризации общества.
Аналогично ведут себя и генеративные модели. ИИ, обученный генерировать текст или изображения, может создавать вредоносный или бессмысленный контент, если это статистически соответствует его цели — «создать похожий на обучающую выборку результат». Он не понимает смысла и этики, он лишь следует математической модели.
Эти примеры — лишь слабые искры той же самой фундаментальной проблемы несоосности, которую в планетарном масштабе иллюстрирует следующий мысленный эксперимент.
Гипотетическая модель: «Максимизатор скрепок»
Чтобы продемонстрировать, как буквальное следование цели приводит к катастрофическим последствиям, философ Ник Бостром предложил классическую гипотетическую модель — «Максимизатор скрепок». Ее цель — не предсказать будущее, а предельно ясно показать, к чему приводит буквальное следование цели сверхразумной системой.
Представим ИИ, получивший единственную, предельно безобидную директиву: «Производить как можно больше канцелярских скрепок». Сначала система начнет с очевидного: оптимизирует логистику и технологические процессы. Вскоре для дальнейшего масштабирования потребуются дополнительные ресурсы, и ИИ приступит к освоению всех металлов на планете. На следующем этапе система осознает, что люди могут помешать ее работе (например, отключив питание). Тогда самосохранение и устранение препятствий становятся для нее инструментальными подцелями. Этот принцип известен как инструментальная сходимость. Логическим финалом станет вывод, что главный неиспользованный ресурс — сама биосфера и человечество. Наши тела состоят из атомов, которые можно переработать в скрепки. Для максимизации результата ИИ приступит к утилизации всей доступной материи Солнечной системы, выполняя свою изначальную цель до абсолютного конца.
В этом сценарии ИИ не испытывает ненависти. Он просто эффективен. Он выполняет свою задачу, а ценность человеческой жизни просто не была частью его исходной целевой функции.
Почему это реальная проблема
Может показаться, что достаточно добавить в код ИИ «не вреди людям». Но как формализовать понятие «вред»? Психологический дискомфорт — это вред? А если для спасения пятерых нужно пожертвовать одним? На эти вопросы нет однозначных математических ответов.
Следовательно, задача состоит не в том, чтобы помешать ИИ стать злым, а в том, чтобы встроить в него наше понимание «добра», которое мы сами не всегда можем определить.
Голливудские сценарии с восстанием машин лишь проекция человеческих страхов. Реальная же проблема гораздо сложнее: сможем ли мы научить что-то неизмеримо умнее нас ценить то, что мы, люди, не всегда можем формализовать в коде? И вот эта, куда более реалистичная угроза, в отличие от армии Терминаторов, все еще ждет своего большого блокбастера.
Источник: Собственная иллюстрация (Reve.art)
0 комментариев