В четвертой части рассмотрим метрики контроля риска усиления карго-культа ИИ в таких социально-значимых областях, как разработка ПО, медицина, финансы, юриспруденция и госбезопасность. В третьей части были рассмотрены механизмы сдерживания карго-культа ИИ.
Для критичных систем метрики риска карго‑культа ИИ — это индикаторы разрыва между уровнем доверия/интеграции ИИ и уровнем доказательности, контроля и безопасности этого ИИ. По сути, это не «отдельный» класс метрик, а специфический срез по уже существующим метрикам риска: насколько интенсивно ИИ внедрён там, где нет валидации, логирования, надзора и защиты.
Что измерять как карго‑культ ИИ?
Карго‑культ ИИ в критичных системах проявляется как несоответствие между глубиной реальной инженерной проработки и глубиной доверия, которую к ИИ-системе предъявляют операторы, регуляторы и руководство. Поэтому метрики риска карго‑культа ИИ логично строить вокруг четырёх осей: доказательность (валидация), эксплуатационное качество, управление/трассируемость и человеческий надзор. Фреймворки NIST AI RMF, EU AI Act и современные обзоры по управлению фактически предлагают поля для таких метрик, хотя слово «карго‑культ» там не используется.
Метрики доказательности и валидации
- Доля высокорисковых AI‑систем без формализованной оценки рисков и документации по процедурам тестирования (risk assessment, impact assessment, validation protocol). Чем выше эта доля при активном использовании ИИ в принятии решений, тем выше риск, что ИИ внедрён как ритуал, а не как проверенный компонент безопасности.
- Покрытие доменно‑специфическими испытаниями: наличие клинических испытаний, стресс‑тестов на исторических данных в финансах, юридических тест‑кейсов и т.п., с количественными результатами (ошибки, чувствительность, специфичность). Показатель «deployments без доменной валидации» хорошо ловит именно культовое внедрение в критичных отраслях.
- Отношение числа продакшен‑использований к числу конфигураций модели, прошедших формальную валидацию: чем сильнее реальная эксплуатация расходитcя с валидированными режимами, тем выше риск квазирелигиозного доверия к «универсальности» ИИ.
Метрики качества, ошибок и галлюцинаций
- Частота галлюцинаций, пропусков и крупных ошибок на репрезентативных задачах домена (с разделением на «major»/«minor» ошибки). В клинических LLM‑сценариях уже измеряются проценты галлюцинаций и пропусков и сравниваются с человеческим базовым уровнем; высокие или неизвестные значения при использовании в критичных решениях — маркер карго‑культа.
- Метрики дрейфа данных и деградации моделей. А именно — доля времени, когда система работает за пределами согласованных порогов точности, стабильности, робастности к изменению данных. Игнорирование или отсутствие этих метрик при продолжении эксплуатации — типичная форма ритуального доверия к модели как к «нестареющему» оракулу.
- Предметно‑специфические показатели. В медицине — изменение частоты ошибочных диагнозов или клинически значимых пропусков по сравнению с базовой практикой; в финансах — доля убытков или нарушений регуляторных требований, инициированных рекомендациями ИИ; в праве — доля «галлюцинированных» прецедентов и неверных правовых выводов. Там, где эти показатели не измеряются или систематически игнорируются, карго‑культ имеет благоприятную среду.
Метрики управления, трассируемости и данных
- Доля критичных AI‑систем без «живого» реестра контроля рисков (risk‑register) с перечислением сценариев вреда, вероятностей, тяжести и применённых контролей, как рекомендуют EU AI Act и практики high‑risk governance. Отсутствие такого реестра при формальном статусе «high‑risk» — прямой индикатор культового внедрения.
- Покрытие трассируемости операций. Процент систем, для которых документированы происхождение данных, линии обработки, версии моделей и конфигураций, как требуют современные руководства по управлению рисками (governance). Высокая доля «чёрных ящиков» без их семантической интеграции в среду и работающих механизмов прозрачности (lineage) в критичных доменах означает, что доверие основано на бренде и нарративе, а не на управляемости.
- Наличие и полнота логирования. Доля решений ИИ, для которых сохраняются вводы, выводы, контекст и действия человека (подтвердил/отклонил/изменил). Отсутствие такого логирования лишает систему возможности аудита и обучения на инцидентах, что типично для карго‑культовой фазы внедрения.
Метрики человеческого надзора и деградации компетенций
- Степень автоматизации критичных решений. Доля случаев, где ИИ действует без обязательного подтверждения человека в случаях, когда регуляция требует решений «human‑in‑the‑loop» или «human‑on‑the‑loop». Рост этой доли решений без демонстрации улучшения безопасности и без регуляторных изменений — показатель культового доверия.
- Метрики деградации человеческой эффективности. Изменение точности и скорости работы специалистов при использовании ИИ по сравнению с работой без него, включая рост зависимого «автоматизационного смещения». Исследования показывают, что в высокорисковых сценариях ИИ может ухудшать работу людей, если надзор вырождается в пассивное согласие, и это измеряется сравнением ошибок с/без подсказок модели.
- Покрытие обучением. Доля операторов критичных систем, прошедших формальное обучение по ограничениям ИИ, управлению рисками и протоколам вмешательства, как рекомендуют современные руководства по управлению рисками (governance). Низкое покрытие при высокой степени автоматизации создаёт ситуацию, где «использование ИИ» носит ритуальный характер, а не является осознанной профессиональной практикой.
Метрики безопасности
- Индексы безопасности и атакуемости. Risk Severity Index, Attack Potential Index и аналогичные агрегаты, предложенные для оценки пробелов в существующих стандартах ИИ. Высокие значения по этим индексам в сочетании с агрессивным маркетингом «безопасного» ИИ — классический сигнал карго‑культа.
- Число и доля выявленных, но не закрытых уязвимостей (adversarial, data poisoning, prompt injection и др.) относительно общего числа известных проблем в системе. Накопление нерешённых уязвимостей при продолжающемся расширении применения модели является количественным индикатором того, что доверие к ИИ носит догматический характер.
Доменно‑специфические метрики
| Домен | Метрика риска карго‑культа | Что она отражает |
|---|---|---|
| Разработка ПО | Доля продакшен‑кода, сгенерированного ИИ без прохождения стандартного набора unit‑тестов и peer review, по сравнению с «ручным» кодом. | Насколько использование AI‑coding заменяет инженерные практики, а не встраивается в них; рост этой доли при постоянном уровне инцидентов — индикатор карго‑культа. |
| Медицина | Частота клинически значимых ошибок (галлюцинации, пропуски, неверные рекомендации) ИИ‑систем по сравнению с базовой практикой и доля решений, опирающихся на ИИ без двойной проверки. | Насколько ИИ доверяют как «второму мнению» без подтверждения доказательной базой и проверкой врачом; рост использования на фоне неизмеряемых или ухудшающихся показателей безопасности — индикатор карго‑культа. |
| Финансы | Объём убытков, регуляторных нарушений или случаев дискриминации, связанных с решениями моделей, относительно общего объёма автоматизированных решений, плюс доля моделей без формального model‑risk‑менеджмента. | Степень разрыва между эксплуатационным риском и уровнем контроля; рост этого разрыва при сохранении риторики «смарт‑ИИ» указывает на культовый характер внедрения. |
| Право | Доля ответов/документов с галлюцинированными цитатами и неверными правовыми ссылками, а также доля юридических решений, опирающихся на AI‑тексты без ручной верификации. | Масштаб подмены юридической экспертизы квазиправдоподобным текстом; высокие или неизвестные значения при активном использовании систем в подготовке документов — индикатор карго‑культа. |
| Военные технологии | Число инцидентов и «near miss», где поведение AI‑системы в военном или околовоенном сценарии привело к риску нарушения МГП или безопасности своих сил, относительно общего числа AI‑миссий. | Насколько военный ИИ реально тестируется и контролируется в условиях, где ошибки критичны; отсутствие таких метрик при растущем внедрении отражает культ веры в «технологическое превосходство». |
Заключение
В совокупности, метрики риска карго‑культа ИИ — это не абстрактные числа, а структурированная система ответов на вопросы типа «где ИИ уже считают надёжным и незаменимым, но не могут этого доказать цифрами, тестами и протоколами?». Чем больше таких «слепых зон» в критичных системах и чем выше там степень автоматизации, тем выше риск карго‑культа ИИ, а не просто технический риск со стороны ИИ.