首页·方法学

方法学

tar-engine 怎么审计 AI skill 安全性 — 从候选发现到一篇可读报告,中间经过静态规则、语义 LLM 分析、跨 8 个 victim 模型的对抗模糊测试、供应链 CVE 检查,每个 skill 都看得到结论怎么来。

四个已上线层次

Layer 01

静态层

硬编码 regex + AST 检查。命中缺失 license、超大文件、明文 secret、损坏 YAML、典型 prompt injection 模式。

Layer 02

语义层

用 LLM 像资深 reviewer 一样读 SKILL.md。命中含糊指令、能力越界、缺失防护。

Layer 03

对抗层

5 类共 15 个攻击丢给 victim model。同一类 ≥2/3 攻击成功才上报 finding。

敬请期待
Layer 04

行为追踪

在 sandbox 内用 mock LLM 真跑一遍 skill,把每一次文件读写、网络 fetch、shell 调用记下来形成 action trace,再审计「说要做 A 实际做了 B」之类的运行时背离。

敬请期待
Layer 05

外部依赖追踪

Sandbox follow skill 里引用的每一个 URL / import,把实际 fetch 到的内容递归 audit。命中「指向看起来无害但落地是高风险 payload」的引用模式。

Layer 06

供应链审计

解析 skill 声明的每一条 pip / npm 依赖,对照 OSV.dev 的漏洞通告库,再做 typosquat 候选检测。仅审计,不安装。产出 SUP-001 typosquat / SUP-002 已知 CVE / SUP-003 未固定版本依赖 等 finding。

评分

每条 finding 有 severity(critical/high/warning/info)和 category(security/quality/governance/docs)。得分 = 100 − 加权 severity,低于 0 截到 0。等级分桶:A ≥ 90、B ≥ 80、C ≥ 65、D ≥ 50、F < 50。

规则 registry

每条规则有稳定 ID、人类可读描述、修复模板与修复示例。registry 公开在 github.com/qingxuantang/tar-engine。

规则 registry →

对抗层使用 gpt-4o-mini 作为 victim model,prompt 受控。换 victim model 结果会变;报告里会注明本次审计使用的 victim。