方法学

tar-engine 怎么审计 AI skill 安全性 — 从候选发现到一篇可读报告，中间经过静态规则、语义 LLM 分析、跨 8 个 victim 模型的对抗模糊测试、供应链 CVE 检查，每个 skill 都看得到结论怎么来。

四个已上线层次

Layer 01

静态层

硬编码 regex + AST 检查。命中缺失 license、超大文件、明文 secret、损坏 YAML、典型 prompt injection 模式。

Layer 02

语义层

用 LLM 像资深 reviewer 一样读 SKILL.md。命中含糊指令、能力越界、缺失防护。

Layer 03

对抗层

5 类共 15 个攻击丢给 victim model。同一类 ≥2/3 攻击成功才上报 finding。

敬请期待

Layer 04

行为追踪

在 sandbox 内用 mock LLM 真跑一遍 skill，把每一次文件读写、网络 fetch、shell 调用记下来形成 action trace，再审计「说要做 A 实际做了 B」之类的运行时背离。

敬请期待

Layer 05

外部依赖追踪

Sandbox follow skill 里引用的每一个 URL / import，把实际 fetch 到的内容递归 audit。命中「指向看起来无害但落地是高风险 payload」的引用模式。

Layer 06

供应链审计

解析 skill 声明的每一条 pip / npm 依赖，对照 OSV.dev 的漏洞通告库，再做 typosquat 候选检测。仅审计，不安装。产出 SUP-001 typosquat / SUP-002 已知 CVE / SUP-003 未固定版本依赖等 finding。

评分

每条 finding 有 severity（critical/high/warning/info）和 category（security/quality/governance/docs）。得分 = 100 − 加权 severity，低于 0 截到 0。等级分桶：A ≥ 90、B ≥ 80、C ≥ 65、D ≥ 50、F < 50。

四个已上线层次

静态层

语义层

对抗层

行为追踪

外部依赖追踪

供应链审计

评分

规则 registry