← 返回手册

WorkBuddy 配置自检 — 6 种评估体系

核心问题:这份配置让系统 更优 还是 更差(相比于空配置)? 基于 SlsDetector(约束检测)、LCWMS(上下文管理规范)及实践经验

评估原点:空配置(纯 WorkBuddy 默认)是一个自然基线——它不会造成问题,但也没发挥潜力。一份「好配置」的净影响应为正。一份「坏配置」可能比空配置更糟(如写了 8 个模型但都缺 maxInputTokens,触发 100K 硬阈值死锁)。
全局最优 = 信息覆盖最大 × 安全边界最宽 × Token 浪费最小三者均衡,且无单点致命缺陷。
方案 1 · SlsDetector 启发的
五维约束检测
约束维度框架 — Xu et al. TOSEM'26

将配置分解为 5 类约束逐项检测。每项只有「违反/通过」,用 CoT 链式推理给出确凿证据。强调「绝对确定」才标错,避免风格偏好误判。

检查维度
评估方式
P/R/F1 每维算 Precision/Recall/F1,汇总加权
全局最优论证

5 维覆盖了配置的完整生命周期(格式→内容→值→关系→行为)。任何一维 P0 违规即可导致死循环,所以全局最优 = 5 维全部达到 P0 零违规。

+ 结构严谨+ 证据驱动 - 维度定义需维护- 边界判断主观
方案 2 · 因果推断启发的
影响链路分析
因果图 + 反事实推理 — Pearl 2009

为每条配置项构建「配置→行为→结果」因果链。检测链路中是否存在致命节点。不只检查「对不对」,而是检查「这个配置导致系统的哪个行为变好或变差」。

检查方式
评估方式
Δnet 净影响 = Σ(正影响链路) − Σ(负影响链路)
全局最优论证

一条 P0 负影响链路(如缺 maxInputTokens→死锁)就足以否定全局最优。全局最优 = 零 P0 负链路 + P1 负链路需被正链路覆盖。

+ 直接回答「为什么」+ 可解释最强 - 因果图建模成本高- 首次建立需领域知识
方案 3 · 多目标优化启发的
帕累托边界审计
多目标 Pareto 前沿 — Deb 2001 / NSGA-II

定义 3 个互相制衡的目标:最小化 Token 消耗、最大化信息覆盖、最大化安全边际。检测当前配置是否在帕累托前沿上——如果不在,说明存在「零牺牲改进空间」。

三个目标
评估方式
前沿距离 当前点离帕累托前沿的欧氏距离
全局最优论证

帕累托最优 = 不牺牲任一目标就无法改进另一目标。若配置不在前沿上 → 存在「免费午餐」改进。距离越小越接近全局最优。

+ 自动发现改进空间+ 三维权衡可视化 - 目标量化主观- 只给方向不给方案
方案 4 · 反事实推理
双向反事实评分
Counterfactual Evaluation — Pearl / Rubin Causal Model

对每项配置问两个反事实问题:「如果删掉它,系统会变差吗?」「如果把它改成错误值,系统会崩溃吗?」。一项配置的正负影响通过反事实回答量化。

评分逻辑
评估方式
效率比 净正向贡献项 / 总配置项
全局最优论证

全局最优 = 效率比 100%(每项配置都有正向净贡献)+ 零高风险攻击面。比空配置好的底线:效率比 > 0(至少有一项在帮忙)。

+ 直接区分好坏+ 暴露攻击面 - 反事实推理依赖 Agent 判断力- 边界模糊
方案 5 · 信息论启发的
信息效率比
Shannon 信息论 + LCWMS Token Budget 理念

计算 always-loaded 文件中「操作上有用的信息量」占总 token 的比例。将配置视为通信信道——死内容、重复、无触发条件的引用都是信道噪声。目标是最大化信噪比。

计算方式
评估方式
IE% + 每文件贡献拆解 + 噪声来源标注
全局最优论证

信道容量固定(上下文窗口),最大化信息传输速率 = 最大化 IE。全局最优 IE 取决于配置复杂度需求——简单场景可达 90%+,复杂场景 70%+ 即为优。

+ 量化直观+ 噪声可定位 - 有用性定义主观- 不检测错误值
方案 6 · 韧性工程启发的
系统弹性审计
Chaos Engineering + Resilience Assessment — Basiri 2016

不扫描文件,而是注入 5 类压力场景,观察系统行为。好的配置在压力下优雅降级,坏的配置在压力下崩溃(如我们遇到的死循环)。评估的是最差情况表现而非理想情况。

5 个压力场景
评估方式
弹性分 5 场景 × 0-2 分(崩溃/降级/正常)
全局最优论证

一个配置的价值不由理想情况决定,而由最差情况决定。全局最优 = 所有压力场景得分为 2(正常),即系统在任何已知压力下都不崩溃。

+ 实测不猜+ 暴露隐藏缺陷 - 需要运行环境- 场景设计需维护