LLM内容审核平台落地实战 · Moody's Analytics案例研究

问题：模型存在，系统不存在#

当我加入Moody's Analytics时，内容审核操作分散在三套独立的遗留工具中——没有统一的分类体系，没有性能追踪，也没有系统化的反馈回路。LLM辅助审核助手已由工程团队构建完毕，但从未被真正落地运营。团队不信任它，无法量化它，也没有统一使用它。

模型存在，但围绕它的系统不存在。

我将这次工作定义为产品发布，而非工具推广。工作分四个明确阶段：

流程梳理

端到端文档化现有工作流——决策发生在哪里、错误集中在哪里、延迟引入在哪里。这建立了共同基线，也暴露了AI系统需要弥合的差距。

评估框架

在部署任何内容之前，先定义"生效"的含义。建立Safety Index System，跨决策类别追踪精确率、召回率和误报率——这是AI团队与运营团队之间关于"什么是好"的契约。

分阶段部署 + 反馈回路

从一个审核团队试点开始，收集结构化反馈，以可行动的语言向AI Research团队汇报失败模式（"在Y上下文中对X类别触发过度"）。迭代后再进行全局推广。

赋能层

构建针对非技术审核员定制的SOP、培训材料和工作流文档。任何新团队成员都能在无需工程团队介入的情况下达到满负荷生产力。

22%↑

审核准确率提升

由运营信号与模型迭代之间更紧密的反馈回路驱动

15%↓

平均处理时长降低

来自审核节点处更好的AI辅助决策支持

40%↓

入职时间缩短

结构化文档替代了以往由工程师主导的临时培训

3→1

工具整合

遗留工具整合为覆盖全球审核团队的统一AI平台

发布AI系统只是起点。让它真正生效——流程梳理、评估标准定义、反馈回路构建、团队赋能、影响量化——才是真正难的部分。这就是我做的事。

这个项目的最大挑战是什么？

最大挑战不是技术，而是信任。团队已经有了一个LLM工具，但因为没有透明的评估标准，没有人知道它是否值得相信。建立Safety Index System——用精确率、召回率和误报率定义"生效"——是让团队从犹豫转变为采用的关键。

Safety Index System是如何设计的？

Safety Index System是运营团队与AI Research团队之间的契约，定义了跨决策类别的三个核心指标：精确率（标记的有多少是真正有问题的）、召回率（有多少真正有问题的被捕获）、误报率（正常内容被错误标记的比例）。每个指标都有阈值，任何低于阈值的类别都触发结构化反馈循环。

这与广告主完整性或卖家信任场景有什么关联？

相同的框架可以直接迁移：广告欺诈检测需要同样的精确率/召回率权衡（误报会损害合法广告主，漏报允许欺诈通过）；卖家信任场景需要同样的分阶段部署和反馈回路（一个类别的政策变更会影响整个市场生态）。让系统真正运转起来的方法论与领域无关。