谷歌推出基准测试检验 AI 是否“靠谱”：Gemini 3 Pro 准确率仅 69%

IT之家 12 月 13 日消息，据《商业内幕》今日报道，谷歌 DeepMind 本周发布了 FACTS 基准测试，用来检验 AI 在事实准确性方面到底靠不靠谱。

这一测试从四个维度评估模型能力，包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息，以及对图像内容的理解水平。在参测模型中，谷歌的 Gemini 3 Pro 表现最好，准确率为 69%，其他主流模型则明显落后。

这一成绩对企业同样是个警钟。虽然 AI 在生成速度和语言流畅度上优势明显，但在事实可靠性方面仍然远低于人类标准，特别是在需要专业细分知识、复杂推理或严格基于原始材料的场景中。

在金融、医疗和法律等高风险行业，即便细小的事实错误，也可能放大成严重后果。报道以《商业内幕》员工梅莉亚・拉塞尔为例，其本周梳理了律师事务所如何应对 AI 逐渐被当作法律事实来源的现实，结果并不乐观。她提到，有律师事务所的员工使用 ChatGPT 起草法律文件，结果文件中充斥虚假判例，最终律所直接解雇了该员工。

报道指出，谷歌希望通过明确模型出错的位置和方式，加快 AI 的改进速度。但眼下可以得出的结论非常清楚，AI 确实在进步，然而仍有大约三分之一的时间会犯错。

参考

相关推荐

近期文章