人工智能(AI)技术正从实验室走向广阔的现实世界。从深入对话的智能交互助手到医疗诊断的辅助专家系统,再到自动驾驶的感知决策终端,AI 的应用已渗透至与人类健康安全密切相关的关键领域。这些应用的蓬勃发展,将一个根本性问题推至台前:我们如何才能信任AI的决策?
AI在封闭的数字空间中已是“超人”。当前AI技术的核心在于通过数学模型从海量数据中学习规律,并利用算力进行预测与决策。这一范式使其在规则明确、数据充沛的特定任务中表现出色。但在开放的真实物理环境中,AI的智能仍处于“幼年”阶段。因为过于抽象“数字原生”出身,导致其在与充满不确定性、物理约束和因果律的现实世界深度融合时,面临巨大挑战。
这种鸿沟直接引发了使用者对AI准确性、有效性、可靠性和安全性的深切忧虑。《CIPM 2030+战略》明确指出:“新型人工智能方法获得批准得以应用的一个重要前提,应当是了解各输入变量及其不确定度对结果的影响。”然而,当前众多AI系统更像是一个个“黑箱”,其决策过程缺乏透明度,因此我们难以知晓:在已知条件之外,其结论是否依然有效?数据中未被察觉的偏见或隐含关联变量是否会导向灾难性的误判?
要系统性地解决这些信任问题,就必须建立一套有效的验证支撑基础设施。这远非简单的性能测试,而是需要对AI方法进行完整有效的多维度、全生命周期评估,这包括对训练数据集和算法本身提出定量化要求。然而,目前关于这些数据集必须满足的范围和必要质量要求,尚缺乏基础性认知。因此,AI的研发者、使用者与监管者必须共同构建一个以计量学为核心的信任体系。为此,建议采取以下关键措施:
(1)建立“数字标准”,开发高质量的参考数据集。计量学需要为参考数据集的开发和评估提供原则、统一方法和标准化途径。这些高质量的、公认的参考数据集将构成“黄金标准”,成为AI计量溯源链中不可或缺的 “数字标准” ——它们是客观评估和认证AI算法的基石。
(2)利用数字孪生,拓展验证边界。在机器学习和人工智能方法的开发与验证中,应使用数字孪生作为合成数据的来源。这能帮助我们安全、高效地模拟极端、罕见场景,生成用于测试算法鲁棒性的宝贵数据,弥补真实世界数据覆盖范围的不足。
(3)实施全生命周期计量评估。监管评估必须覆盖从数据、算法到集成系统的全过程。这要求计量学研究提供评估数据与算法稳健性、可解释性(透明度)和可靠性的基础方法,形成业界迫切需要的关于AI数据质量与方法评估的权威指南。
(4)在等效真实场景中进行系统化测试。最终必须在尽可能接近真实环境或经过等效验证的测试场中,对完整的AI赋能系统进行各种核心关键性能测试,以综合验证其在复杂干扰下的整体表现。
上述所有因AI技术迅猛发展而产生的强烈需求,都对传统的计量测试能力提出了颠覆性的挑战,呼唤其进行范式升级:
(1)计量数字化。不仅要让获取数据的测量行为的数字化和智能化程度大幅提升,而且要将数字化的计量结果有效嵌入,从而确保用于AI的“数字世界”与“物理世界”的对应是精确、完备且可溯源的。
(2)数据标准化。“参考数据集”作为一种“数字标准”,其本身的开发、维护和传递规范,需要计量学提供全新的理论支撑,促进计量从传统物理量值的传递实现向信息和知识标准传递的历史性跨越。
(3)服务体系化。计量界需要开发基于参考数据集的新型算法验证服务概念,为产业界提供可信赖的第三方评估,并且充分调动各类资源协作共建,高效构建起服务于AI时代的“质量基础设施”。
AI应用的深入和拓展空间广阔,但其进一步发展的航行必须依靠可靠的“罗盘”与“海图”。这个“罗盘”就是以内生可信为核心的新一代AI技术,而“海图”则是由高质量的参考数据集、标准化的评估方法和全生命周期的计量验证共同构成的信任基石。将计量测试体系深度嵌入AI的研发与应用闭环,不仅是技术发展的必然,更是我们安全驶向智能未来的战略保障。


蒙公网安备 15010302000446