近日,清华大学自动化系系统工程研究所副教授李力作为第一作者以及林懿伦,郑南宁,王飞跃,刘跃虎,曹东璞,王坤峰,黄武陵等发表了一篇关于人工智能测试和无人车测试的英文论文《Artificial intelligence test: a case study of intelligent vehicles》,集中探讨了人工智能应用领域中关于智能性的测试和设计方法。文章认为,智能性测试和机器学习的过程类似,两者如同一个硬币的两面,“终生测试”将是一场持久战。文章最后还提出了虚实结合的平行测试方法。
以下是人工智能测试与无人车测试的中文版介绍。
1. 概述
本篇文章主要是讲述在人工智能应用领域对智能性的测试,基于场景和任务的测试体系的描述,以及介绍了如何设计智能性测试中基于仿真的测试及其测试指标,并在智能车这一典型人工智能领域举例说明。
2. 无人驾驶和人工智能
人工智能(AI)通常是指机器表现出来的和人类类似的智能。现如今,人工智能已经极大的改变了我们的生活,大到自动驾驶汽车,小到扫地机器人,都是人工智能的应用领域。我们坚信,人工智能将会在未来的20年内进一步的改变我们生活包括健康,教育,娱乐,安全等各个领域。在享受人工智能的带来的各种便利的同时,也带来一些疑问:如何保证人工智能机器按照人类设计的思路来正确运行?无人驾驶车辆是否会在某些极端环境中失控照成事故?厨房机器人是否会把房子点燃?基于以上,我们迫切的需要对人工智能的可靠性进行规范的测试和衡量。
为了回答以上问题,我们需要思索一下人工智能的定义:维基百科对于人工智能的定义:机器所展现出来的智能;我们对其进行扩展,给出的定义:人工智能是指机器(在同样的任务中)表现出(和人类似的、或一样的、甚至是超过人类的)智能,明斯基(Minsky 1968)对人工智能给出过类似的定义“ [AI] is the science of making machines capable of performing tasks that would require intelligence if done by [humans]”. 明斯基的定义更加注重对完成任务的所需要的智能(原因导向),而本文的定义则更加倾向于所完成的任务所表现的智能(结果导向)。
同时必须注意到的是,为测试智能性所选择的任务也是有特定针对性的,不同的任务测试不同方面的智能性,例如,一个文盲可能能成为一个很好的司机,但是一个眼盲的饱学之士却无法开车。
图灵测试是迄今为止我们所知的最早的针对智能性的测试。图灵测试是图灵对于人工智能的睿智思考,其核心思想是:要求计算机在没有直接物理接触的情况下,尽可能把自己伪装成人类回答人类的询问。但是,图灵测试在无人车智能性测试方面也无法全盘套用。
当今,智能性测试有越来越多的应用领域,那么我们到底应该用何种方法来测试智能性呢?我们所提出的基于任务的智能性测试方法又有哪些优越性呢?接下来,我们将会列举智能性测试的难点,以及我们提出测试方法如何解决这些难点,以及如何更好的设计基于“任务”的测试用例。
3. 无人驾驶智能的设计和测试
3.1. 智能性测试的困境
3.1.1. 任务的定义/描述
第一个困境是如何来更好的定义智能性测试中的任务:
图灵测试中最大的短板就是任务的描述。需要指出的是,当今的无人驾驶车辆智能测试和中文屋等早期图灵测试已经有了很大差别:其一,早期图灵测试并未明确的规定测试任务以及何种答案可以视为正确,这导致一些试图通过图灵测试的机器经常采用摸棱两可的方式来试图避免直接回答。而当今的无人驾驶车辆智能测试都对任务进行了明确的界定;其二,早期图灵测试有人来判定测试结果,而为了检验无人驾驶车辆的识别算法是否通过各种可能场景的测试,我们必须使用机器来帮助判定数以万记的测试任务是否通过。
总之,我们需要建立一系列的可以量化的测试任务,这是智能性测试最根本的基础。