- 为机器立心(通用人工智能的中国蓝图系列)
- 朱松纯
- 2756字
- 2025-07-03 17:11:27
探源:大数据驱动的人工智能
人工智能现在是全国乃至全世界都关注的热门领域,这种“热度”源自大语言模型的流行。但实际上,在这股热潮之前,人工智能已经在科学家们的艰辛探索下走过了几十年的发展路程。对技术发展溯源,其实也就是对人工智能进行探源,这将有助于我们在热闹和喧嚣背后进行清醒思考,并能够理性地选择人工智能的未来之路。
探源是一个非常复杂的问题。以长江为例,儒家经典《禹贡》记载,长江的源头是四川岷江,这种观念持续千年,直到明末徐霞客才通过探源并在《江源考》中提出,金沙江是长江的源头。我国科考队在1976年才论证了长江源是沱沱河和唐古拉山。
对数据的溯源就像对长江探源的过程,探索源头能够让我们了解事物的历史、本源,帮助我们更好地理解现在、展望未来。
下面让我们一起探究大数据的起源,做一次“数据溯源”的科学考察。在此明确,此处说的大数据尤其指在计算机视觉领域的数据,也就是图像数据。为什么要从视觉说起呢?视觉是“五感”中接收信息量最丰富、系统最复杂、范围最广阔的觉知能力,人的大脑皮层的活动,大约70%是在处理视觉相关信息。我和团队也是从视觉大数据开始,视觉大数据是我们的起点。
其次,我希望大家能够记得几个时间节点:20世纪60年代~80年代、1995年—2005年,这些关键事件发生的几件大事,值得铭记。
· 统计建模与随机计算学派的兴起。
· 数字相机带来的大量图像与视频数据。
· 互联网的普及。
我还希望大家能记住几个简单的词:PG0、PG+和PG++,这几个关键词代表了我们对智能理解的升级。
实现通用人工智能是全人类的梦想。要完成这个目标,有3个问题需要回答。
· 到底多“通用”才算是通用人工智能?
· 通用人工智能需要完成多少项任务?
· 如何评估各种算法的进步是否真的走在迈向通用智能体的道路上?
我从20世纪60年代~80年代那段时期说起。当时,陆续出现了基于视觉的人工智能研究,但限于当时的条件,缺乏有效的数据支持。早期60年代到70年代,这一时期基于视觉的AI研究主要是线画的解释(line drawing interpretation)和块状物体的解译(block world parsing),见图0-1。即使到了1994年,技术也没有本质上变革。根据傅京孙先生的定义,视觉计算的目标是输出一个解译图(parse graph,PG),在结果中不仅能展示物体识别,还能标注物体之间的关系,例如“连接关系”“遮挡关系”等。

图0-1 块状物体的解译
资料来源:King Sun Fu. Introduction to syntactic pattern recognition. Syntactic pattern recognition, applications, pages 1–30. Springer, 1977。
但那时候的图像只能是线图,图像数据非常匮乏。为什么没有真实图像呢?我认为主要有两个原因。
第一个原因是当时的计算机资源有限(见图0-2)。那时的微机内存只有640千字节(KB),这是什么概念呢?现在手机拍一张照片就有好几兆字节(MB)。1MB是1024KB,也就是说当时的计算机内存根本就放不下一张真实图像。

图0-2 20世纪60~80年代,计算资源有限
注:图(a),当时的微机内存只有640KB。图(b)世界上第一只数字摄像头诞生于1975年。
第二个原因是当时还没有数字照相机。1992年,我所在的哈佛大学的实验室花费大约25万美元构建了一个数字摄像机。可就算是这样的“天价”设备,从带宽到内存等各方面仍然无法满足基本要求。即便是到了1995年,我所在的实验室为我配置了当时最先进的32MB内存工作站,处理图片依然是个难题。在编程过程中,我们经常需要读取磁盘,将中间数据加载并保存下来,系统崩溃后,再把中间结果从磁盘中读出来。可以说,直到20世纪90年代中期,视觉研究只能局限于最简单的几何形状研究。
当时我开始筹备我的第一篇关于计算机视觉的论文(见图0-3),那时是在做关于2D形状的对称中轴(media axis)的表达,我们从明信片、拍照或书籍中扫描照片,然后手工将其转化为二维照片来研究。研究团队想建立一个叶子数据库,需要我们去捡大量叶子进行扫描。那时我常在波士顿的路边捡不同的叶子,捡得太专注,直到被近处一声呼喊吓了一跳,原来我不小心误入了别人的院子,被当成了小偷。

图0-3 1994年,2D形状的表达与物体识别解译
资料来源:Zhu,1994,FORMS。
20世纪90年代末,出现了大量图像集,例如索尔比数据集(Sowerby Image Database,SID)和科立尔(CorelDRAW)数据集(见图0-4)。一些摄影师将自己的作品刻录成光盘出售,我购买了这些光盘尝试读取和研究,但那时的图片尚未有标注,还不能算是数据集。直到90年代末,感知器革命的到来,才推动了大数据和机器学习的蓬勃发展。

图0-4 20世纪90年代末,索尔比数据集
注:感知器革命带来了大数据处理能力的变化,出现了大量图像集,索尔比数据集就是其中之一。
我认为,世界上最早的标注数据集来自一名日裔博士生斯科特·小西(Scott Konishi)。他在1998年的研究工作中完成了最早的标注数据集,其成果后来发表在论文《边缘检测的基本边界:不同边缘线索的信息论评估》(Fundamental bounds on edge detection: An information theoretic evaluation of different edge cues)中,这篇文章专注于边缘检测。当时也有一些任务数据集,比如手写体识别、从0到9标记10个数字等,但我认为这些都是分类而非标注。
我与小西之间还有一段故事。当时他是加州大学伯克利分校的博士生,没有导师指导,便跟随了艾伦·尤利(Alan Yullie)。后者是我在哈佛大学的同事。小西博士1997年至1998年在旧金山的一个研究机构里进行枯燥的数据标注工作,经费非常紧张。我当时在斯坦福大学担任讲师,系主任从微软的联合创始人保罗·艾伦(Paul Allen)那里为我要了一笔6万美元的捐赠。我正准备离职,便将未使用完的资金资助了小西博士。我们当时的工作是世界上第一次使用统计方法来创建边缘检测数据集。后来该成果发表在1999年的计算机视觉与模式识别(Computer Vision and Pattern Recognition,CVPR)会议上(见图0-5)。随后我们举办了首届统计建模与随机计算研讨会,来者也多是学统计出身的学者(见图0-6)。这也标志着统计建模与随机计算方法正式汇入计算机视觉研究。

图0-5 1999年,世界上第一次被标注的数据集
注:世界上第一次被标注的数据集,正式发表于1999年的CVPR。

图0-6 统计建模与随机计算首次进入CVPR
注:以此为起点,用统计方法来做边缘检测数据集成为一种新的趋势。
2001年,加州大学伯克利分校的大卫·马丁(David Martin)提出了图像分割(Image Segmentation)数据集(见图0-7)。我指导的第一个博士生屠卓文在这个数据集上用马尔可夫链蒙特卡洛(MCMC)方法取得了最佳成绩,远远超过了他们最初提出的算法。2003年,李飞飞提出了Caltech101数据集,其实这个数据集没有标注,只是包含了101个分类,如“狗”“飞机”“汽车”等(见图0-8)。

图0-7 2001年,世界上第一个图像分割数据集
注:2001年大卫·马丁提出图像分割数据集,科学家们又向着更高层级图像解译迈出了一步。左下图为屠卓文的论文,该论文标题译为“数据驱动马尔可夫链蒙特卡罗图像分割”。

图0-8 2003年,李飞飞团队提出Caltech 101数据集
注:该数据集没有标注,只是分类。
到这里,源头阶段的脉络就很清晰了,此时的我们已经身处“PG0时代”。回顾这几个对人工智能来说重要的时间节点,从20世纪70年代到1999年,中间跨越了几十年,从1999年到2001年、2003年仅仅只有几年时间,我作为身在这个领域的学者,能够深刻感觉到人工智能进入了一个新的时代。