AI热门应用案例集:学会工程化思维(值得收藏)

从模块出发,构建一个复杂系统。

这是一份关于AI热门应用的案例集,包含了难点、窍门以及最新的研发方向,非常珍贵而又接地气,值得你反复研读和收藏。

案例集一:自然语言处理

人读书,会有两个基本动作,能读懂,还能讲出来,同理,自然语言处理也包含两大类工作:理解自然语言和生成自然语言。

理解自然语言

理解是怎么回事?背诵下来,是不是理解了呢?因此,需要把理解划分为不同的具体任务,一旦具体以后,机器就可以找到切入点。由浅入深,包括以下内容:

文本分类
从分好类、有标注的训练数据出发,采用不同算法,训练一个分类器。举个例子,分析一个文章,假如"白宫"出现多次,就可以判断,文章是讲政治的。防垃圾邮件的软件,用的就是这个原理。
文本检索
这是Google等搜索引擎里的常用功能:通过关键字输入,输出根据相关度排序的结果,再高级点,还有个性化匹配。举个例子,搜索苹果,结果可能是水果,或是手机。如果搜索引擎对你一无所知,两个结果都可能靠谱。如果你是一位果农或者一位高科技白领,那么就能猜出你想要搜的东西。也就是说,要实现个性化匹配,需要考虑你的生活习惯、行为特征、以及搜索场景。
语音识别
将声音信号转化为文本信号的技术,涉及隐马尔科夫链、递归神经网络等机器学习模型,智能音箱、Siri等,都属于这类的应用。

难点

在嘈杂,或是前后关联破碎的场景下,机器很难识别清晰,但是人可以,因为有常识、背景知识,比如人在信号很差的电话环境里,连蒙带猜,也能理解对方的话。因此,人和机器要有一些互补。

知识问答

几年前,IBM沃森在知识问答游戏Jeopardy里战胜了人,很轰动。其实这个系统并不难,因为知识竞赛里的对话很简单,比如——谁是美国的第一任总统?——乔治·华盛顿所以,这个系统是一个纯工程,它跟人类智能不一样。举个例子,比如问这样一个问题:中国不在大河边上的第二大城市是什么?小学生很容易就能回答,但你去Google或者百度,却找不到答案。为什么?不是知识库里没有内容,而是它听不懂你问的是什么,于是它就懵了!所以,在这里面,有一些关键问题需要大家特别重视:

窍门

机器理解人的语言,相当有限,所以,如何提出更好的问题,非常关键。大家天天在讲的问题,到底有没有价值?到底能不能体现出工程的进步、应用或者市场的需要?

标准测试

什么是高级的理解?标准测试,比如,大学的入学考试,托福、GRE等为什么人工智能不去做这种测试?因为比较难,比如:①得真正看懂测试的问题;②训练的时候,不能人为输入规则,而是直接把教科书交给机器学习,让它自己把规则、定理、原理、作业题都完全看懂;③最后自训练,吃透了以后去考试;④算法要能够给学生解答这个答案的意思。

窍门:

教育里最难的一点就是出题库,然后训练学生做题。如果有一个人工智能系统,既能出题,也可以跟学生一起做题,甚至还可以给他解释,就会有很多价值。在这样的做题程序中,深度学习的方法已经被淘汰,其他的机器学习手段得分也不高。下一步,再怎么往上走?还不知道。换句话说,既能回答问题,又能提问题,这是人工智能最弱的方面,也是一个未知的空间。我们现在正在做这样的尝试,让机器自动的问一些问题,从而达到自训练或者训练用户的目的。

自然语言生成

这是人机界面中,主动来自机器的动作,是一个很好玩的题目,我重点介绍两个领域的应用:

机器翻译
人在做翻译的时候,通常先听完好几句话,理解后,再用另外一种语言说出来,但是,机器翻译的主要手段是对齐,把两个语句做一一对应,很机械。
机器对话
在对话系统中,也会有机器味。那么,什么才是有人味的对话呢?一方面是对感情的把握,和对对方感情的理解;另一方面是对相关常识的引用和理解。这在目前对话系统里,十分困难,因为没有一个很好的数学模型,对这些任务做清晰的定义。

小结:新研究方向

大数据即使再大,还是体现不出人类语言中不言而喻的内容,该怎么办?目前,比较新的研究方向是把生成模型和人的背景知识,进行数学层面上严格和自洽的融合,把深度学习的技术和人类逻辑学的知识,结合在统一的数学模型里。这样就可以把人的感情因素融入生成模型,从而让对话看上去更有人味。

案例集二:计算机视觉

计算机视觉是现在相当火爆的方向,大致可以分成两大类问题:图像感知与视觉推理。

图像感知

它包含的是一些比较原始和低级的任务,比如:

  • 图像分割:把不同的色块,从背景里面识别出来。比如一个花花绿绿的人,机器看到的只是几块颜色。
  • 语义分割:把不同的色块重新整合起来,构成有完整单元含义的目标。比如,人和车,会被分割在比较自洽的边界内部,然后做标注。行人检测、安防里的刷脸等,用的就是这个道理。

应用案例:医疗图像识别

比如对X光、CT等做一个自动的诊断,实现精准医疗。目前,在实践中,最大的困难不是对标准图片的识别,而是在自然工作环境下,对于自然图片内容的判断和理解。比如,医疗影像中的噪音,误差,还有设备之间不同的标准,会造成很多算法的失灵,但这些问题很少被提及。最近的一个有名的例子是,IBM沃森的癌症治疗软件,在美国最好的癌症研究所部署后,就遭遇了比较不幸的失败。所以,人工智能在医疗领域的应用,还是应该谨慎些。

智能监控

现在,很多场合都安装了摄像头,但应用时,却总是在"事后诸葛亮"的场景:发生案件后,调集警察,人力检查摄像头,发现线索,抓到犯人。这不是最理想的情况,最好是案件发生的时候,就能够找出情况,短时间,就能收集大量信息。比如,从几小时长度的航空展览录像中,自动剪辑出飞机的起飞、动作、降落等画面;将几小时的行车记录仪数据,自动抽取出几分钟不一样的片段,这都是机器学习比较擅长的。

视觉推理

同语言推理相似,视觉也可以进行推理。举个例子,图中有人和帆板,那我们不单单能做标注,还可以猜想物体之间的关系,如这个人喜欢帆板,准备去海边运动。人感觉这样的理解很简单,但对机器来说,非常复杂。比如将物体识别出来,需要一套算法;然后把物体分类,又得需要一套算法;识别物体间的关系,又是一套算法……但人类并不是用30个不同的大脑来发挥作用,我们就是一个人,一双眼睛就可以很清晰做理解。

窍门

所以,人工智能跟人的思路其实不太一样,它是一个高度模块化,然后边界也很局限的工作,需要严格的定义任务,分开来单独做训练和调试。

小结:新研究方向

计算机视觉2.0,模型结构自主学习所谓视觉推理2.0指的是,一方面依靠图片内容,另一方面依靠从大数据以及背景环境里面,获得的先验知识。当这些先验知识,进入图像识别的机制里后,机器对图像理解的水平就会提高很多,就不是一个很愚蠢的图像标注了。实际上,图像标注是很假的功能,为什么需要机器去告诉人类,这个图里哪个是猫?哪个是狗?哪个是车?人对这些东西都可以无视,但如果能够把图里面的内容和话外的内容搞清楚,更接近人的需求,这样的功能才会产生真正的价值。比如这个图里,有一个女孩儿,穿着牛仔裤,拿着飞碟,后面在一个建筑物里,还站着一些人,最后推断,这可能是一个学校。这是目前研究和研发很重要的方向,但很可惜,在公司或者媒体报道里,你很少见到类似的工作。

最后的最后,你需要深刻理解的未来AI发展路径

从模块出发,构建复杂系统未来的AI应用大概会是这样的一个场景:它会融合不同领域里面的很多基础知识或者先验知识,把不同的学习内容和算法整合起来。对于实际的开发和生产环境,我们其实不是在谈某一个算法或是某一套数据,而是一个相当综合的体系。现在,很多公司都面临着这样一个瓶颈:如果用封闭式的黑匣子来打造一个系统,它的延展能力很弱。一旦面对新任务,就会面临着开发周期的困境,或者进行部署的困境。该怎么办?我的建议是,机器学习未来路径和前景应该是:从模块出发,构建一个复杂系统。这个复杂系统的方向不能是手工作坊的方法,从造一个小船变成造一个大船,而是要转变到更加工程化和科学化的方向——模块化和标准化。同一个算法应该有标准的实现途径,同一个数据应该有单一的供应源进行处理方法。只有这样做,你的AI研发,才能更稳健,更靠谱。

常见问题

什么是机器学习?

机器学习是传统编程的第二曲线,它是一个写动作的程序,而不是描述动作本身的程序。它通过增强学习等算法,让系统能够根据大量的场景数据,不断修正方程里的参数,最终达到一个稳定的状态,具备学习能力。

自然语言处理主要包含哪些方面?

自然语言处理包含两大类工作:理解自然语言和生成自然语言。理解自然语言包括文本分类、文本检索、语音识别和知识问答等任务;生成自然语言则包括机器翻译和机器对话等应用。

计算机视觉有哪些主要应用?

计算机视觉主要分为图像感知与视觉推理两大类。图像感知包括图像分割、语义分割、行人检测等,应用于医疗图像识别和智能监控;视觉推理则能推断图中物体之间的关系,如推断场景可能是一个学校。

机器学习在医疗领域的应用面临什么挑战?

机器学习在医疗领域应用的最大困难不是对标准图片的识别,而是在自然工作环境下对自然图片内容的判断和理解。医疗影像中的噪音、误差以及设备间不同的标准会造成算法失灵,因此应用需谨慎。

AI未来的发展路径是什么?

机器学习未来的发展路径是从模块出发,构建一个复杂系统。这需要转向更加工程化和科学化的方向——模块化和标准化,使同一个算法有标准的实现途径,同一个数据有单一的供应源进行处理,从而使AI研发更稳健、更靠谱。

什么是增强学习?

增强学习是机器学习的一种算法,其典型应用如直升机特技飞行程序。它在模拟机上不断随机模拟各种飞行可能性和环境,用程序对模拟出的环境和动作进行适应,然后不断评估、修正,并最终部署在真实系统上实现目标。