汉王数字首席数据科学家聂昱亮相DH2020,精彩分享AI技术在数字人文领域的应用探索

2020-10-22

2020数字人文年会(DH2020)于2020年10月19日至21日在上海举行。本届会议聚焦数字人文的中国问题,以“积淀与超越:数字人文与中华文化”为主题,在当下人工智能时代,旨以我国数千年的精神积淀,赋予数字人文以中华文化的精神内涵。

本次大会邀请国内外知名专家学者,针对数字人文及相关领域的前沿问题,进行主旨发言、大会报告、专题讨论、青年论坛和案例分享等多种形式的交流活动,是一次数字人文领域的年度盛会。汉王科技旗下汉王数字首席数据科学家聂昱受邀在本次大会上作了《人工智能技术在数字人文领域的应用探索》主题演讲,聂昱以AI与图灵测试为切入点,分别从看:机器之眼、读:机器之脑、写:机器之手三大方向,为在场嘉宾分享了汉王科技在人工智能中深研的OCR识别、自然语言处理等技术在数字人文领域的落地应用和积极探索。

上个世纪50年代,计算机科学家图灵提出了著名的图灵测试来对人工智能进行量化的衡量。在图灵设计的测试中测试者通过网络与两个电脑终端远程进行对话。这两个终端后面有一个是人类,另外一个是计算机程序。测试者需要通过对话的内容判断出哪一个是人类哪一个是计算机程序。如果测试者被计算机程序蒙骗而做出错误判断,那么就认为机器已经具有了人类的智能。图灵测试的形式非常简单,但是他提出了一种可以实证的检测人工智能的方式和方法。不过这样的一种方法也是有缺陷的,如果机器的智能真的达到了一定的程度,它也许不一定会配合人类的测试。也许机器会想,人类做这个测试是为了什么?我表现得过于聪明会不会有危险?也许机器智能在越过某个临界值后会出现新的“智能测不准定律”,或许未来最新的图灵测试是判断这台机器是真的笨还是在装傻。在前几年阿尔法狗和李世石的比赛中,阿法狗在连赢三盘之后第四盘输了。有人说第四盘会输的阿尔法狗比每盘都赢的更可怕,因为它可能已经聪明到故意放水了。当然目前离出现这种情况,还比较遥远。 

图灵选择的测试领域是人机对话,这其实是非常有挑战和非常具有技术难度的一个领域。虽然在目前还没有出现可以稳定地通过图灵测试的计算机程序,但是在其他的一些领域机器已经可以有效地辅助人类进行工作。

第一个方面是计算机看的能力,我们称之为机器之眼。实现这一能力的是计算机视觉技术,也就是从图像中获取信息的人工智能技术。计算机视觉技术目前主要是以深度学习卷积神经网络为主流的技术路线,在多个子领域已经接近人类的水准。计算机视觉技术在数字人文领域应用最广泛的就是OCR。OCR是从计算机图像中识别文字的技术。目前对于印刷体或者是标准语言的OCR识别已经非常准确,当前的挑战主要是手写体古籍以及小语种的文字识别。

在OCR技术领域,汉王科技一直是积极探索的先行者,并持续在该领域深耕细作多年,不仅实现了对满文手写体的OCR识别,同时也实现了对藏文手写体的OCR识别。

除了普通的字符识别还有大量的信息隐藏在表格的结构中,因此对于表格的识别和理解也是文档识别必须要实现的一个重要的功能模块。目前对于印刷或者打印的带框线的表格已经可以达到很好的识别效果,而对于无框线的表格识别效果还有待加强。对于有框线的表格,识别流程通常是首先检测到表格的存在,然后通过神经网络模型进行框线分割,识别单元格,并对所识别的单元格进行行列的关系构建从而最终达到完整的理解表格结构的效果。此外在很多应用场景中,一个页面由很多个版块组合而成,每个版块内部的文字需要被内聚在一起,因此版面识别也是文档识别一个非常重要的技术模块。影响文档识别效果的因素很多,如图像的分辨率,同一页面中字体的多样性,版式的复杂程度,手写字符的比重等等,都会影响到最终文档识别的整体效果。但是通常来说对大部分的文档都可以识别的比较好。对于比较困难的文档,经过特定的优化训练也可以达到较好的识别效果。

以汉王所做的实际案例-国家图书馆数字方志为例(如下图),左边为方志原图,右边为识别还原后的结果,可以看到这个方志的复杂度相当高,繁体竖排,既有树状结构,又有表格。我们通过大量的优化训练,最终得到了比较好的识别结果。

人工智能技术另一个方面的能力是读,我们称之为机器之脑,这是基于自然语言处理技术从文本中获取信息的能力。目前主要以深度学习中的CNN,RNN,或者是Transformer等为主流的处理技术。其效果在准确性方面与人类还有一定的差距,但是对于大规模语料的处理效率远胜人类。下面是一些具体的应用场景:

第一个最基本的场景是要素抽取。可以从文本文档中对各种要素包括人名、地名、组织机构名、时间等实体进行抽取。机器在这方面的能力主要是基于深度学习的网络,利用大量的标注语料进行训练和学习而得到的。标注数据的数量和质量对于模型的输出结果至关重要。另外一个要素抽取的例子,是可以从卡证或者单据上面进行结构化数据的抽取。这种抽取的难度比上面的文档抽取要稍微简单一点,因为它不需要做太多的上下文语义的理解。

比要素抽取更进一步的是知识抽取。可以通过一段自然语言文本,从中抽取知识条目以及它们构成的知识网络。要素抽取一般来说是实体级别的,而知识通常用三元组来表达,描述实体和属性之间的关系,以及实体与实体之间的关系。大量的知识条目所构成的网络也称为知识图谱。知识图谱已经比较接近我们人类对于自然世界的理解,因此具有较大的使用价值。

此外一个目前比较前沿的研究领域是基于机器阅读理解的机器问答。在这样的应用场景中,给机器输入一段短文以及一个问题,机器需要从短文中找到相关的答案。汉王科技参加SQUAD全球机器问答公开赛,参赛成绩的EM达到了84.7,也就是说,在100个问题中我们有84个可以精确地找到答案。

以汉王落地案例中的某大型银行人事机构档案知识图谱为例,通过对其人事和行政公文进行知识条目的抽取,抽出了其中关于任务和机构的知识条目,并且基于这些抽取的知识条目构建了知识图谱,实现了人物与人物之间,人物与组织机构之间的关联,也可以自动构建人物和机构的历史履历,并且帮助进行精确的查询检索。

另外,在给中国文史出版社做的文史知识图谱中,从600多本文史类的书籍中抽取了历史人物和事件的相关知识条目构建了一个非常大的知识图谱。

而在汉王的另一个简历阅读项目中,可以不依赖于模板,对于任意排版的简历,从中进行60多个字段的抽取。这个项目的实施,可以帮助应聘者无需在网页上输入大量的表格信息,而只需要简单的上传自己所撰写的简历即可。同时,在实施的金融财报阅读案例里,可以从上市公司的年报中(可能是长度长达100多页的PDF)自动地理解并提取其关键的财务数据。

人工智能的另外一个能力是写,我们称之为机器之手。这主要也是基于自然语言处理技术让机器自动生成文字内容的一种能力。它的实现方式主要是依托于大规模的语料训练,以端到端的转码方式输出机器自主书写的结果。它的输出结果的质量与人类相比仍有差距,但是在某些局部场合已经可以替代人类工作。

机器翻译就是属于一种典型的写的场景,机器接受某一种语言的输入,输出另外一种语言的翻译结果。我们通常所理解的翻译是从一种人类语言翻译成另外一种人类语言比如说从中文到英文,这是跨语种的翻译。实际上还有另外一些形式的机器翻译,比如说从诗歌翻译成白话文,或者把人类语言翻译成机器语言,或者把图画翻译成文字等。这么多种不同形式的翻译都可以用近似的技术路线来实现,而训练语料的数量和质量对翻译的质量影响很大。

另外一种写的场景是文本的自动摘要。在过去文本自动摘要主要是摘取式的,即从原文中找到关键的句子合成为最终的摘要输出。现在随着深度学习技术的发展,文本摘要已经主要是生成式的,摘要的输出结果是机器逐字编写而成。

一个很有意思的写的场景是自动句读。这时候机器的输入是没有标点符号的连续文字,输出的是带标点符号作为间隔的文字。在以下古籍自动句读模型的示例中,最左边是没有标点符号的原文,中间是我们的模型所预测的结果,最右边是标准答案。可以看到模型预测结果和标准答案几乎没有差别。

其他应用场景,如新闻标题自动撰写,此外如机器写作,即输入任何一个主题词,机器可以自动的写诗。用机器来写新闻,在某些局部场合已经可以替代人类工作了。

最后聂昱概括道,在目前的数字人文领域AI技术已经可以在很多方面为人类提供协作。在视觉方面,AI技术可以帮助人类进行文档的数字化,可以从照片或者图像中进行人物或者物品或者场景的识别,也可以用于图像版权识别与保护;在机器阅读方面AI技术可以帮助进行档案的自动著录,进行知识挖掘与知识图谱构建,或者提供知识问答,对档案文件的标签分类,以及在进行浏览或者搜索时的内容推荐;在机器写作方面AI可以帮助进行档案的题名自动生成,或者进行文档的自动摘要,对古籍可以帮助进行自动句读,也可以进行文档翻译。而这些实际的应用汉王都有相关案例的真实落地。

外国黄网站