突破语义理解瓶颈,探析人工智能和语言的极限

突破语义理解瓶颈,探析人工智能和语言的极限

掌握独特而复杂的人类语言,是人工智能面临的最艰巨挑战之一。
自人类社会进入信息时代以来,发展速度最快,最引人瞩目就是人工智能技术。
依托于计算机技术的先天优势,学习知识对于人工智能而言可以说只是时间和存储空间的问题。自动化技术的发展,让人工智能拥有了移动与操作物体的能力。智能算法的发展,让人工智能在一定程度上也拥有了推理与交流的能力。但人工智能发展仍面临着瓶颈。
掌握独特而复杂的人类语言,是人工智能面临的最艰巨挑战之一。
01
自然语言理解
自然语言理解长期以来一直是人工智能研究的主要目标。
自然语言处理技术(即naturallanguageprocessing,简称NLP)是人工智能的一个重要分支,其目的是利用计算机对自然语言进行智能化处理。
基础的自然语言处理技术主要围绕语言的不同层级展开,包括音位(语言的发音模式)、形态(字、字母如何构成单词、单词的形态变化)、词汇(单词之间的关系)、句法(单词如何形成句子)、语义(语言表述对应的意思)、语用(不同语境中的语义解释)、篇章(句子如何组合成段落)7个层级。这些基本的自然语言处理技术经常被运用到下游的多种自然语言处理任务中,如机器翻译、对话、问答、文档摘要等。
AI时代,我们希望计算机拥有视觉、听觉、语言和行动的能力,其中语言是人类区别于动物的最重要特征之一,语言是人类思维的载体,也是知识凝练和传承的载体。
科学家研究自然语言处理技术(NLP)的目的是让机器能够理解人类语言,用自然语言的方式与人类交流,最终拥有“智能”。
02
语义:自然语言处理的方向
自然语言处理的早期研究主要是采用人机对话的模拟来实现机器翻译。乔姆斯基的转换生成语法出现后,自然语言处理实现广泛发展和应用,在乔姆斯基的基础上,通过语形分析和识别来实现自然语言的处理。
随后统计方法也加入进来。现阶段的语义分析大都是从统计方法出发,分析的程度和准确度很大程度上依赖数据体量的支撑,这种方法没办法实现语义分析能力的突破和进展,更无法解决语义分析理论的构建问题。
语义分析的突破口应该在于构建词语级别的语义词库,并且尽可能地实现大脑对于语义的层次化分析结构,否则就无法突破语义障碍在理论与实践中面对的瓶颈。随着人工智能领域的进展,自然语言处理也确实朝着语义词库的方向努力。
基于统计方法的局限性,自然语言处理打算换一种思路。摆脱对数据的依赖,选择构建语义网络,从语境分析和识别的思路来进行突破。然而此种思路依然要面对句法规则的限制,无法满足对自然语言处理的多样化需求。
由此看来,语义障碍的核心问题在于基于句法规则的语形分析和复杂语义分析之间并不是一对多的逻辑关系,而是存在着复杂的多对多的条件关系,这就造成了语言的模糊性问题。因此,构建词汇一级的语义词库就成了迫在眉睫的任务。
自然语言处理要想实现对语义障碍的跨越,就必须完成语言形式分析到语义以及语用分析的更迭。
人类社会不断变革发展,人类语言也与之相应地开始了适应性的改变。推动语言发生改变的核心动力是人类对于语言的应用需要,而应用的客观基础就是语义的实现。早在17世纪就有一些理性主义思想家,如笛卡尔和莱布尼茨就有过关于语义原词的思考与论述;近些年来语言学领域也出现了关于自然语义的元语言理论。
元语言理论的基础是语义原词,语义原词是类似于原子的概念,最小的单元且不可再分,比如“你”“我”“他”这样的词语。语义原词应该明确划定范围,这种设定是为了避免语义陷入不确定性的麻烦。在语义原词的基础上构建相应的语法规则,从而实现元语言理论的语义能力。
03
语境:语言之外的进展突破
相比起视觉问题,语言似乎要复杂得多——据我们所知,人类是目前唯一使用复杂语言交流的物种。
十年前,如果要理解文本是什么,人工智能算法只会计算特定单词出现的频率。但这种方法显然忽略了一个事实:单词有同义词,而且只有在特定的上下文中才有意义。
2013年,TomasMikolov和他在谷歌的团队发现了如何创建一个能够学习单词含义的结构:
他们的word2vec算法可以将同义词之间彼此映射,并且能够对同义词的大小、性别、速度进行建模,甚至还可以学习到诸如国家和首都等函数的关系。
然而,仍有很重要的一部分没有得到处理——语境(上下文关系)。
这一领域的真正突破出现在2018年,当时,谷歌重磅引入了BERT模型:
JacobDevlin和他的团队利用了一种典型的用于机器翻译的架构,并使其学习与句子上下文相关的单词的含义。通过教会这个模型去填补维基百科文章中缺失的单词,这个团队能够将语言结构嵌入到BERT模型中。
仅用有限数量的高质量标记数据,他们就能让BERT适应多种任务,包括找到问题的正确答案以及真正理解一个句子是关于什么的。
因此,他们成为了第一个真正把握语言理解的两要素的人:正确的架构和大量高质量的数据。
2019年,脸书的研究人员将这一研究进行了进一步的推进:
他们训练了一个从BERT衍生出的模型,令其同时学习100多种语言。训练的结果是,该模型能够学习一种语言的任务,例如英语,并使用它来完成其他任何语言的相同任务,如阿拉伯语、汉语和印地语。
这个语言无关模型在语言上可以与BERT有相同的表现,此外,在该模型中,语言转换过程中的一些干扰的影响是非常有限的。
在2020年初,Google的研究人员终于能够在广泛的语言理解任务中击败人类:
谷歌通过在更多数据上训练更大的网络,将BERT架构推向了极限——现在,这种T5模型在标注句子和找到问题的正确答案方面可以比人类表现得更好。
而10月份发布的语言无关的mT5模型,在从一种语言切换到另一种语言的能力方面,几乎可以与双语者一样出色。同时,它在处理语言种类方面有着不可思议的效果——它可以同时处理100多种语言。
此后公布的万亿参数模型SwitchTransformer使语言模型变得更庞大,效果也变得更强大。
图:SwitchTransformer编码块
科学技术是第一生产力,创新是引领社会发展的第一动力,随着AI基础设施的不断完善,我们已经站在人机共生的历史性拐点上,未来,人工智能将迎来其发展的黄金期,越来越多的人工智能技术将会从实验室走向实际应用。
参考来源:
1.《人工智能与自然语言处理技术》新华社新媒体
2.《从逻辑维度把握人工智能的局限性》社科院网站
3.《突破发展瓶颈,未来人工智能“爬坡”要靠什么?》科技日报
4.《思尔实验室主任李世鹏:建立逻辑是人工智能突破瓶颈的关键》21世纪经济报道

主题测试文章,只做测试使用。发布者:最新稳定辅助网,转转请注明出处:https://www.744broad.com/15011.html

(0)
上一篇 2023年3月6日 上午12:37
下一篇 2023年3月6日 上午12:42

相关推荐

  • 七爪源码:如何在 Rust 中设置 gRPC 服务器和客户端

    七爪源码:如何在 Rust 中设置 gRPC 服务器和客户端 让我们构建一个RustTodo应用程序在这个故事中,我们将使用使用gRPC的Rust创建一个基本的Todo应用程序。首先,我想简要介绍一下gRPC和ProtocolBuffers。什么是gRPC?gRPC是一个现代开源的高性能远程过程调用(RPC)框架,可以在任何环境中运行。RPC代表Remote…

  • Rust 编程视频教程(进阶)——024_2 所有模式的语法 2

    Rust 编程视频教程(进阶)——024_2 所有模式的语法 2 头条地址:https://www.ixigua.com/i6775861706447913485github地址:见扩展链接。1、通过..进行匹配例子1:说明:在例子中,1..=5等价于1|2|3|4|5例子2:2、解构并分解值可以使用模式来解构结构体、枚举、元组和引用,以便使用这些值的不同部…

    RUST资讯 2023年2月20日
    80
  • 玛雅·克莱默:圈套|展览现场

    玛雅克莱默:圈套|展览现场 来源:CapsuleShanghai玛雅克莱默:圈套MayaKramer:Decoy2018.09.21-10.25ClosedCircuit回圈|2018|Silicone,coal,wire硅胶、煤、电线|55x34x27cmApparition幻影|2018|Carbonpaper,ink,paper复写纸、墨水、纸张|44…

  • Simp-Q,云足,纯钛马克杯这些太赞了

    Simp-Q,云足,纯钛马克杯这些太赞了 产地:Korea产品简介:Forbottledwater,lowviscositydrinks,sports&alcoholicdrinks*Snaponforsturdysealatthevariousopening&depthfor5,6gallonbottles(3gallonbottleava…

    RUST资讯 2023年2月21日
    100
  • 奥迪Q7 e-tron动力系统介绍

    奥迪Q7 e-tron动力系统介绍 引言:推荐:GSAuto联盟|三电技术专家委员会,初期仅对主机厂、Tirl1等公司新能源汽车三电研发管理制造方面人员、大学及科研机构等新能源汽车三电研究人员,现已招募330+人,主要分布在50+主机厂、20+Tirl1、大学、科研机构等三电研发管理岗位人员。智享大讲堂004期线下分享开始报名,题目:电驱动系统开发及市场机遇…

    RUST资讯 2023年2月23日
    80
  • 精品推荐—瓷器,钱币,陨石

    精品推荐—瓷器,钱币,陨石 矾红是陶瓷低温釉上颜料。以三氧化二铁悬浊体着色的低温红釉和红彩。亦称“铁红”、“红彩”、“虹彩”。它的色泽往往带有一种如橙子般的红色。产生于宋代,为釉上多种彩的前驱,后沿用于明代万历红彩、铅粉86%配制而成。着色成分为三氧化二铁。制法将硫酸亚铁(青矾)煅烧、漂洗,加入铅粉作熔剂,磨细备用。如作颜色釉色料,则调成釉浆,施于陶瓷器釉面…

    RUST资讯 2023年2月28日
    70
  • Rust 编程视频教程对应讲解内容-包、crate、模块

    Rust 编程视频教程对应讲解内容-包、crate、模块 头条地址:https://www.ixigua.com/i6765442674582356483B站地址:https://www.bilibili.com/video/av78062009?p=1网易云课堂地址:https://study.163.com/course/introduction.htm…

    RUST资讯 2023年2月20日
    80
  • 让后端写个 API 文档就有那么难吗?

    让后端写个 API 文档就有那么难吗? 程序员最讨厌的两件事:1.写文档,2.别人不写文档。大多数开发人员不愿意写API文档的原因:写文档短期收益远低于付出的成本,然而并不是所有人都能够坚持做有长期收益的事情的。你因为写文档而耽误了当前项目进度,老板会直接找你麻烦;但是因为没写文档而带来的长期收益低,老板是看不见的。这就是现实,让人去做违反人性的事情是非常困…

  • 2022-10-25:在一个 2 3 的板上(board)有 5 块砖瓦,用数字 1~5 来表

    2022-10-25:在一个 2 * 3 的板上(board)有 5 块砖瓦,用数字 1~5 来表 2022-10-25:在一个2*3的板上(board)有5块砖瓦,用数字1~5来表示,以及一块空缺用0来表示。一次移动定义为选择0与一个相邻的数字(上下左右)进行交换.最终当板board的结果是[[1,2,3],[4,5,0]]谜板被解开。给出一个谜板的初始状…

    RUST资讯 2023年2月16日
    80
  • Android 内存安全漏洞大幅下降,Rust 或成关键因素

    Android 内存安全漏洞大幅下降,Rust 或成关键因素 整理|刘春霖出品|CSDN(ID:CSDNnews)过去十年,内存漏洞占整个产业漏洞的65%,但Google发现从2019年到2022年,Android的内存漏洞年度总数,从223个下降到了85个,而有这项安全性进展,Google归因于Android的内存安全程序代码比例增加。Google的Jef…

    RUST资讯 2023年2月16日
    90
关注微信