立东破解站|qdlidong.cn

当前位置:首页 > 教程资讯 > 网络技术 > 会话人工智能机器人未来发展的三个方向

会话人工智能机器人未来发展的三个方向

2019-08-07 11:31:34 来源:互联网 我要评论()

用手机看

扫描二维码查看并分享给您的朋友
会话(正常的交流与交谈)人工智能是人工智能的一个分支,专注于在人与计算机之间产生自然而无缝的对话。近年来,我们在这方面看到了几项惊人的进步,自动语音识别(ASR),文本到语音(TTS)和意图识别方面的重大改进,以及各种家庭语音助手设备,估计2018年家庭中有近1亿台智能音响。

即便如此,我们距离科幻小说中那样流畅的人机对话还有很长的路要走。以下是我们在未来十年应该看到的一些关键进展,这些进展可以使我们更接近这一长期目标。
超越机器学习的新工具
机器学习,特别是深度机器学习,在过去几年中已经成为AI领域中非常流行的技术。它推动了面部识别,语音识别和对象识别等领域的重大进步,使许多人相信它将解决会话AI的所有问题。但是,实际上它只是我们工具箱中的一个有价值的工具。我们需要其他技术来管理有效的人机对话的所有方面。
机器学习特别适合于涉及在大型数据库中查找模式的问题。机器学习基本上解决了曲线拟合问题。会话AI中有几个问题可以很好的反应出这种类型的解决方案,例如语音识别和语音合成。该技术也已应用于意图识别(采用人类语言的文本句子并将其转换为用户意图或愿望的高级描述)并取得了很大成功,尽管使用此技术捕获意义时存在一些限制。自然语言,本质上是有状态的,对语境敏感,而且往往含糊不清。
但是,计算机对话中肯定存在一些不太适合机器学习的问题。将人机对话视为由两部分组成:
1、自然语言理解(NLU) - 理解用户所说的内容
2、自然语言生成(NLG) - 为用户制定合理的主题响应。
目前主要集中在第一部分,但是在这一代中仍然存在许多挑战,而这些挑战往往不适合机器学习,因为响应生成不仅仅是收集和分析批次的产物。在未来的几年里,维持一个可信的、持续的和有状态的对话的挑战将需要更多的关注这些NLG和对话管理部分的问题。
更高保真度的体验
今天的会话体验可能非常简单,而且受太多的限制。为了超越这些限制,我们需要支持更高保真度的对话。实现这一目标有几个部分,包括:
1、广泛而深入的对话。今天的大多数会话体验要么非常广泛而且浅薄(例如,“现在是几点?”=>“早上9点45分”)或者非常狭窄但很深(例如,在测验游戏中的多转对话)。为了超越这些有限的经验,我们需要进入一个广泛而深入的对话世界。这将需要更好地理解用户输入的上下文,以便能够适当地响应,强有力地跟踪对话的状态(存储器),以及扩展到超出当前技术限制的能力。
2、个性化。在两个人之间的自然对话中,每个人通常会利用之前与另一个人的经历,并将根据他们的回答量身定制。不这样做的计算机对话往往会感觉不自然甚至烦人。长期解决这个问题需要解决诸如说话人识别之类的挑战,以便计算机知道你是谁,并且可以对你和其他人做出不同的反应。另一方面是跟踪先前对话的状态并且能够随时间不同地响应,例如学习特定用户的偏好或风格。
3、多模式输入和输出。目前,会话AI专注于理解口头输入和产生口头反应。但是,用户可以以多种不同的方式提供输入,并且输出也可以以不同的形式生成。例如,除了提供口头输入之外,用户还可以按下屏幕上的按钮。或者情绪分析可用于提供计算机可以做出反应的情绪级输入。同时支持多个输入或输出会带来一系列需要考虑的复杂性。例如,如果用户在按“是”按钮时显示“否”,系统应该怎么做?
在循环中寻找人类的正确角色
作为技术专家,我们经常被驱使尝试以计算方式解决每个问题。然而,重要的是要注意一些领域,例如游戏和娱乐或销售和营销,可能总是希望精细地制作计算机响应的声音和个性以匹配他们的品牌。此外,最近已经注意到,尝试生成完全自动化的自然语言生成可能不是最佳前进方式,因为最自然的人类对话不是重复大量先前对话的结果,而是通过考虑当前上下文形成的,独特的双方的会话历史,以及一系列更广泛的会话技巧和惯例。
这些论点表明,将人类置于初始对话生成的循环中可能实际上是一件好事,而不是我们必须寻求根除的东西。自然语言生成解决方案必须允许人类“创意总监”输入,能够控制合成角色的语气,风格和个性。
今天,这些创造性的输入必然处于人类写作层面,系统可以识别每个上下文的个体响应,并定义对话应该如何流入下一个问题或主题。这就是目前所有计算机对话体验的工作方式。我们似乎不太可能在未来几年完全消除这种人在循环中,因此当我们展望未来时,我们将希望建立支持更具可扩展性和广泛机制的方法来定义一个人的声音和音调。例如,计算机响应能够在更抽象的层面上定义其关键特征。
人工“宿主”显然非常复杂,并且在反应和行为方面往往与血肉之躯无法区分。然而,这是通过在“叙述”部门中让许多作家定义每个主持人的内容及其各种高级人格特征来实现的。创意设计师可以使用强大的可视化创作工具调整这些因素。
在未来几年,该领域可以从灵活的创作工具的开发中受益,使得对话编写者能够像Photoshop赋予艺术家或Final Cut Pro赋予权力的视频创作者一样的方式。
结合更丰富的语言生成和对话管理系统工具,更高保真度的体验以及更好地在循环中使用人类将产生更好的内容,并最终将我们带入一个充满愉快和无缝计算机对话体验的世界。
本文地址:"http"//www.qdlidong.cn/article/976.html"声明:本文来自网络编辑,不代表本网赞同其观点和对其真实性负责,如涉及作品版权和其它问题,请与本站联系,我们将在第一时间删除内容!

热门软件

  • 电脑软件
  • 手机软件
  • 手机游戏
更多>

用户评论

返回顶部