时间:2022-09-24 10:36:33 | 浏览:7797
智能对话是搜索引擎的未来形态,神马搜索在发展全网搜索、国内信息流、国际信息流等大数据业务的同时,智能对话的探索和沉淀也逐渐浮出水面。过去一年基于搜索推荐多年的积累,我们完成了平台架构、生产体系、算法体系、运营体系的建设;为阿里集团多个业务方提供了智能信息中台服务,并在个人语音助手上大幅前进。本文主要介绍神马搜索智能对话的内容体系和平台架构,篇幅有限一些细节不做过多展开。
术语对齐
TaskBot引擎: 核心处理对象是“技能”,我们把技能定义成结构化(query+content)、垂直场景化的任务,比如实时场景查询、工具类、控制类等
QABot引擎:包括KG-QA引擎、QAPair引擎、DeepQA引擎。KG-QA主要是百科和围绕全网知识图谱的精准问答;QAPair引擎以问答对生产消费为主;DeepQA引擎基于url索引、分类聚类、焦点词、摘要的多级系统
ChatBot引擎:包括基于检索和生成的闲聊引擎
内容体系
网页搜索与智能对话是信息服务的不同承载方式,在数据、算法、架构上一脉相承。也正因此积累,谷歌等搜索引擎公司可以快速推出其AI平台&产品,以信息服务为基础To B/C。
技能库+知识库+问答库+闲聊库,构成了信息服务场景下智能对话的基础设施,举几个例子说明下不同库对不同query(询问)的满足,小马同学正在看一场NBA比赛,他说:
"现在火箭领先多少分了?" -> 技能库
"篮球是谁发明的?" -> 知识库
"哈登能进名人堂吗?" -> 问答库
"咱们聊聊NBA吧?" -> 闲聊库
通用信息服务始终在追求问答的覆盖和质量,这也是业界的难点,包括半结构化/非结构化数据的处理、内容生产模式、内容敏感问题、用户满足等等;神马搜索在一年的探索中积累出的多级QA系统、MOPU(Machine/OGC/PGC/UGC)多元化生产、流程化规模化可持续的生产体系走在了业界的前沿;在最近一次天猫精灵理想query集合评测上,触发率达到73%,准确率达到了91%;这个数据是什么概念,可以参考业界代表性产品的指标:
根据Stone Temple最近的调查,谷歌虚拟助理可以回答68%的用户问题,其中90.6%的答案是正确的,而微软Cortana能够回答的用户问题比例为56.5%,准确率为81.9%;而苹果Siri回答的用户问题比例为21.7%,准确率为62.2%,亚马逊Alexa回答的用户问题比例为20.7%,准确率为87%
架构体系
上图为架构体系整体大图。"引擎"负责数据的构建和计算的承载,"平台"负责以引擎为核心构建的闭环解决方案(生产、多租户消费、运营、需求管理等)。系统的落地,得以于搜索多年的积累沉淀。该系统完全与搜索业务解耦,承载了天猫精灵等业务方的流量(以及双十一晚会直播问答)。下面会分别介绍神降临平台、TaskBot引擎、QABot引擎。
神降临平台
神降临平台是TaskBot引擎的平台化延展,解决技能生产、消费、运营等问题。对于外部开发者它是BotFramework;对于外部调用者它是神马整个智能对话的出入口;对于内部RD它是生产和运营平台。目前该平台主要服务集团内部业务。神降临由技能开放平台、技能生产平台、统计分析平台、运营管理平台组成。
为了技能的普适性,每个技能我们都以技能组的方式支持多场景:标准无屏、手机屏、大屏,标准无屏针对天猫精灵音箱类似场景,手机针对神马的个人助理场景,他们在多轮需求、结构化展现、排序策略上都不尽相同;另外内置技能的物料除了实体、语料、剧本之外,支持投递c++动态库以支持不同的排序策略、NLG策略等。
通过该平台将技能建设在线化、PD/RD/QA/运营分工明确pipeline生产。
注1:中间橙色为TaskBot引擎,下文展开介绍
注2:大图中TaskBot引擎、QABot引擎、ChatBot引擎为逻辑架构;物理架构上QABot和ChatBot级联到TaskBot中,有多个模块进行多路召回和pk判定
TaskBot引擎
TaskBot引擎是技能构建和消费的内核。它涉及离线计算、内容管理、调度、在线服务。
SDS引擎是任务式对话的核心。它接受用户的query,以DM为控制中枢、以NLU为理解中枢、通过US做召回和rank、以NLG包装后输出。目前资讯播报、时区、限行、历史上的今天、单位换算、油价、日历、nba、lbs等技能天猫精灵上线技能触发率97-98%,准确率95%+;
对话引擎在流程控制上有两个重要的组成部分:
NLU:NLU有两种不同的设计理念:
上述2自然涵盖1,神马的NLU是2的模式。今年NLU系统经历了两次大的升级,一次是整个SDS的NBest升级,一次是子NLU化,子NLU可以让不同的Domain根据自身特别内部个性化定制意图识别和抽槽策略、并提升RD并行度。
NLG/US/Skill-Gateway 不再展开。
QABot引擎
业界对问答有不同的划分维度,按照内容维度可划分为结构化数据问答、非结构化数据问答、以及基于问答对的问答。而从技术角度看,业界一般分为基于检索式的问答系统和基于生成式的问答系统。前者是将信息检索系统构建于大规模对话数据集之上,通过建立有效的问句匹配和问答相关度量化模型实现对用户问题的合理回复;后者则试图通过构建端到端(End-to-End)的深度学习模型,从海量对话数据中自动学习query和response之间的语义关联,从而达到对于任何用户问题都能够自动生成回复的目的。
我们当前主要专注于基于海量数据的检索式QA系统,而在系统层面划分为:KG-QA、Baike-QA、DeepQA、PairQA,它们都是对既有知识的搬运整理,但是在数据来源/要求、加工方式、匹配方式、覆盖场景又不尽相同。笔者认为世界的理想终局是结构化的(知识库),但是这个永远无法真正实现,比如信息的持续产生和更新以及自然语义处理的难度,所以需要两个方向同时并行前进。
KG-QA和Baike-QA准确高但是覆盖有限,基于非结构化的Deep-QA覆盖高但是污染大,Pair-QA的社会化生产大幅提升生产力但是需要好的场景和问题,诸多的挑战决定了问答的难度和壁垒。
这里主要介绍PairQA和DeepQA系统如下图所示:
图谱引擎
知识图谱是神马搜索的核心基础设施,借助搜索大数据和自然语言处理、深度学习技术打造,也是历史最悠久的数据产品,在搜索知识化、智能化发展历程中发挥了关键作用。基于知识图谱和自然语言理解,我们构建了知识卡片、实体推荐、精准问答三个主要产品。在智能对话业务,针对音箱的场景,还重点建设了菜谱、古诗词、三国、世界之最等特色技能,输出到天猫精灵。而在生产侧,一方面持续引入知识抽取、知识推理的前沿新技术,另一方面也建立了图谱的社会化生产模式,来持续建设和补充专业领域的知识,使知识图谱更好地为业务赋能。
详情可阅读这两篇文章:
知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?
首次公开!深度学习在知识图谱构建中的应用
总结
去年一年,智能对话团队初步完成了从搜索到智能对话的技术升级,在实战中沉淀出AI+信息服务的架构、算法、运营、内容体系。感恩时代,AI对话的路很长,我们一起努力。
移动互联网的到来打破了原有:电视、广播、报纸等传统媒介的局限,无疑掀起了一股互联网营销的热浪。在互联网营销行业中,几乎所有的需求都指向了能够在垂直方向,更精准、更省时、更多层次、更互动、能够提供整套服务解决办法的搜索,神马搜索正是兼具多样搜
智能对话是搜索引擎的未来形态,神马搜索在发展全网搜索、国内信息流、国际信息流等大数据业务的同时,智能对话的探索和沉淀也逐渐浮出水面。过去一年基于搜索推荐多年的积累,我们完成了平台架构、生产体系、算法体系、运营体系的建设;为阿里集团多个业务方
互联网大时代下,毫无疑问符合移动互联网特性的垂直搜索时代已经到来,目前,包括网页和应用在内,所有互联网服务都在产生数据,如何有效地筛选这些数据,就成了搜索的核心。在移动互联网时代,几乎所有的需求都指向了能够在垂直方向,更精准、更省时、更多层
近日,阿里巴巴旗下移动搜索引擎品牌神马搜索发布了其首款导购产品——神马快爆(kuaibao.sm.cn),主打淘宝小二的双11爆款清单,以及爆料达人的全网超值商品分享。据悉,此次神马快爆的上线,是神马搜索发布以来首次在导购领域的尝试。并且,
近日,阿里巴巴旗下的移动搜索品牌神马搜索在微博上抛出了一条关于“单调”的话题讨论,并透露10月13日即将发布大招。当然,如果只是这样也不会引起什么关注,而接下来包括高德地图、UC浏览器、唱吧、yunos等众多品牌纷纷贺电互动,让这个事件热闹
近日,国内知名移动互联网第三方数据挖掘及分析研究机构比达咨询(BDR)发布《2018年中国移动搜索市场研究报告》。报告数据显示,从市场份额上看,神马搜索占据2018年中国移动搜索市场份额22.3%,排名第二;从增速上看,神马搜索流量增速最快
近日,国内知名移动互联网第三方数据挖掘及分析研究机构比达咨询(BDR)发布《2017年度中国移动搜索市场研究报告》,报告中显示,在2017年中国移动搜索流量市场份额分布中,神马搜索以18.5%的份额排名第二,神马搜索连续三年位居第一军团。其
近日,移动互联网第三方数据挖掘及分析研究机构比达咨询(BigData-Research)最新发布了《2019年上半年中国移动搜索市场研究报告》。监测数据显示,2019上半年,中国移动搜索用户规模达6.66亿人,占网络搜索用户比例达97.3%
中国搜索行业的规范化进程在 2019 年得到进一步推进,人工智能技术与移动搜索引擎的结合加速移动搜索市场的扩大,同时也使得企业发展仍存在巨大变数。本次iiMedia Research(艾媒咨询)发布的《2019 Q1中国移动搜索市场研究报告
什么是神马搜索神马搜索主要基于UC浏览器,是专注于移动互联网的搜索引擎,为用户创造方便、快捷、开放的移动搜索新体验。神马搜索产品包括app搜索、购物搜索、小说搜索等,致力于做最好的移动互联网搜索平台。神马搜索推广的优势资源丰富神马搜索拥有5
4月29日,艾媒咨询(iiMedia Research)发布《2019Q1中国移动搜索市场研究报告》显示,中国移动搜索用户达到6.89亿,应用人工智能技术,各大主流搜索引擎不断提升用户的搜索质量、效率和体验。其中,神马搜索以近4%的用户增速
艾奇之前给大家分享过挺多百度搜索的推广技巧,本篇笔者给大家分享个小众渠道—神马搜索的投放技巧。在笔者投放的所有渠道中,神马的效果算是最好的。神马无论是匹配还是质量都还不错,如果非要挑出一个毛病的话,那就是神马的量太少,不过这与竞争与平台的体
——2017第三届云南省互联网大会高峰访谈2010年,UC推出了“搜索大全”,移动搜索业务在内部低调发展了4年后, 2014年4月,UC正式宣布与阿里巴巴合作共同发布旗下移动搜索引擎品牌——神马搜索。2015年,UC神马搜索开始在全国进行区
关于神马sm.cn是一款专注于移动互联网的搜索引擎,为每位用户提供高效、方便、轻松的移动搜索体验。神马团队是由UC优视与阿里巴巴共同发起组建,这是由两大优秀企业共同发起,团队的员工全部是由国内外各大IT公司的优秀员工。神马搜索用户满意程度第
神马搜索推广是由国内用户量最大的UC浏览器与中国互联网领军企业阿里巴巴共同发起组建,并由来自微软、谷歌、360等国内外IT公司的顶尖技术人员组成。在智能手机刚崛起的时候,UC浏览器由于看小说方便,以及搜索方便收获了一大批忠实粉丝,保证了浏览