京东探索研究院跨模态视觉分析代码库X-modaler系统化地集成了跨模态分析各大任务中最常用七大模块(如编码器模块、跨模态交互模块以及解码器模块等),每一个模块也包含了各种前沿技术算法,例如跨模态交互模块可以选择传统的Attention、Top-Down Attention、Meshed Memory Attention以及最新的X-Linear Attention。具体示意如下图:
基于这七大模块,X-modaler就可以轻松支持各种多模态任务,如image/video captioning、vision-language pre-training、VQA、VCR、cross-modal retrieval,同时也能很好地复现每个多模态任务中的前沿技术,例如在image captioning的任务中X-modaler集成了京东AI团队从ICCV17的LSTM-A、ECCV18的GCN-LSTM、再到CVPR20的X-LAN。目前代码库支持的算法如下图,后续将不断加入更多最新技术的实现,整个代码库包括使用文档以及预训练模型均已开源。(https://github.com/YehLi/xmodaler)
长按二维码浏览
在传统的AI认知中,视觉领域、语音领域、自然语言领域等领域之前是独立演进的技术和应用,可以认为是单模态技术,而人是一个看、听、说多模态共同工作的智能体,所以多模态技术是未来人工智能应用发展的方向。
京东探索研究院多模态交互数字人技术ViDA-Man致力于打造具备多感官交互能力的人机交互系统,深入多模态交互技术研究,专注于人机交互的消费科技产品打造。基于该技术开发的多模态交互数字人形象引擎,能够提供快速的形象定制能力,从外观的数字化逐渐深入到行为的交互化、情绪的智能化。
ViDA-Man致力于打造具备多感官交互能力的人机交互系统,深入多模态交互技术研究,专注于人机交互的消费科技产品打造。基于现有的人机对话技术,创新性研究类人风格的虚拟形象生成技术,深度融合计算机视觉、自然语言与语音等多项AI技术,结合泛文娱和智能客服场景,提供真人虚拟形象的新型拟人式交互新体验(项目主页:https://ascust.github.io/vidaman/)。
长按二维码浏览
获奖论文展示了一个完整的多模态数字人系统,包含语音模块、对话模块、视觉模块、驱动模块以及流模块等。先进的ASR技术与基于多音色融合的TTS技术使数字人具备了出色听以及说的能力;基于多技能、多回合的对话系统使数字人具备了多样性的应答能力。基于3D重构技术以及神经渲染技术的视觉模块使数字人具备了逼真的外表以及自然的动作。同时流式服务模块将音视频整合,让系统具备低延迟的实时交互能力。各模块并非独立运作,而是有机整合在一起,使得各模态数据真正实现融合。
二、京东为什么“看中”多模态技术
数字浪潮的推动让人工智能技术已经实现从不可用到可用,AI产品化时期,诸如智能语音识别技术、智能图片处理技术、基于用户兴趣的算法引擎推荐、智能审核技术、AR/VR技术、5G技术等成为了AI落地的抓手,掀起了科技创新的新浪潮。梅涛表示,获奖技术早已服务于京东云打造的虚拟数字人、拍照购、搭配购等多个产品,并开始在产业化、商业化项目中广泛应用。
例如,这些技术已大规模应用于正在如火如荼展开的京东11.11。如,基于计算机视觉以图搜图的搜索应用,辅助以语音对话交互技术的“拍照购”和“搭配购”功能已在刚刚拉开帷幕的京东11.11中大放异彩,通过拍照或截图方式,直接匹配搭配好的时尚单品,打造“一站加购”、“一键买齐”的购物新体验,帮助商家强种草、高转化。
今年京东11.11期间,针对商品营销内容推出的智能写作服务“达人写作”,形成一篇百余字商品文案仅需300毫秒,5分钟可以创作出1000篇文案,覆盖近3000个商品品类,累计生成3,000万AI内容,相比于人工撰写内容点击转化率超过40%,成本降低93.2%。
除京东内部应用之外,这些获得国际学术界顶尖荣誉的领先技术正在通过京东云这个统一平台输出对外赋能各行各业。比如,基于多模态交互数字人技术研发的“虚拟数字人”能助力京东云智能客服产品提升智能接待、服务和虚拟助手的体验。比如,京东云智能客服业务与某银行合作,打造了全国第一个交互式数字人项目“数字柜员”,有别于播报式数字人,“数字柜员”涉及VTM虚拟坐席交互,利用AI技术,实现用虚拟人替代真人柜员办理业务、把控风险。
可以看到,京东AI技术之所以能取得如此优异的成绩,是其在真实复杂场景的有效实践和千锤百炼。作为京东集团对外技术输出的窗口,京东云不仅是政府、企业、家庭数字化转型全生命周期合伙人,并基于人工智能、大数据、云计算、物联网、区块链、隐私计算等技术,通过数智化全链条技术服务,助力千行百业数字化转型,激发产业无限可能。
三、关于ACM Multimedia
ACM Multimedia是计算机科学领域中多媒体领域的首要国际会议,1993年以来每年召开一次,已成为多媒体领域顶级盛典,大会致力于推动多媒体的研究和应用。
ACM Multimedia 2009 曾在北京举办,ACM Multimedia 2021 是该会议第二次在中国举办。
四、校友简介
梅涛,9610校友,1996年考入图书馆VIP,2001年获得本科学位,2006年获得图书馆VIP博士学位,2018年当选IEEE Fellow。
现任京东集团副总裁,京东人工智能研究院副院长,计算机视觉与多媒体实验室主任。现负责京东AI视觉与多媒体领域的基础研究和技术创新,并探索该领域技术在零售、物流、金融、云计算以及时尚和设计等新兴领域的应用。