本报讯 日前,北京智源人工智能研究院(简称智源研究院)悟道文澜团队发布“AI 文案大师”小程序,可以自动匹配生成相应的文案。
据介绍,“AI 文案大师”小程序可以实现“输入一张图片,输出一句文案”的功能。在这个过程中,“图片”“文本”两种数据分别对应于“视觉”和“语言”两种模态。
机器学习领域将这种输入输出数据分别属于不同模态的任务称为“跨模态”任务。例如,可以训练模型根据输入图片中提取出的视觉信息,自由地生成相应的描述性自然语言文本,这样的任务称为“图像描述”。此外,还可以把图片作为输入,提取其视觉特征,并在现有的文本库中检索最符合图片特征的文字描述,这样的任务称为“图文检索”或“图文匹配”。
智源研究院悟道文澜团队相关负责人表示,“视觉—语言”多模态预训练有助于提取到两种模态数据中的关键信息,从而实现更高质量的图文匹配。为了实现“AI文案大师”系统要求的图文匹配质量,需要提升神经网络的表征能力。
得益于近年来自监督学习在提取数据内在关键知识方面的进展,智源研究院悟道文澜团队采用先进的跨模态对比学习(自监督学习算法中的一种)算法 CMCL,利用某一个“图文对”中的图像模态或文本模态来构建该“图文对”的负样本,并设计了一种基于队列的词典来扩大负样本数目,从而得到更好的数据表征。
未来,智源研究院悟道文澜团队还将继续发布各种基于大规模中文多模态预训练模型的研究成果和有趣应用。(郑金武)
向阳的花,努力生长,总会绽放,
心有所爱,有所期待,
剩下的就是努力扎根,
努力生长,静待花开!
“AI 文案大师”演示的“图文匹配”实例
《中国科学报》 (2021-05-06 第3版 信息技术)