학술논문

基于流形学习的句向量优化 / Sentence embedding optimization based on manifold learning
Document Type
Academic Journal
Source
计算机应用 / Journal of Computer Applications. 43(10):3062-3069
Subject
流形学习
预训练模型
对比学习
句向量
自然语言处理
局部线性嵌入
manifold learning
pre-trained model
contrastive learning
sentence embedding
natural language processing
Local Linear Embedding(LLE)
Language
Chinese
ISSN
1001-9081
Abstract
句向量是自然语言处理的核心技术之一,影响着自然语言处理系统的质量和性能.然而,已有的方法无法高效推理句与句之间的全局语义关系,致使句子在欧氏空间中的语义相似性度量仍存在一定问题.为解决该问题,从句子的局部几何结构入手,提出一种基于流形学习的句向量优化方法.该方法利用局部线性嵌入(LLE)对句子及其语义相似句子进行两次加权局部线性组合,这样不仅保持了句子之间的局部几何信息,而且有助于推理全局几何信息,进而使句子在欧氏空间中的语义相似性更贴近人类真实语义.在7个文本语义相似度任务上的实验结果表明,所提方法的斯皮尔曼相关系数(SRCC)平均值相较于基于对比学习的方法SimCSE(Simple Contrastive learning of Sentence Embeddings)提升了1.21个百分点.此外,将所提方法运用于主流预训练模型上的结果表明,相较于原始预训练模型,所提方法优化后模型的SRCC平均值提升了3.32~7.70个百分点.