WhiteningBERT:降低向量维度且效果提高

背景

使用BERT等模型生成句向量,使用FAISS或ElasticSearch(ES)等引擎进行语义向量检索,是工业界常用的方法。然后在巨大的数据量时搜索时间成本巨大。

Whitening-BERT借鉴PCA方法对语义向量进行降维。有效提升语义相似度计算的效果。

首先介绍一下PCA降维降维方法。

PCA(主成分分析)

用最直观的方式告诉你:什么是主成分分析PCA