中文向量化模型候选:
向量模型的各任务效果对比:
1、sentence-transformers/all-MiniLM-L6-v2 处理的token数量,向量维度为384维,支持多种语言。语义表达较差
2、Text-embedding-ada-002 处理token数量<=6000,向量维度1536
2、BAAI/bge-m3
3、多语言模型:BAAI/bge-m3 支持的输入长度<=8192
向量索引构建: 向量近似查询的比较HNSW和OPQ:图像检索:OPQ索引与HNSW索引
from langchain_community.embeddings im