一、概念
向量相似度是指衡量两个向量在向量空间中相似程度的指标。在机器学习和自然语言处理等领域,向量相似度通常用于比较文档、图片、声音或其他类型的数据。
二、计算样本点距离有很多种方法:
最为常见的欧氏距离来定义向量空间内2个点的距离,对于二维空间而言,样本A的2个特征值为(X1,Y1),样本B的2个特征值为(X2,Y2),那么2个样本的距离计算公式如下。
距离 = 开根号【(x1-x2)平方+(y1-y2)平方】
除了欧氏距离,下面还要好多计算距离的方式,了解即可:
1. 欧氏距离 (Euclidean Distance)
欧氏距离是最直观的距离度量方式,它衡量的是多维空间中两点之间的直线距离。对于两个向量 A=(a1,a2,...,an) 和 B=(b1,b2,...,bn),它们之间的欧氏距离定义为:
2. 曼哈顿距离 (Manhattan Distance)
曼哈顿距离也称为城市街区距离,它衡量的是在一个格网化的城市(如曼哈顿)中,两点之间的最短路径距离。对于两个向量 A和 B,曼哈顿距离定义为:
3. 余弦相似度 (Cosine Similarity)
余弦相似度衡量的是两个向量在方向上的相似程度,而不考虑它们的幅度。它通过计算两个向量的点积和它们幅度的乘积的比值来定义。对于两个向量 A 和 B,余弦相似度定义为:
其中,A⋅B 是两个向量的点积,∥A∥ 和 ∥B∥ 是向量的欧氏范数。
余弦相似度是指两个向量的夹角的余弦值(cos)
夹角越小,说明两个向量越接近,余弦值越接近1
夹角越大,说明两个向量越不接近,余弦值比1小。
余弦距离 = 1- 余弦相似度
余弦距离越小,说明两个向量在方向上越相似;余弦距离越大,则说明它们在方向上越不相似。
4. 切比雪夫距离 (Chebyshev Distance)
切比雪夫距离衡量的是多维空间中两点在各个维度上的差值的最大值。对于两个向量 A 和 B,切比雪夫距离定义为: d(A,B)=max(∣a1−b1∣,∣a2−b2∣,...,∣an−bn∣)
5. 闵可夫斯基距离 (Minkowski Distance)
闵可夫斯基距离是欧氏距离和曼哈顿距离的一般化形式,通过一个参数 p 来控制距离的计算方式。当 p=1时,闵可夫斯基距离等同于曼哈顿距离;当 p=2 时,等同于欧氏距离。对于两个向量 A 和 B,闵可夫斯基距离定义为: d(A,B)=(∑i=1n∣ai−bi∣p)1p
6. 马氏距离 (Mahalanobis Distance)
马氏距离考虑了数据的协方差,是一种有效的相似度度量,特别适用于数据具有相关性的情况。它通过协方差矩阵来调整各个维度的尺度。对于两个向量 A 和 B,马氏距离定义为: d(A,B)=(A−B)⊤S−1(A−B) 其中,S 是数据的协方差矩阵。
这些相似度和距离度量方法在不同的应用场景中有不同的优势和局限性。选择合适的度量方法取决于数据的特性和应用的具体需求。