单热编码将一列标签索引映射到一列二进制向量,最多只有一个单值。 此编码允许期望连续特征(例如Logistic回归)的算法使用分类特征。 不使用pipeline版本 from pyspark.ml.feature import OneHotEncoder, StringIndexer df = spark.createDataFrame([ (0, "a"), (1, "b"