【ML基础】从特征组合及其权重的角度对常用模型做统一解释 - 2022H1

总思路

如果把机器学习理解为对输入X的组合空间的表征，那该表征主要包括「特征组合方式」和「其对应权重（weight）」两个核心要素。另外，表示特征方式包括：原始特征值（ $x_{i}$ , $x_{j}$ ）和特征向量embvec（ $e_{i}$ , $e_{j}$ ）， $e_{i} * e_{j}$ 表示 $e_{i}$ 和 $e_{j}$ 的dot-product。

常用模型的统一解释

基于上述两个核心要素的算法对比：

树模型/gbdt：每棵树的leaf node对应的预测结果（response），可以理解为从根节点到该leaf node的路径上所有特征的交叉的weight。
mlp/lr：不具有直接原始特征值交叉的能力（所以需要人工交叉），但可以理解为通过线性加权（weight）的方式做全部特征的“弱”交叉，需要使用非线性激活函数来解决非线性问题。
fm/ffm：直接的二阶原始特征值交叉（ $x_{i}$ * $x_{j}$ ），weight为 $e_{i} * e_{j}$ ，即由特征向量embvec内积得到，和self-attention一样( $q_{i} * k_{j}$ )。fm也可称为二阶特征向量embvec的交叉（ $x_{i}$ , $x_{j}$ 一般为1，可忽略）。
transformer 或 self-attention：token/特征 $e_{i}$ 的交互方式为 $s o f t m a x (W_{q} * e_{i} * W_{k} * e_{1 \dots n}) * W_{v} * e_{1 \dots n}$ 。与fm相比都是基于特征向量，但transformer除了有和fm一样的 $q_{i} * k_{j}$ ，又做了softmax归一化和对v_i的weighted sum（fm没有做softmax且 $v_{j}$ 换成了 $x_{i}$ * $x_{j}$ ）；而且transformer是多层+FFN（获取更深、泛化性更好的交互），fm为一层。
1. 适用场景：组合空间大且链接稠密（共现性高）、数据多且质量高
2. 一层transformer也是二阶交叉，多层则“变相”实现了多阶交叉。cnn、gnn也类似，rnn相当于横向多层
3. 替换统计特征的难点：1.模型训练batch小，而统计特征是基于全局的统计。2.一些组合特征的共现性低（比如个性化特征），容易过拟合，并会被共现性高的特征影响，而用统计的方式很容易做
cnn：image每个pixel/特征的embvec为feature map的channel维（即 $e_{i}$ , $e_{j}$ ）。filter卷积操作即为weighted sum $e_{i}$ 和 $e_{j}$ （而self-attention的weight来自 $e_{i} * e_{j}$ ，且cnn非全局而是local的）。
ViT：因为做pixel级embvec的计算量和存储太大，改为一个patch做为一个embvec，然后用self-attention。
lstm（假设激活函数为relu和不考虑bias）： $e_{t}$ 和 $e_{t - 1}$ 的交叉部分可简化为 $W_{f} * W_{i} * e_{t} * e_{t - 1}$ 和 $W_{i} * W_{h} * e_{t} * e_{t - 1}$ ， $W_{f}$ 为forget gate参数， $W_{i}$ 为input gate参数， $W_{h}$ 为 $h_{t}$ 的参数。
gat/gnn：类似cnn的filter的field，基于特定node（ $e_{i}$ ）的neighbor nodes做 $\sum_{1 \dots n} W_{i} * e_{i}$ 。
DCN：construct all the cross terms $x_{1}^{α_{1}} * x_{2}^{α_{2}} * . . . * x_{d}^{α_{d}}$ （ $α$ 次幂原始特征值的交叉，非特征向量或embvec交叉） with degree | $α$ |>2。理论上基于泰勒公式的幂级数可以拟合任何数据分布或函数，该方法理论基础很好。

讨论环节

问题1： $x_{i}$ 和 $x_{j}$ 的组合空间很稀疏，为什么fm是有效的？

对特征 $x_{i}$ 在样本中出现的频次做过滤，保证每个embvec均可训练。
只会通过样本中出现的特征组合对相关的特征表征embvec做BP训练。（如果样本存在模式坍塌或非完备的特征组合分布，会容易过拟合，所以这类方法对样本量的要求远大于基于原始特征值的方案，如lr等）。
特征表征交叉的方式需要训练的参数量远小于「原始特征值笛卡尔积交叉」的方式，从N^2降到N*k，N为特征field的个数。

欢迎补充。希望基于这种串联加深对各算法的理解和作为平时算法选型的参考。