简单来说,embedding就是用一个低维的向量表示一个物体,可以是一个词,或是一个商品,或是一个电影等等。这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义,比如 Embedding(复仇者联盟)和Embedding(钢铁侠)之间的距离就会很接近,但 Embedding(复仇者联盟)和Embedding(乱世佳人)的距离就会远一些。 除此之外Embedding甚至还具有数学运算的关系,比如Embedding(马德里)-Embedding(西班牙)+Embedding(法国)≈Embedding(巴黎) 从另外一个空间表达物体,甚至揭示了物体间的潜在关系,上次体会这样神奇的操作还是在学习傅里叶变换的时候,从某种意义上来说,Embedding方法甚至具备了一些本体论的哲学意义。 言归正传,Embedding能够用低维向量对物体进行编码还能保留其含义的特点非常适合深度学习。在传统机器学习模型构建过程中,我们经常使用one hot encoding对离散特征,特别是id类特征进行编码,但由于one hot encoding的维度等于物体的总数,比如阿里的商品one hot encoding的维度就至少是千万量级的。这样的编码方式对于商品来说是极端稀疏的,甚至用multi hot encoding对用户浏览历史的编码也会是一个非常稀疏的向量。而深度学习的特点以及工程方面的原因使其不利于稀疏特征向量的处理(这里希望大家讨论一下为什么?)。因此如果能把物体编码为一个低维稠密向量再喂给DNN,自然是一个高效的基本操作。
the parameter impacts of the filter width w and the number of feature map m in corresponding layer are studied filter width 与feature map 具体在论文第四页有提及,没有说明修正位置、默认值以及可设置范围。
1.在这个数据集上应用了负向下采样。定义下采样率为w,预测的CTR为p,重新校准的CTR q 2.在实验中比较了7个模型,它们是用TensorFlow4实现(LR,FM,FNN,CCPM,IPNN,OPNN,PNN),用随机梯度下降法(SGD)进行训练。采用了dropout作为正则化方法来防止训练神经网络时的过度拟合。 3.we set dropout rate at 0.5 on networkhidden layers.将网络隐层的滤除率设置为0.5。
使用方法
Follow the instructions and update the soft link data:
1
XXX/product-nets$ ln -sfn XXX/make-ipinyou-data/2997 data
run main.py:
1 2
cd python python main.py
Wide & Deep
1
[DLRS 2016]Wide & Deep Learning for Recommender Systems
论文链接
1
https://arxiv.org/pdf/1606.07792.pdf
各种细节
1
1.模型训练时为每个分类特征学习一个 32 维嵌入向量
DeepFM
1
[IJCAI 2017]DeepFM: A Factorization-Machine based Neural Network for CTR Prediction
论文链接
1
https://www.ijcai.org/proceedings/2017/0239.pdf
数据集
1 2
Criteo:包括4500万用户的点击记录。 Company
各种细节
1 2
1.for FNN and PNN: (1)dropout: 0.5; (2) network structure: 400-400-400; (3) optimizer: Adam; (4) activation function: tanh for IPNN, relu forother deep models. 2.研究了不同深度模型的不同超参数,对公司数据集的影响。顺序是:1)激活函数;2)辍学率;3)每层的神经元数量;4)隐藏层数量;5)网络形状。dropout设置为1.0、0.9、0.8、0.7。每层的神经元数量200,400,800。网络形状:constant, increasing,decreasing, and diamond.
注:这篇文章对于超参数进行了大量实验
Piece-wise Linear Model
1
[arxiv 2017]Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
[ADKDD 2017]Deep & Cross Network for Ad Click Predictions
论文链接
1
https://arxiv.org/abs/1708.05123
数据集
1
Criteo Display Ads2
各种细节
1 2 3 4 5
1.batch size is set at 512 2.gradient clip norm was set at 100. 3.隐层的数量从2到5不等。 4.隐藏层大小从32到1024 5.初始学习率从0.0001到0.001,增量为0.0001
最佳超参数选择
1 2
The optimal hyperparameter seings were 2 deep layers of size 1024 and 6 cross layers for the DCN model, 5 deep layers of size 1024 for the DNN, 5 residual units with input dimension 424 and cross dimension 537 forthe DC, and 42 cross features for the LR model
注:本文对于超参数有详细的实验,具体请参考原文。所列不全。
Attentional Factorization Machine(AFM)
1
[IJCAI 2017]Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks
1.学习率:0.01 2. the number of hidden layers,the dropout ratio, activation functions 3.IFM的性能在开始时随着网络的增加而提高。然而,当网络的深度大于2(Frappe)或3(Movielens)时,模型的性能开始下降。 4.Fraith的Frappe和MovieLens的最佳辍学率分别为0.3和0.4, 5.ReLU更适合这两个数据集
注:本文进行了详细的超参数实验
DCN V2
1
[arxiv 2020]DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems
论文链接
1
https://arxiv.org/abs/2008.13535
数据集
1 2 3
Criteo MovieLen-1M Production
各种细节
1 2 3 4
1. learning rate was tuned from 10−4 to 10−1 ,再到10-4到5×10-4 2.隐蔽层的数量在{1,2,3,4}之间,大小为{562, 768, 1024}。 3.正则化参数𝜆的范围为{0, 3 × 10−5, 10−4} 4.研究的超参数:depth of cross layers,matrix rank of DCN-Mix,number of experts in DCN-Mix
DIFM
1
[IJCAI 2020]A Dual Input-aware Factorization Machine for CTR Prediction
论文链接
1
https://www.ijcai.org/Proceedings/2020/0434.pdf
数据集
1 2
Avazu Criteo
各种细节
1 2 3 4 5 6 7 8
1.所有模型的学习都是通过使用Adam(学习率:0.001) 2.Criteo和Avazu的嵌入大小分别被设定为20和40。 3.批量大小对这两个数据集都设置为2000 4.所研究的超参数:the number of attention heads n,the attention key size dk, activation functions (the vector-wise part),the number of hidden layers in DNNs 5.the number of attention heads n,进行了从1-16的实验,最后将数量固定在16 6.the attention key size dk,在Avazu上将注意因子的大小从20增加到100时,Avazu数据集的模型性能稳步提高,而在Criteo数据集上,80是一个更合适的注意因子大小设置。为避免模型过于复杂,我们将Avazu的注意力系数固定为100,Criteo为80。 7.Relu作为向量部分的神经元的激活函数 8.对于Avazu最好的性能是我们只使用一个隐藏层,对于Criteo数据集采用两个
\documentclass[UTF8]{ctexart} \title{你好,world!} \author{李凯杰} \date{\today} \begin{document} \maketitle \section{你好中国} 中国在 East Asia. \subsection{Hello Beijing} 北京是 capital of China. \subsubsection{Hello Dongcheng District} \paragraph{Tian'anmen Square} is in the center of Beijing \subparagraph{Chairman Mao} is in the center of 天安门广场。 \subsection{Hello 北京} \paragraph{北京} is an international city。 \end{document}