深度强化学习DRL在推荐系统应用的思考

问题描述

最近一段时间,一直忙着调研强化学习,特别是深度学强化学习如何和推荐系统相结合。在看个半个月强化学习相关书籍和资料后,开始找寻RL For RecSys相关的paper,刚开始一搜,觉得还挺多嘛,入手应该不难。像Google、Microsoft、阿里、京东均有发表,特别是京东,好几篇,当时就觉得挺激动,不过细阅后,发现实际在生产线上落地过的,应该只有前三者,而且也是ABTest状态,京东是线下用模拟器跑的,感觉说服力不够。所以,实际上,能供参考的有效资料并不是特别丰富,很多细节估计得靠上线后去把握,去琢磨。

背景描述

目前我所参与的推荐系统和算法的开发,是作用于一款Feed流形式的资讯类app,目前线上的模型有LR、GBDT+LR、各种DNN等,做各种召回、排序的同事也挺多,在重排这快,目前还是以策略和人工规则为主,各个公司应该也都差不多,比如类目打散、类目限制、强插、强出等等,比较复杂,比较臃肿,但是重排也是特别重要的一块,在这里,物品多样性的控制显的尤为重要。推荐系统从抽象的来说,就是准确率和多样性的一个综合,在不同的上下文环境,不同的用户,这个比例的控制对用户体验,对指标,有着巨大的影响。所以,很自然的想到,如果想在重排这块做点工作,强化学习是个值得深入的方向。虽然也看到有阿里论文介绍针对List-Wise优化的监督学习方法,不过在公司现有的业务状况下,首先还是考虑了用强化学习去控制重排中的各种参数,比如排序多模型融合时候的融合参数,类目数量的个性化控制,是否要插入视频,插入几个视频等等,这些场景应用和公司本身业务联系更紧密。

心得体会

待补充