本人由于简历上申明研究生方向为深度强化学习方向,因此面试官都问了较多关于强化学习的问题。除此之外就是关于机器学习的问题。
函数的意义(这个问题我一面没回答出来,二面面试官又问了一遍,我才想起来,应该就是在当前状态下最优策略的未来累积回报值)。
写写逻辑回归的损失函数,并且推导一下权重更新公式。(我写了以后,面试官接着问)如果不用梯度下降优化,还能怎么优化,我说了一些优化算法,他说牛顿法怎么具体更新参数的(我只知道利用了二阶梯度信息,很诚实的说具体推导不会)
写写线性回归的损失函数,并推导权重更新公式。(我写完以后,面试官接着问)
一定可逆吗?我说不是,他又问:如果有两个特征的取值一模一样,这个更新公式有问题吗?(我想了半天,觉得可能会过拟合到这两个特征上,就尝试引导面试官让我写加了正则化的权重更新公式。但是面试官说不考虑正则化,就问当前表达式有什么问题。我诚实的说不清楚。后来面试官引导我说想想刚刚我问你的问题,我才想起来这时候
2) 使用replay-buffer存储过去的样本,消除训练样本的相关性。
面试官又问问什么需要单独设置TD目标网络(我又把刚刚参数去相关性,防止TD目标频繁更新扯了一遍)。
正则化可以保持参数的稀疏性(我回答了两个角度,一个是画约束图,相信大家都会,另一个是
正则化本质上是假设样本的先验分布服从拉普拉斯分布,画出拉普拉斯分布曲线解释),然后又推了一下为什么
)分布。(想了五分钟后,还是不会,当时想的每次怎么产生一个伪随机数,一直想不出来)
- 本文固定链接: https://douyinkuaishou.cc/?id=15843
- 转载请注明: admin 于 抖音快手 发表
《本文》有 0 条评论