1、均方误差作为损失函数,这时所构造出来的损失函数是非凸的,不容易求解,容易得到其局部最优解;而交叉熵的损失函数是凸函数;
2、均方误差作为损失函数,求导后,梯度与sigmoid的导数有关,会导致训练慢;而交叉熵的损失函数求导后,梯度就是一个差值,误差大的话更新的就快,误差小的话就更新的慢点。
Adam算法即自适应时刻估计方法(Adaptive Moment Estimation),能计算每个参数的自适应学习率。这个方法不仅存储了AdaDelta先前平方梯度的指数衰减平均值,而且保持了先前梯度M(t)的指数衰减平均值,这一点与动量类似。
Adam实际上就是将Momentum和RMSprop集合在一起,把一阶动量和二阶动量都使用起来了。
行为策略是专门负责学习数据的获取,具有一定的随机性,总是有一定的概率选出潜在的最优动作。而目标策略借助行为策略收集到的样本以及策略提升方法提升自身性能,并最终成为最优策略。
Off-policy是一种灵活的方式,如果能找到一个“聪明的”行为策略,总是能为算法提供最合适的样本,那么算法的效率将会得到提升。on-policy 里面只有一种策略,它既为目标策略又为行为策略。
在很多问题中的最优策略是随机策略(stochastic policy)。(如石头剪刀布游戏,如果确定的策略对应着总出石头,随机策略对应随机出石头、剪刀或布,那么随机策略更容易获胜)
Value-Base,对于连续动作空间问题,虽然可以将动作空间离散化处理,但离散间距的选取不易确定。过大的离散间距会导致算法取不到最优action,会在这附近徘徊,过小的离散间距会使得action的维度增大,会和高维度动作空间一样导致维度灾难,影响算法的速度。
Policy-Based适用于连续的动作空间,在连续的动作空间中,可以不用计算每个动作的概率,而是通过Gaussian distribution (正态分布)选择action。
问题6:归一化[-1,1]和归一化到[0,1]对后面的网络计算有什么影响吗
一般会归一化到[-1,1],因为大部分网络是偏好零对称输入的,神经网路中使用激活函数一般都是ReLU,如果ReLU的输入都是正数,那么它其实就是一个恒等函数,有没有它都一个样,ReLU就失去了意义。
如果ReLU的输入都是负数的话,会出现“死区”,即神经元输出都是0,为了避免这个问题,需要令ReLU的输入尽量正负平衡,比如在ReLU前加一个BN。
若nums[i] 0,后面不可能有三个数加和等于0,直接返回结果即可。
1、当满足三数之和为0时,需要判断左界和右界是否和下一位重复,进行去重,并更新左右指针;
进大厂是大部分程序员的梦想,而进大厂的门槛也是比较高的。刷题,也成为面试前的必备环节。
七妹给大家准备了“武功秘籍”,七月在线年出的两本书《名企AI面试100题》和《名企AI面试100篇》后,又整理出《机器学习十大算法系列》、《2021年最新大厂AI面试题 Q3版》两本图书,不少同学通过学习拿到拿到dream offer。
为了让更多AI人受益,七仔现把电子版免费送给大家,希望对你的求职有所帮助。如果点赞和点在看的人数较多,我会后续整理资料并分享答案给大家。
- 本文固定链接: http://douyinkuaishou.cc/?id=34273
- 转载请注明: admin 于 抖音快手 发表
《本文》有 0 条评论