当前位置: 首页 > news >正文

微信小程序可以做电影网站吗成全视频观看免费高清中国电视剧

微信小程序可以做电影网站吗,成全视频观看免费高清中国电视剧,wordpress泽七,企业网站的购买方式强化学习-UCB示例 1-UCB动作选择方法算法-示例1 场景设定 假设你来到一家有多种菜品的餐厅#xff0c;每次去只能点一道菜#xff0c;你希望通过多次尝试找到最合自己口味#xff08;即收益最高#xff09;的菜品。这里每道菜就相当于多臂老虎机问题中的一个“臂”…强化学习-UCB示例 1-UCB动作选择方法算法-示例1 场景设定 假设你来到一家有多种菜品的餐厅每次去只能点一道菜你希望通过多次尝试找到最合自己口味即收益最高的菜品。这里每道菜就相当于多臂老虎机问题中的一个“臂”UCBUpper Confidence Bound置信上限动作选择方法可以帮助你在尝试不同菜品探索和选择已知好吃的菜品利用之间找到平衡。 初始状态 餐厅有 n n n 道菜一开始你对所有菜品都没有任何体验。对于每道菜 i i i 需要记录两个值 **尝试次数 n i n_i ni​ **初始时每道菜的尝试次数 n i 0 n_i 0 ni​0 。**累计收益 R i R_i Ri​ **初始时每道菜的累计收益 R i 0 R_i 0 Ri​0 。**总尝试次数 N N N **初始时 N 0 N 0 N0 。 执行过程 前 n n n 次用餐探索阶段 菜品选择为了对每道菜都有一定的了解在前 n n n 次用餐中你会依次选择不同的菜品。即第一次选择第一道菜第二次选择第二道菜以此类推直到把 n n n 道菜都尝试一遍。收益评估每次用餐后你根据自己对这道菜的满意度给出一个收益评分 r r r 例如满分为 10 分。假设你第一次选择了宫保鸡丁吃完后觉得味道不错给了 7 分。此时宫保鸡丁的尝试次数 n 宫保鸡丁 1 n_{宫保鸡丁}1 n宫保鸡丁​1 累计收益 R 宫保鸡丁 7 R_{宫保鸡丁}7 R宫保鸡丁​7 总尝试次数 N 1 N 1 N1 。第二次选择鱼香肉丝给了 6 分那么鱼香肉丝的 n 鱼香肉丝 1 n_{鱼香肉丝}1 n鱼香肉丝​1 R 鱼香肉丝 6 R_{鱼香肉丝}6 R鱼香肉丝​6 总尝试次数 N 2 N 2 N2 。平均收益计算每道菜的平均收益 R ‾ i R i n i \overline{R}_i\frac{R_i}{n_i} Ri​ni​Ri​​ 。例如宫保鸡丁的平均收益 R ‾ 宫保鸡丁 7 1 7 \overline{R}_{宫保鸡丁}\frac{7}{1}7 R宫保鸡丁​17​7 分鱼香肉丝的平均收益 R ‾ 鱼香肉丝 6 1 6 \overline{R}_{鱼香肉丝}\frac{6}{1}6 R鱼香肉丝​16​6 分。 第 n 1 n 1 n1 次及以后的用餐探索与利用平衡阶段 计算 UCB 值从第 n 1 n 1 n1 次用餐开始每次选择菜品前需要为每道菜计算 UCB 值。UCB 值的计算公式为 U C B i R ‾ i c ln ⁡ N n i UCB_i\overline{R}_i c\sqrt{\frac{\ln N}{n_i}} UCBi​Ri​cni​lnN​ ​ 其中 c c c 是一个常数用于控制探索和利用的平衡 c c c 值越大越倾向于探索 c c c 值越小越倾向于利用。假设 c 1 c 1 c1 。 以宫保鸡丁和鱼香肉丝为例假设已经尝试了 3 次 N 3 N 3 N3 宫保鸡丁尝试了 2 次 n 宫保鸡丁 2 n_{宫保鸡丁}2 n宫保鸡丁​2 累计收益 R 宫保鸡丁 13 R_{宫保鸡丁}13 R宫保鸡丁​13 第二次吃宫保鸡丁给了 6 分平均收益 R ‾ 宫保鸡丁 13 2 6.5 \overline{R}_{宫保鸡丁}\frac{13}{2}6.5 R宫保鸡丁​213​6.5 分鱼香肉丝尝试了 1 次 n 鱼香肉丝 1 n_{鱼香肉丝}1 n鱼香肉丝​1 累计收益 R 鱼香肉丝 6 R_{鱼香肉丝}6 R鱼香肉丝​6 分平均收益 R ‾ 鱼香肉丝 6 \overline{R}_{鱼香肉丝}6 R鱼香肉丝​6 分。计算宫保鸡丁的 UCB 值 U C B 宫保鸡丁 6.5 1 × ln ⁡ 3 2 ≈ 6.5 0.73 7.23 UCB_{宫保鸡丁}6.51\times\sqrt{\frac{\ln 3}{2}}\approx6.5 0.737.23 UCB宫保鸡丁​6.51×2ln3​ ​≈6.50.737.23 。计算鱼香肉丝的 UCB 值 U C B 鱼香肉丝 6 1 × ln ⁡ 3 1 ≈ 6 1.09 7.09 UCB_{鱼香肉丝}61\times\sqrt{\frac{\ln 3}{1}}\approx6 1.097.09 UCB鱼香肉丝​61×1ln3​ ​≈61.097.09 。 菜品选择选择 UCB 值最大的菜品。在上述例子中因为 U C B 宫保鸡丁 U C B 鱼香肉丝 UCB_{宫保鸡丁}UCB_{鱼香肉丝} UCB宫保鸡丁​UCB鱼香肉丝​ 所以第 4 次用餐你会选择宫保鸡丁。收益评估与数据更新用餐后根据满意度给出这道菜的收益评分 r r r 。假设这次吃宫保鸡丁给了 7 分那么宫保鸡丁的累计收益 R 宫保鸡丁 13 7 20 R_{宫保鸡丁}13 7 20 R宫保鸡丁​13720 尝试次数 n 宫保鸡丁 3 n_{宫保鸡丁}3 n宫保鸡丁​3 总尝试次数 N 4 N 4 N4 平均收益 R ‾ 宫保鸡丁 20 3 ≈ 6.67 \overline{R}_{宫保鸡丁}\frac{20}{3}\approx6.67 R宫保鸡丁​320​≈6.67 分。然后在下一次选择时重新计算每道菜的 UCB 值重复上述过程。 总结 UCB 动作选择方法在前期会对所有菜品进行探索以获取基本的收益信息。之后通过计算每道菜的 UCB 值综合考虑菜品的平均收益和其不确定性尝试次数在探索新菜品和利用已知好吃的菜品之间找到平衡。随着用餐次数的增加会逐渐倾向于选择那些平均收益高且相对稳定尝试次数多的菜品但也会偶尔尝试其他菜品以避免错过可能更好的选择。 2-UCB动作选择方法算法-示例2 在UCBUpper Confidence Bound置信上限动作选择方法中确实会自动分配更多机会给尝试不足或久未验证的动作下面结合餐厅用餐的例子详细解释其原理及证明。 UCB值公式体现探索性 UCB值的计算公式为 U C B i R ‾ i c ln ⁡ N n i UCB_i\overline{R}_i c\sqrt{\frac{\ln N}{n_i}} UCBi​Ri​cni​lnN​ ​ 其中 R ‾ i \overline{R}_i Ri​ 是动作 i i i 对应餐厅里的某道菜的平均收益代表了目前对该动作的已知收益情况。 N N N 是总的尝试次数。 n i n_i ni​ 是动作 i i i 被尝试的次数。 c c c 是一个常数用于调节探索和利用的平衡。 公式中的 c ln ⁡ N n i c\sqrt{\frac{\ln N}{n_i}} cni​lnN​ ​ 这一项体现了对动作不确定性的估计也就是鼓励对尝试不足或久未验证的动作进行探索。 尝试不足的菜品优先被选择 数学原理当某道菜 i i i 的尝试次数 n i n_i ni​ 较小时 ln ⁡ N n i \frac{\ln N}{n_i} ni​lnN​ 的值会较大从而使得 c ln ⁡ N n i c\sqrt{\frac{\ln N}{n_i}} cni​lnN​ ​ 这一项的值较大那么 U C B i UCB_i UCBi​ 的值就会相对较大。结合例子假设餐厅有宫保鸡丁、鱼香肉丝和麻婆豆腐三道菜。前几次用餐后宫保鸡丁尝试了 10 次平均收益是 7 分鱼香肉丝只尝试了 2 次平均收益是 6 分麻婆豆腐尝试了 1 次收益是 8 分。此时总尝试次数 N 13 N 13 N13 设 c 1 c 1 c1 。 计算宫保鸡丁的 UCB 值 U C B 宫保鸡丁 7 1 × ln ⁡ 13 10 ≈ 7 0.52 7.52 UCB_{宫保鸡丁}7 1\times\sqrt{\frac{\ln 13}{10}}\approx70.52 7.52 UCB宫保鸡丁​71×10ln13​ ​≈70.527.52 。计算鱼香肉丝的 UCB 值 U C B 鱼香肉丝 6 1 × ln ⁡ 13 2 ≈ 6 1.47 7.47 UCB_{鱼香肉丝}6 1\times\sqrt{\frac{\ln 13}{2}}\approx6 1.477.47 UCB鱼香肉丝​61×2ln13​ ​≈61.477.47 。计算麻婆豆腐的 UCB 值 U C B 麻婆豆腐 8 1 × ln ⁡ 13 1 ≈ 8 1.86 9.86 UCB_{麻婆豆腐}8 1\times\sqrt{\frac{\ln 13}{1}}\approx81.86 9.86 UCB麻婆豆腐​81×1ln13​ ​≈81.869.86 。可以看到虽然麻婆豆腐只尝试了 1 次但由于其尝试次数少不确定性大导致 c ln ⁡ N n i c\sqrt{\frac{\ln N}{n_i}} cni​lnN​ ​ 这一项的值较大使得它的 UCB 值最大因此下一次就会优先选择麻婆豆腐进行尝试。 久未验证的菜品有机会被再次选择 数学原理随着总尝试次数 N N N 的增加 ln ⁡ N \ln N lnN 会不断增大。对于久未验证即尝试次数 n i n_i ni​ 没有随着 N N N 同步增加的动作 ln ⁡ N n i \frac{\ln N}{n_i} ni​lnN​ 会逐渐增大从而使得 c ln ⁡ N n i c\sqrt{\frac{\ln N}{n_i}} cni​lnN​ ​ 增大 U C B i UCB_i UCBi​ 也可能增大。结合例子假设经过多次用餐大部分时候都选择了宫保鸡丁和鱼香肉丝麻婆豆腐很久没有被选择了。此时总尝试次数 N N N 变得很大而麻婆豆腐的尝试次数 n 麻婆豆腐 n_{麻婆豆腐} n麻婆豆腐​ 没有增加太多。那么 c ln ⁡ N n 麻婆豆腐 c\sqrt{\frac{\ln N}{n_{麻婆豆腐}}} cn麻婆豆腐​lnN​ ​ 这一项会随着 N N N 的增大而增大有可能使得麻婆豆腐的 U C B 麻婆豆腐 UCB_{麻婆豆腐} UCB麻婆豆腐​ 超过其他菜品从而在下一次被选择即对其进行再次验证。 综上所述UCB动作选择方法通过UCB值的计算能够自动分配更多机会给尝试不足或久未验证的动作在餐厅用餐的例子中会优先选择那些尝试次数少的菜品或者在总尝试次数增加后再次选择久未尝试的菜品。 3-UCB动作选择方法算法-示例3 真实生活案例在线视频平台的「视频推荐系统」 背景某视频平台如YouTube需在用户首页推荐3个视频A/B/C目标是最大化用户观看时长。 动作选择推荐哪个视频A/B/C奖励用户观看时长分钟挑战 视频A高质量但小众真实平均时长8分钟视频B中等质量但稳定真实平均时长5分钟视频C低质量标题党真实平均时长2分钟 目标用UCB算法平衡探索新视频与利用已知优质视频 UCB算法执行过程 参数设置 探索因子 c2平衡探索强度初始值 Q(A)Q(B)Q(C)0初始平均奖励N(A)N(B)N(C)0展示次数t0总推荐次数 第1轮强制探索t1 问题所有N(a)0 → UCB值无限大解决方案每个视频轮流展示一次初始探索 动作结果更新推荐A观看9分钟N(A)1, Q(A)9/19推荐B观看4分钟N(B)1, Q(B)4/14推荐C观看1分钟N(C)1, Q(C)1/11 总次数t3 第4轮UCB决策起点t4 计算UCB值c2, ln(3)≈1.1UCB(A) 9 2×√(1.1/2) ≈ 9 2×1.05 **11.1** UCB(B) 4 2×√(1.1/1) ≈ 4 2.1 **6.1** UCB(C) 1 2×√(1.1/1) ≈ 1 2.1 **3.1** 选择动作推荐UCB值最大的视频A利用结果观看7分钟接近真实值8更新 N(A)2, Q(A)(97)/28 t4 第5轮探索信号出现t5 计算UCB值ln(4)≈1.39UCB(A) 8 2×√(1.39/2) ≈ 8 2×√0.695 ≈ 8 2×0.83 **9.66** UCB(B) 4 2×√(1.39/1) ≈ 4 2×1.18 **6.36** UCB(C) 1 2×√(1.39/1) ≈ 1 2.36 **3.36** 选择动作仍然推荐视频A利用结果观看8分钟更新 N(A)3, Q(A)(168)/38 t5 第6轮系统触发探索t6 计算UCB值ln(5)≈1.61UCB(A) 8 2×√(1.61/3) ≈ 8 2×√0.537 ≈ 8 2×0.73 **9.46** UCB(B) 4 2×√(1.61/1) ≈ 4 2×1.27 **6.54** UCB(C) 1 2×√(1.61/1) ≈ 1 2×1.27 **3.54** 关键变化 B的探索项 √(ln(t)/N(B)) 从1.18→1.27因t↑但N(B)未增B的UCB值首次超过A的探索项6.54 9.46-81.46 选择动作推荐视频B探索结果观看5分钟符合真实值更新 N(B)2, Q(B)(45)/24.5 t6 第7轮验证探索结果t7 计算UCB值ln(6)≈1.79UCB(A) 8 2×√(1.79/3) ≈ 8 2×0.77 **9.54** UCB(B) 4.5 2×√(1.79/2) ≈ 4.5 2×√0.895 ≈ 4.5 2×0.95 **6.4** UCB(C) 1 2×√(1.79/1) ≈ 1 2×1.34 **3.68** 选择动作推荐视频AUCB值仍最高结果观看6分钟正常波动更新 N(A)4, Q(A)(246)/47.5 t7 第10轮压制低价值探索t10 当前状态 N(A)6, Q(A)≈7.8稳定高质量N(B)3, Q(B)4.3中等质量N(C)1, Q(C)1低质量 计算UCB值ln(10)≈2.3UCB(A) 7.8 2×√(2.3/6) ≈ 7.8 2×0.62 **9.04** UCB(B) 4.3 2×√(2.3/3) ≈ 4.3 2×0.88 **6.06** UCB(C) 1 2×√(2.3/1) ≈ 1 2×1.52 **4.04** ← 探索项激增 选择动作推荐视频C因长期未探索UCB探索项飙升结果观看0.5分钟用户快速跳过更新 N(C)2, Q(C)(10.5)/20.75 t10 第15轮收敛到最优解t15 最终状态 N(A)10, Q(A)7.9N(B)4, Q(B)4.5N(C)2, Q(C)0.75 UCB值计算UCB(A) 7.9 2×√(2.7/10) ≈ 7.9 2×0.52 **8.94** UCB(B) 4.5 2×√(2.7/4) ≈ 4.5 2×0.82 **6.14** UCB(C) 0.75 2×√(2.7/2) ≈ 0.75 2×1.16 **3.07** 策略结果 推荐A的概率 80%最优解偶尔推荐B约15%几乎不推荐C5% UCB的核心机制分析 1. 动态探索项公式 探索强度 c × √(㏑t / N(a)) N(a)↓展示少→ 探索项↑ → 强制探索如第6轮选Bt↑总次数增→ 探索项↑ → 防遗忘如第10轮选C 2. 智能探索分配 视频真实质量UB策略效果A高高利用为主偶尔验证B中适量探索占15%C低快速压制探索5% 3. 非平稳环境自适应 假设视频B质量提升新编剧→平均时长从5→7分钟 第20轮当B的Q(B)随新数据上升UCB变化Q(B)↑ 探索项↑因t↑→ 重新增加B的曝光 对比ε-greedy的劣势场景 假设使用ε0.2的贪婪算法 第10轮时 80%概率推荐A正确20%概率完全随机 → 可能浪费1/3探索在已知低质的C上 B质量提升时 依赖随机探索发现改进 → 响应速度慢 UCB在实际系统的优化 衰减机制# 降低旧数据权重适应内容变化 Q(a) (1 - α) * Q(a) α * r # α≈0.1~0.3上下文扩展Contextual BanditUCB(a) θ·x(a) c√(x(a)ᵀA⁻¹x(a)) # 加入用户特征分布式计算 全局统计t和N(a)局部计算用户个性化UCB 总结UCB的核心价值 通过数学公式量化不确定性 UCB ( a ) Q ( a ) ⏟ 利用项 c ln ⁡ t N ( a ) ⏟ 探索项 \text{UCB}(a) \underbrace{Q(a)}_{\text{利用项}} \underbrace{c \sqrt{\frac{\ln t}{N(a)}}}_{\text{探索项}} UCB(a)利用项 Q(a)​​探索项 cN(a)lnt​ ​​​ 探索自动分配给尝试不足或久未验证的动作利用优先选择置信上界最高的动作收敛证明总遗憾regret增长率为O(√T) 在视频推荐案例中UCB实现了 ✅ 快速锁定优质视频A利用✅ 智能探索潜力视频B避免过早放弃✅ 压制低质视频C减少资源浪费✅ 自适应内容变化通过探索项响应质量波动
http://www.ho-use.cn/article/10820395.html

相关文章:

  • 西安将军山网站建设网站地图提交地址
  • 个人求职网站如何做游戏网站开发文档
  • WordPress对接微信公众号人员优化方案怎么写
  • 成都微信端网站建广告设计制作税率
  • 移动端网站建设公司怎样做天猫 淘宝网站导购
  • 中国做网站最好的不用登录的传奇游戏
  • 网站论坛建设需要什么资质怎么利用爬虫技术 提高网站排名
  • ps如何做网站轮播图房产网站方案
  • 建站市场3d建模怎么做网站旋转
  • 动易网站模板制作方法网络广告营销典型案例
  • 开发一个网站做公司内部用网站备案删除
  • 各类设计型网站创建网站需要什么
  • 深圳高端网站建设美工wordpress 探针
  • 网站二次开发没人做网站布局框架
  • 网站建设公司推荐 金石下拉上海青浦网站建设公司
  • 国家现代农业示范区建设网站泰安房产中介公司
  • 怎么查网站死链网站 html5
  • 自己做的网站403品牌建设运营方案
  • 网站制作设计正规公司北京关键词优化平台
  • 找logo的网站做网站中显示链接中内容
  • 东莞网站建设乐云seo政务公开做的好的网站有哪些
  • 外贸网站seo推广wordpress 账号 有效期
  • 十堰秦楚网 十堰新闻门户网站深圳建设合同备案 网站
  • 检测网站名 注册红旗渠建设集团网站
  • 网站开发合同管辖权异议wordpress免费建站
  • 网站建设规划面试技巧网站超大文件上传
  • 自己怎样做公司广告视频网站学校网站asp源码
  • 投资建设个什么网站好黄山旅游
  • 网业翻译成中文做seo推广公司
  • 小视频网站开发网站建设需要了解哪些方面