深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛

深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛决策智能是国家新一代人工智能的重要发展方向,强化学习是实现决策智能的核心技术之一。在强化学习中,智能体与环境进行不断的交互,基于环境的反馈学习如何选择一系列动作,以使长期累积的奖励和最大。…

大家好,又见面了,我是你们的朋友全栈君。

深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛

决策智能是国家新一代人工智能的重要发展方向,强化学习是实现决策智能的核心技术之一。在强化学习中,智能体与环境进行不断的交互,基于环境的反馈学习如何选择一系列动作,以使长期累积的奖励和最大。近年来,该方向已经取得了一系列瞩目的进展,比如工业控制中的电网控制与数据中心冷却、电子竞技游戏中的OpenAI Five与AlphaStar、棋类游戏中的AlphaZero与MuZero等。然而,作为一种新兴技术,强化学习与决策智能仍面临大量挑战。

专题论坛:AI系

议程 


深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛

嘉宾介绍


论坛主席-叶杰平

深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛

叶杰平,贝壳找房副总裁、首席科学家,智源研究员,密西根大学教授,IEEE Fellow、ACM杰出科学家。叶杰平博士主要从事机器学习、数据挖掘和大数据分析领域的研究,致力于推进人工智能技术在出行、居住和医疗等领域的应用。他是多个国际顶级人工智能会议的资深委员会会员、区域主席和委员会副主席, 也是多个顶级人工智能期刊的副主编。曾获得KDD和ICML最佳论文奖,荣获2010年美国国家自然科学基金会生涯奖、2017年中国计算机学会“CCF科学技术奖科技进步卓越奖”、2019年度国际运筹学领域顶级实践奖–瓦格纳运筹学杰出实践奖(Daniel H. Wagner Prize)。

报告嘉宾-徐昕

深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛

徐昕,国防科技大学智能科学学院智能科学技术系主任,博士生导师,国家杰出青年科学基金获得者。主要研究领域是机器人和智能无人系统的机器学习与自主控制。任中国人工智能学会理事,中国指挥与控制学会无人系统专业委员会副主任,IEEE高级会员。获国家自然科学二等奖1项、湖南省自然科学一等奖2项、国防科技进步二等奖与湖南省自然科学优秀论文一等奖各1项。主持国家自然科学基金重点项目2项、973课题等国家级项目10余项。出版专著2部,发表论文170余篇,代表性论文发表在IEEE TNNLS, IEEE TSMC: Systems, IEEE TPAMI, J. AI Research, Information Sciences, J of Filed Robotics, IEEE TCST, IEEE TITS, IEEE T-IE, IEEE/ASME T-Mechatronics等期刊,SCI收录80余篇。任IEEE Transactions on SMC: Systems, Information Sciences, International Journal of Robotics and Automation等国际SCI期刊的Associate Editor,CAAI Transactions on Intelligence Technology副主编以及《控制理论与应用》等期刊编委。

报告主题:强化学习的特征表示与知识迁移

报告摘要:报告分析了强化学习理论与算法研究面临的大规模连续空间泛化能力、在线学习效率和快速收敛性、不同任务之间的迁移学习等挑战性问题,阐述了强化学习的特征自动构造和表示学习研究进展,重点介绍了强化学习的稀疏核特征表示、流形特征构造、深度特征的稀疏编码等理论算法研究,并且进一步讨论了迁移强化学习的研究动态,介绍了基于元知识抽取的迁移强化学习算法研究进展。最后对相关领域的未来发展趋势进行了探讨。

报告嘉宾-应雷

深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛

应雷是密歇根大学电子工程和计算机科学系教授。研究领域包括强化学习,大规模通讯网络和云计算系统,数据隐私和图挖掘。

报告主题:A Data-Driven Approach for Constrained Reinforcement Learning

报告摘要:Traditional reinforcement learning aims to maximize the expected cumulative reward, but in practice, many applications need to be operated under a variety of operational constraints. This talk introduces a data-driven approach for constrained reinforcement learning, which ensures operational constraints, such as safety and fairness, during both learning and decision making.  

报告嘉宾-汪昭然

深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛

汪昭然,西北大学IEMS 系和 EECS 系助理教授。本科毕业于清华大学电子工程系,博士毕业于普林斯顿大学 ORFE 系(Microsoft Research PhD Fellow)。研究方向为增强学习、统计和优化,侧重于多智能增强学习和博弈论。曾获 AISTATS Notable Paper Award 以及 INFORMS 和 ASA 的 Best Student Paper Awards。

报告主题:Demystifying (Deep) Reinforcement Learning with Optimism and Pessimism

报告摘要:Coupled with powerful function approximators such as deep neural networks, reinforcement learning (RL) achieves tremendous empirical successes. However, its theoretical understandings lag behind. In particular, it remains unclear how to provably attain the optimal policy with a finite regret or sample complexity. In this talk, we will present the two sides of the same coin, which demonstrates an intriguing duality between optimism and pessimism.

– In the online setting, we aim to learn the optimal policy by actively interacting with the environment. To strike a balance between exploration and exploitation, we propose an optimistic least-squares value iteration algorithm, which achieves a √T regret in the presence of linear, kernel, and neural function approximators.

– In the offline setting, we aim to learn the optimal policy based on a dataset collected a priori. Due to a lack of active interactions with the environment, we suffer from the insufficient coverage of the dataset. To maximally exploit the dataset, we propose a pessimistic least-squares value iteration algorithm, which achieves a minimax-optimal sample complexity.

报告嘉宾-郝建业

深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛

郝建业博士,华为诺亚方舟决策推理实验室主任。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文100余篇,专著2部。主持参与国家基金委、科技部、天津市人工智能重大等科研项目10余项,研究成果荣获ASE2019、DAI2019、CoRL2020最佳论文奖等,同时在游戏AI、广告及推荐、自动驾驶、网络优化等领域落地应用。

报告主题:深度强化学习的挑战及落地

报告摘要:本报告首先会介绍深度强化学习背景与基础,然后从如何学的好、学的快、学的稳三方面介绍深度强化学习所面临的挑战及相应的解决方案,同时介绍深度强化学习在自动驾驶控制、5G网络优化、供应链物流优化等场景的应用。

报告嘉宾-秦志伟

深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛

秦志伟(Tony)博士,滴滴AI Labs首席研究员,决策智能团队负责人,致力于网约车交易市场中核心策略优化的研究。他从美国哥伦比亚大学获得运筹学博士,曾在沃尔玛全球电子商务任职研究科学家,近几年主要聚焦在强化学习及其在运筹优化,智能交通,在线营销上的应用。他在机器学习,数据挖掘和运筹优化的顶级会议和期刊发表近30篇论文,并是多个会议和期刊(NeurIPS, ICML, KDD, AAAI, PAMI等)的评审专家。他和他的团队获得了 INFORMS 2019年Daniel H. Wagner Prize(运筹学杰出应用奖),并入选NeurIPS 2018 Best Demo Awards。Tony拥有10多项美国专利,涵盖智慧交通,供应链管理,和推荐系统。

报告主题:网约车交易市场优化:学习与评估

报告摘要:随着智能手机的日益普及和功能强大,网约车平台已经成为人们实现实时、个性化出行的可靠选择。滴滴, Uber, 和Lyft都是其中的领导者。这些平台通过连接司机和乘客,使空闲的车座被有效利用,来满足不断增多的实时出行需求。在此次讲座中,我们会介绍我们在网约车调度优化中的研究工作。我们先介绍离线强化学习方法,以及在一系列现实环境实验的结果。我们还会讨论我们在最新的统一派单调度的在线方法上的进展。


2021智源大会群英荟萃,已确认出席嘉宾包括图灵奖得主Yoshua Bengio、David Patterson,Peter Dayan以及人工智能各领域多位世界级的专家。本届大会采用线上+线下模式,线上报名已开启,线下参会和官网即将公开。

人工智能领域不容错过的内行分享,等你一同见证!

扫码加入「强化学习」论坛交流群,参与相关话题讨论

深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/137276.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • linux将目录移动到指定目录下_shell获取文件所在路径

    linux将目录移动到指定目录下_shell获取文件所在路径摘要腾兴网为您分享:第七应用,flash29,信息来电闪光灯,优惠购,实况足球2018,汕大附一,同学聚会简单通知书,cajviewer,惠普deskjet1010,英魂之刃,运动世界,建行大学,爱奇艺会员,sketchup渲染器,电脑尺子,中俄边境游,山东政务服务网等知识经验教程,欢迎大家关注腾兴网。linux系统下,用户根据需求来进行各项操作,有小伙伴想移动文件,操作起来不大容易,linux…

    2022年10月5日
    0
  • QCustomPlot系列(5)-实时动态曲线[通俗易懂]

    QCustomPlot系列(5)-实时动态曲线[通俗易懂]先来个动图看看效果:支持鼠标平移、滚轮缩放、框选放大、取消框选、一键全显、单击显示xy坐标值。。等平移功能是QCustomPlot自带的功能,参见我的该系列前面的博文。框选放大、全显等功能在另一篇博文中也讲到了。这里只讲2个知识点:1、显示鼠标指向的点坐标,2、实时滚动1、箭头指向要显示的坐标点,代码步骤:(1)添加新类,继承QCustomPlot添加private成员变…

    2022年10月16日
    1
  • html如何设置有序列表的列表项,HTML的有序列表

    html如何设置有序列表的列表项,HTML的有序列表针对HTML的有序列表,由于平常使用的不是很多,刚开始使用的时候也是有遇到一些坑,有几个小问题:1.li的宽度不能设置为100%,这样的话就没办法看到前面的序号2.如果设置li的颜色字体大小,前面的序号会跟着变化,但是给Li设置背景颜色,需要是不会有背景色的3.序号的所占空间约在两个字符之间,但是又不算在Li空间里面,所以在写css样式的时候可能要注意好有序列表有几种项目1项目2项目3第一个typ…

    2022年6月16日
    36
  • pycharm哪个版本_pycharm版本选择

    pycharm哪个版本_pycharm版本选择Pycharm各大版本Pycharm作为python最常见的IDE,常见的有三种版本专业版:功能强大,适合开发者,需要通过付费或学生认证才能使用社区版:可以供广大python爱好者免费使用,具备常用的python库,可以实现基本的python用法,用于试验在工作中出现的错误教育版:基于社区版发展而来,也是免费使用,其功能与社区版相似,但是更适合学生,新人学习,由教师可以创建工程、教学…

    2022年8月28日
    0
  • uva-10194-排序

    uva-10194-排序

    2022年3月5日
    48
  • 图形界面开发工具_java的开发工具有哪些

    图形界面开发工具_java的开发工具有哪些DevExpressVCLControls是Devexpress公司旗下最老牌的用户界面套包,所包含的控件有:数据录入,图表,数据分析,导航,布局等。该控件能帮助您创建优异的用户体验,提供高影响力的业务解决方案,并利用您现有的VCL技能为未来构建下一代应用程序。【适用范围】:EmbarcaderoRADStudio2010/XE/XE2/XE3/XE4/XE5…

    2022年9月24日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号