2025年12月24日上午9:30至11:30,中央财经大学中国精算研究院在沙河校区学院楼13号楼209教室成功举办第278期精算论坛。本期论坛特邀金融数学与精算科学领域极具影响力的两位青年学者——香港理工大学应用数学系许左权教授、南方科技大学数学系张艺赢助理教授,分别以“基于强化学习的连续时间最优停止问题研究”与“最坏情形下帕累托最优再保险合同设计”为题,带来精彩报告。论坛由刘敬真教授主持,吸引了中央财经大学、北京航空航天大学及南开大学等校的众多师生踊跃参与。

图一 许左权教授在做报告
在讲座中,许左权教授聚焦于模型参数未知情形下的扩散过程最优停止问题,将其置于Wang等人(2020)提出的连续时间强化学习(RL)框架下进行研究。他通过引入变分不等式的惩罚项,将原问题转化为包含两类动作的随机最优控制问题;进一步地,通过将控制策略随机化为伯努利分布并加入熵正则项以促进探索,推导出半解析形式的最优伯努利分布。在此基础上,结合Jia与Zhou(2022a)建立的鞅方法,构建了高效的离线与在线强化学习算法。许教授还展示了该方法在有限期限美式看跌期权定价、含交易成本的Merton投资问题以及高维最优停止问题中的出色表现,验证了算法在价值函数学习与自由边界刻画方面的高精度与强可扩展性。

图二张艺赢助理教授在做报告
在第二场报告中,张艺赢老师从帕累托最优视角出发,探讨了当保险人与再保险人均采用扭曲风险度量进行再保险谈判时的最优合同设计问题。特别地,她考虑双方风险偏好仅部分已知的情形——即其扭曲函数受限于一系列彩票风险的置信区间信息及结构性约束(如凹性)。在一般保费原理下,张老师推导出最优再保险赔付函数的解析表达式,该表达式仅依赖于双方视角下的“最坏情形”扭曲函数。他进一步指出:当仅有个体特定偏好信息时,最坏情形扭曲函数呈阶梯状且由不确定性集合唯一确定;若引入额外通用信息,则扭曲函数变为分段线性,其参数可通过求解有限维约束优化问题获得。最后,他通过数值实例生动展示了理论结果的实际应用价值。

图三 讲座嘉宾同与会师生合影
本期精算论坛内容前沿、逻辑严谨、讲解深入浅出,不仅展现了金融数学与精算科学交叉融合的最新进展,也为师生提供了宝贵的学术交流平台。与会师生纷纷表示受益匪浅,并期待未来更多高质量的学术活动。
(撰稿:蒋耀闱;审稿:刘敬真、王庆焕;编辑:薛丽娜;审核:郑苏晋)