来源:互联网 更新时间:2026-06-17 13:01
机器学习在很长一段时间里,都是在跟“排队”的数据打交道。一句话里的词、视频里的帧、推荐系统里的点击、金融市场里的订单——看起来都是规规矩矩按顺序排列的序列。但真实世界远比这更零碎,也更不讲规矩。
想象一下:神经元在几毫秒内突然放电,社交平台上一条无人问津的帖子忽然被疯狂转发,地震过后余震一波接一波,交易系统里买单和卖单像烟花一样飞速闪烁。这些事件不仅有发生的准确时间,还往往带着类型、文字、位置、图像等一堆额外信息。它们彼此牵扯,但绝不会像数据集那样整整齐齐地等间距排列。
这类数据,正是时间点过程(Temporal Point Processes, TPPs)想要拿下的阵地。
最近,来自中国人民大学、广东工业大学、东南大学等机构的研究者在 TMLR 上发表了一篇综述论文《Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches》,把时间点过程近年来的进展好好捋了一遍。

不同于以往那些要么侧重统计模型、要么只讲神经网络的综述,这篇文章做了一个挺有意义的事:它把贝叶斯 TPP、神经 TPP、基于大语言模型的 TPP、训练方法、应用场景和那些悬而未决的难题,都放在同一个框架底下讨论,而且文献更新到了 2025 年。

论文标题:Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches
作者:Feng Zhou、Quyu Kong、Jie Qiao、Cheng Wan、Yixuan Zhang、Ruichu Cai
论文链接:https://openreview.net/forum?id=SXgGKkShhT
为什么还要回过头来重新梳理 TPP?
TPP 当然不是个新概念。Poisson 过程、Hawkes 过程、自校正过程这些经典模型在统计学里早就有了很长的历史,电话呼叫到达、地震余震、金融交易、神经 spike train、社交网络传播,这些任务都靠它们撑着。
但过去这几年,TPP 要解决的问题和手里的工具,都发生了不小的变化。
首先,传统参数模型虽然可解释,但表达能力确实有限。Hawkes 过程能很直观地描述“过去的事件提高了未来事件发生的概率”这种自激效应,可真实世界里的影响往往是高度非线性、非平稳、多类型的,而且还伴随着一堆复杂的上下文。
其次,深度学习给 TPP 带来了更多弹性。RNN、LSTM、Transformer、ODE/SDE、扩散模型……这些工具被引入事件序列建模之后,研究者终于可以靠更强大的表示能力去拟合那些复杂的动态变化了。
更重要的是,大语言模型开始重新定义 TPP 的边界。过去的 TPP 多半只关心“什么时候发生”和“是什么类型”,但现实里的事件还经常带着文本、图像、外部知识和复杂的语义关系。LLM 的出现,让“预测下一个事件”这件事,变成了“理解一段带时间戳的多模态事件历史”。
所以,这篇综述把近年来的进展浓缩成了三条主线:
贝叶斯 TPP:主打不确定性量化和原则化的推断;
神经 TPP:侧重表达能力、可扩展性和端到端预测;
基于 LLM 的 TPP:更强调语义理解、多模态建模和更为开放的时间推理任务。
TPP 的核心:强度函数回答了“下一件事什么时候来”
如果你把事件序列写成 t1, t2, …, tN,TPP 要建模的就是这些时间点在连续时间窗口里是怎么冒出来的。更一般的情况,每个事件还可以带有 mark,也就是事件类型,比如 ((t1, k1), …, (tN, kN))。
文章首先回顾了 TPP 的两个基本框架:条件密度函数和条件强度函数。后者是 TPP 最核心的概念。直白点说,条件强度函数回答的是这样一个问题:
在已经看到了过去所有事件的前提下,未来某个极短时间窗口里,发生某类事件的瞬时可能性有多大?
Poisson 过程假设事件之间彼此独立,可以用固定或随时间变化的强度来描述。Hawkes 过程则更进一步:过去的事件会通过触发函数影响未来事件的发生概率。多变量 Hawkes 过程甚至能描述不同事件类型之间的相互“拱火”关系——比如说,买单会不会刺激卖单,某个用户的发帖会不会引发其他人转发。
也正是因为这种“历史影响未来”的机制,TPP 不仅适合做预测,也天然适合做因果发现,尤其是在 Granger 因果意义下的事件类型依赖关系识别。

第一条路线:Bayesian TPP —— 让模型知道自己到底有多不自信
经典参数化 TPP 的老问题是:研究者得提前假设强度函数长什么样。可现实数据太复杂,很少有哪种固定函数能完美卡住真实动态。贝叶斯非参数 TPP 的思路是:别把强度函数困在某个有限维的参数形式里,而是直接把它当作无限维对象,再给它设个先验。
论文重点讨论了两种 Bayesian nonparametric TPP:
Bayesian nonparametric Poisson process
Bayesian nonparametric Hawkes process
在 Poisson 场景里,常见做法是把 Gaussian Process 当作函数先验,再通过 link function 保证强度非负。这么做的好处是:模型既能拟合复杂的时间变化强度,还能给出后验不确定性。但代价也很扎眼——推断极其困难,甚至有两层“不可解”的问题叠加在一起:一方面似然里包含了时间积分,另一方面还得在函数空间里积分。
在 Hawkes 过程里,困难又上了一个台阶。强度函数通常由背景强度和触发函数两部分组成,二者在似然函数里耦合得非常紧。一个常见的技巧是引入 branching latent variable,把“某个事件是由背景过程产生的,还是由之前某个事件触发的”变成隐藏变量。引入这个变量之后,Hawkes 似然可以被拆成两部分,各自对应背景强度和触发函数,从而降低推断难度。
这条路线的好处很清楚:可解释、能量化不确定性、与统计理论联系紧密。缺点也同样明确:推断复杂度高,扩展到大规模数据时成本偏高。
第二条路线:Neural TPP —— 用深度模型给表达力“加杠杆”
深度学习给 TPP 带来的最直接变化,就是用神经网络取代手工设计的强度函数或条件分布。论文把 Neural TPP 的主流架构分成了几类。
第一类是 recurrent neural TPP。早期代表工作用的是 RNN 或 LSTM,逐个读取事件,把历史压缩到 hidden state 里,再用 hidden state 去参数化下一个事件的时间和类型分布。
它的优势是在线预测效率很高:历史状态更新完之后,预测下一步只需要常数时间。缺点是训练难以并行,长程依赖建模能力也有限。值得一提的是,论文特别提到 RWKV、S4、Mamba 这类高效序列模型正在与 TPP 结合。这些模型既有递归结构的高效性,又支持并行训练和长程依赖建模,有望改善传统 RNN-TPP 的可扩展性。
第二类是 autoregressive neural TPP,典型的代表是 Transformer TPP。Transformer 可以靠 self-attention 捕捉很长范围的事件依赖,而且支持并行训练。2020 年之后,大量工作都围绕着 Transformer TPP 改进时间编码、mark 编码、注意力机制和条件强度函数的设计。
但 Transformer 的老问题也摆在那里:训练复杂度通常随序列长度呈二次增长,在长事件流上的时间和显存成本都很高。对于高频交易、日志监控这类超长序列场景,怎么降低复杂度仍然是关键的门槛。
第三类是 differential equation-based neural TPP。RNN 和 Transformer 通常只在事件发生时更新隐藏状态,对事件间隔里的连续时间动态表达力不足。ODE/SDE-based TPP 则让隐藏状态在无事件发生时连续演化,在事件发生时跳变,从而更自然地描绘连续时间里的条件强度变化。这类方法表达力很强,但训练和采样也都更慢,因为它们往往需要数值求解微分方程,还要反复计算强度函数的积分。

除此之外,论文还讨论了 diffusion-based TPP。与传统自回归模型逐个预测未来事件不同,扩散模型尝试通过迭代去噪生成整段事件序列。这在长时域预测和序列模拟上给人眼前一亮的感觉,但计算开销大、时间一致性难保证、似然评估不直接等问题也同样突出。
不只是模型结构,参数化方式也是个关键点
TPP 里一个容易被忽略的问题是:神经网络到底应该预测什么?最常见的做法是预测条件强度函数。但最大似然训练时,强度函数需要在时间窗口上积分,这在神经模型里通常没有闭式解,只能靠数值积分撑着,影响效率和精度。
所以,近年来不少工作开始转向“intensity-free”建模,直接参数化条件密度函数、条件分布函数或累计强度函数。
比如说,用 log-normal mixture 直接建模下一个事件的时间分布,或者用单调神经网络 / 样条函数建模累计强度。这样就能绕开数值积分,提高训练和采样效率。论文把这些参数化方式放在一起做对比,提醒大家:Neural TPP 的进步不只是换一个更大的 backbone,也包括对概率建模目标本身的重新思考和设计。
第三条路线:LLM-based TPP —— 事件流终于有了“语义”
这篇综述最有新意的部分,就是把 LLM-based TPP 正式纳入了时间点过程的研究版图。论文认为,LLM-based TPP 可以分成两类。
第一类是 LLM-inspired TPP。它们并不是直接用 LLM 取代 TPP 的主干,而是借鉴 prompt learning、reasoning 等思路来增强现有的神经 TPP。比如 PromptTPP 使用可学习的 temporal prompts 来适应持续变化的数据分布;LAMP 则把 LLM 的溯因推理能力引进来,让模型为未来事件生成可能原因,再从历史事件中检索证据。
这类方法的好处是相对高效,能增强适应性或可解释性;局限在于,时间动态本身主要还是由传统神经 TPP 来建模。
第二类是 direct LLM-TPP integration,也就是直接让 LLM 担任事件序列的核心表示模型。TPP-LLM 把事件用文本描述表示,通过时间嵌入注入时间信息,再用 LoRA 这类参数高效微调方法来适配事件预测任务。Language-TPP 则更进一步,把连续时间间隔编码成 byte-level tokens,让时间和语言进入同一个 token 序列,由 LLM 统一建模。

这个方向的意义在于,TPP 不再只处理“时间 + 类型”这种二维事件,而开始处理带有自然语言描述、外部知识、多模态上下文的复杂事件流。
但论文同时也提醒,LLM-based TPP 正在扩展传统 TPP 的边界。经典 TPP 的核心是连续时间事件发生过程的概率律,任务通常包括似然建模、预测、模拟和因果结构发现。而 LLM 引入之后,事件序列检索、问答、多模态推理这些任务也被拉了进来。它们很有价值,但不见得都属于严格意义上的点过程问题。未来的社区需要更清楚地分辨:哪些任务本质上就是 TPP,哪些任务只是把 TPP 当作更大时间推理系统里的一个组件。
数据集和评测:TPP 社区还缺一个真正统一的标准
模型越来越复杂之后,评测的问题自然就变得更突出了。论文指出,TPP 研究长期以来面临着数据集碎片化、预处理不一致、训练/验证/测试划分不同、指标定义不统一这些问题。不同论文之间的性能比较,有时候真的没法简单地拿来直接对比。
近两年,EasyTPP 这类统一的 benchmark 工具开始在缓解这个问题,提供了标准化的预处理、模型实现、训练流程和评估脚本。论文认为,benchmark 标准化这件事的重要性,一点儿也不亚于新模型本身——只有可比较、可复现的实验结果,才能真正积累为社区知识。
TPP 的评测任务也在不断扩展:
next-event prediction:预测下一个事件的时间和类型;
long-horizon prediction:预测未来一段窗内的多个事件;
semantic or multimodal tasks:面向 LLM-based TPP 的检索、问答、多模态推理等;
causal discovery:识别不同事件类型之间的 Granger 因果关系。

论文最后总结了一个相对谨慎的经验判断:Transformer-based neural TPP 在复杂数据上的 next-event prediction,往往优于经典参数模型;直接建模条件密度或累计强度的模型,通常训练更高效;长时域预测依然是个难题;LLM-based 和 multimodal TPP 在语义理解任务上确实有优势,但在纯时间预测基准上,优势还没有那么明确。
应用:从预测下一次点击,到发现事件之间的因果链
TPP 的应用可以粗略分成两大类:事件预测和因果发现。
事件预测关心的是未来会发生什么、什么时候发生、属于哪一类。典型的场景包括社交网络中的转发预测、疫情传播预测、地震余震预测、金融市场订单预测、推荐系统中的用户行为预测等等。
因果发现则更关心事件之间的影响结构。比如在神经科学里,多个神经元的 spike train 可以被看作多变量点过程,研究者想知道神经元之间是否存在功能连接;在高频金融里,买单和卖单之间的互相影响可以用 Hawkes 过程来刻画;在 AIOps 里,系统故障事件的触发关系有助于定位根因;在医疗和网络安全中,事件依赖结构也能帮助理解复杂系统里的传播机制。
这也是 TPP 区别于一般序列预测模型的重要价值所在:它不仅试图预测未来,还试图回答“过去的哪些事件,以什么样的方式影响了未来”。
未来挑战:可解释性、可扩展性、采样效率和多模态
论文最后总结了 TPP 领域仍然需要攻克的几个核心难题。
第一是数据和模型的标准化。事件序列通常有不规则的时间间隔、变长的序列、多样化的 mark 空间和不同的时间粒度。不同的数据处理方式会显著影响模型表现,也让不同论文之间的比较变得困难。
第二是模型的可解释性。传统 Hawkes 模型里的背景强度和触发函数都有明确的含义,而神经 TPP 往往把动态编码进高维的隐状态里,很难搞清楚过去的事件到底是怎么影响未来强度的。在因果发现、科学建模和决策支持这些场景里,这个问题尤其棘手。
第三是可扩展性。真实的事件流可能包含数万甚至更多的时间戳,模型还得处理连续时间积分、长程依赖和多类型事件之间的交互。简单地把 Transformer 换成 Mamba 或者其他高效模块,还远远不够。未来需要搞清楚这些架构到底是怎么表示 hazard function、历史依赖和长期时间因果的。
第四是采样效率。经典的 thinning 法或 inverse transform sampling 需要反复评估强度函数,对复杂的神经模型来说代价很高。扩散模型、基于 flow 的方法、speculative decoding 等方向正在尝试并行或块状生成事件序列,但怎么平衡时间一致性、条件结构和计算成本,还需要进一步打磨。
第五是多模态建模。真实事件往往伴随着文本、图像、视频帧、传感器读数等上下文信息。LLM 和多模态大模型为这类问题提供了新工具,但也带来了时间对齐、不确定性校准、可控生成这些新问题。
结语:TPP 正在从“预测事件时间”走向“理解事件世界”
这篇 TMLR 综述传递出的一个重要信号是:TPP 正处在一个重新汇合的阶段。统计学传统提供了强度函数、似然、贝叶斯推断和因果解释;深度学习提供了强大的表示能力和端到端预测能力;大语言模型则把文本、知识、多模态和推理能力带进了事件序列建模。
未来的 TPP,可能不再只是一个“预测下一个事件什么时候发生”的模型,而是一个能够理解连续时间里复杂事件流的通用框架。它既要把握时间,也要理解语义;既要能预测,也要能解释;既要足够灵活,也要保留统计建模里那种可校准和可信任的底色。
对机器学习研究者来说,这意味着 TPP 不再只是一个偏门的统计工具,而是一个连接连续时间建模、序列学习、因果发现和大模型推理的重要交叉点。这篇综述的价值,正在于它把这些正在分散发展的线索,重新放回了一张完整的图里。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
archiveofourown 实战指南:常见用法整理
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
作家助手如何上传自制封面 作家助手如何设置小说的封面
如何在夸克浏览器中开启网页视频的倍速播放功能?
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
电视剧《小欢喜》剧情介绍
美国市场:股票相对债券的风险溢价正在消失
全链网:黄金价格因美元的走强及利率担忧而下跌
618装机配置作业! 从入门到顶配 每一分钱都花在刀刃
电影《遁甲门之消失的公主》剧情介绍
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
动漫《柚木家的四兄弟》剧情介绍
植物娘大战僵尸电脑端与手机端存档转移的方法
卡厄思梦境哀嚎螺旋塔攻略 哀嚎螺旋塔怎么玩
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc