您的位置：首页 > > 教程攻略 > ai资讯 >从贝叶斯到大语言模型：一文详解「时序点过程」近年进展

从贝叶斯到大语言模型：一文详解「时序点过程」近年进展

来源:互联网 更新时间:2026-06-17 13:01

机器学习在很长一段时间里，都是在跟“排队”的数据打交道。一句话里的词、视频里的帧、推荐系统里的点击、金融市场里的订单——看起来都是规规矩矩按顺序排列的序列。但真实世界远比这更零碎，也更不讲规矩。

想象一下：神经元在几毫秒内突然放电，社交平台上一条无人问津的帖子忽然被疯狂转发，地震过后余震一波接一波，交易系统里买单和卖单像烟花一样飞速闪烁。这些事件不仅有发生的准确时间，还往往带着类型、文字、位置、图像等一堆额外信息。它们彼此牵扯，但绝不会像数据集那样整整齐齐地等间距排列。

这类数据，正是时间点过程（Temporal Point Processes, TPPs）想要拿下的阵地。

最近，来自中国人民大学、广东工业大学、东南大学等机构的研究者在 TMLR 上发表了一篇综述论文《Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches》，把时间点过程近年来的进展好好捋了一遍。

不同于以往那些要么侧重统计模型、要么只讲神经网络的综述，这篇文章做了一个挺有意义的事：它把贝叶斯 TPP、神经 TPP、基于大语言模型的 TPP、训练方法、应用场景和那些悬而未决的难题，都放在同一个框架底下讨论，而且文献更新到了 2025 年。

论文标题：Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches
作者：Feng Zhou、Quyu Kong、Jie Qiao、Cheng Wan、Yixuan Zhang、Ruichu Cai
论文链接：https://openreview.net/forum?id=SXgGKkShhT

为什么还要回过头来重新梳理 TPP？

TPP 当然不是个新概念。Poisson 过程、Hawkes 过程、自校正过程这些经典模型在统计学里早就有了很长的历史，电话呼叫到达、地震余震、金融交易、神经 spike train、社交网络传播，这些任务都靠它们撑着。

但过去这几年，TPP 要解决的问题和手里的工具，都发生了不小的变化。

首先，传统参数模型虽然可解释，但表达能力确实有限。Hawkes 过程能很直观地描述“过去的事件提高了未来事件发生的概率”这种自激效应，可真实世界里的影响往往是高度非线性、非平稳、多类型的，而且还伴随着一堆复杂的上下文。

其次，深度学习给 TPP 带来了更多弹性。RNN、LSTM、Transformer、ODE/SDE、扩散模型……这些工具被引入事件序列建模之后，研究者终于可以靠更强大的表示能力去拟合那些复杂的动态变化了。

更重要的是，大语言模型开始重新定义 TPP 的边界。过去的 TPP 多半只关心“什么时候发生”和“是什么类型”，但现实里的事件还经常带着文本、图像、外部知识和复杂的语义关系。LLM 的出现，让“预测下一个事件”这件事，变成了“理解一段带时间戳的多模态事件历史”。

所以，这篇综述把近年来的进展浓缩成了三条主线：

贝叶斯 TPP：主打不确定性量化和原则化的推断；
神经 TPP：侧重表达能力、可扩展性和端到端预测；
基于 LLM 的 TPP：更强调语义理解、多模态建模和更为开放的时间推理任务。

TPP 的核心：强度函数回答了“下一件事什么时候来”

如果你把事件序列写成 t1, t2, …, tN，TPP 要建模的就是这些时间点在连续时间窗口里是怎么冒出来的。更一般的情况，每个事件还可以带有 mark，也就是事件类型，比如 ((t1, k1), …, (tN, kN))。

文章首先回顾了 TPP 的两个基本框架：条件密度函数和条件强度函数。后者是 TPP 最核心的概念。直白点说，条件强度函数回答的是这样一个问题：

在已经看到了过去所有事件的前提下，未来某个极短时间窗口里，发生某类事件的瞬时可能性有多大？

Poisson 过程假设事件之间彼此独立，可以用固定或随时间变化的强度来描述。Hawkes 过程则更进一步：过去的事件会通过触发函数影响未来事件的发生概率。多变量 Hawkes 过程甚至能描述不同事件类型之间的相互“拱火”关系——比如说，买单会不会刺激卖单，某个用户的发帖会不会引发其他人转发。

也正是因为这种“历史影响未来”的机制，TPP 不仅适合做预测，也天然适合做因果发现，尤其是在 Granger 因果意义下的事件类型依赖关系识别。

第一条路线：Bayesian TPP —— 让模型知道自己到底有多不自信

经典参数化 TPP 的老问题是：研究者得提前假设强度函数长什么样。可现实数据太复杂，很少有哪种固定函数能完美卡住真实动态。贝叶斯非参数 TPP 的思路是：别把强度函数困在某个有限维的参数形式里，而是直接把它当作无限维对象，再给它设个先验。

论文重点讨论了两种 Bayesian nonparametric TPP：

Bayesian nonparametric Poisson process
Bayesian nonparametric Hawkes process

在 Poisson 场景里，常见做法是把 Gaussian Process 当作函数先验，再通过 link function 保证强度非负。这么做的好处是：模型既能拟合复杂的时间变化强度，还能给出后验不确定性。但代价也很扎眼——推断极其困难，甚至有两层“不可解”的问题叠加在一起：一方面似然里包含了时间积分，另一方面还得在函数空间里积分。

在 Hawkes 过程里，困难又上了一个台阶。强度函数通常由背景强度和触发函数两部分组成，二者在似然函数里耦合得非常紧。一个常见的技巧是引入 branching latent variable，把“某个事件是由背景过程产生的，还是由之前某个事件触发的”变成隐藏变量。引入这个变量之后，Hawkes 似然可以被拆成两部分，各自对应背景强度和触发函数，从而降低推断难度。

这条路线的好处很清楚：可解释、能量化不确定性、与统计理论联系紧密。缺点也同样明确：推断复杂度高，扩展到大规模数据时成本偏高。

第二条路线：Neural TPP —— 用深度模型给表达力“加杠杆”

深度学习给 TPP 带来的最直接变化，就是用神经网络取代手工设计的强度函数或条件分布。论文把 Neural TPP 的主流架构分成了几类。

第一类是 recurrent neural TPP。早期代表工作用的是 RNN 或 LSTM，逐个读取事件，把历史压缩到 hidden state 里，再用 hidden state 去参数化下一个事件的时间和类型分布。

它的优势是在线预测效率很高：历史状态更新完之后，预测下一步只需要常数时间。缺点是训练难以并行，长程依赖建模能力也有限。值得一提的是，论文特别提到 RWKV、S4、Mamba 这类高效序列模型正在与 TPP 结合。这些模型既有递归结构的高效性，又支持并行训练和长程依赖建模，有望改善传统 RNN-TPP 的可扩展性。

第二类是 autoregressive neural TPP，典型的代表是 Transformer TPP。Transformer 可以靠 self-attention 捕捉很长范围的事件依赖，而且支持并行训练。2020 年之后，大量工作都围绕着 Transformer TPP 改进时间编码、mark 编码、注意力机制和条件强度函数的设计。

但 Transformer 的老问题也摆在那里：训练复杂度通常随序列长度呈二次增长，在长事件流上的时间和显存成本都很高。对于高频交易、日志监控这类超长序列场景，怎么降低复杂度仍然是关键的门槛。

第三类是 differential equation-based neural TPP。RNN 和 Transformer 通常只在事件发生时更新隐藏状态，对事件间隔里的连续时间动态表达力不足。ODE/SDE-based TPP 则让隐藏状态在无事件发生时连续演化，在事件发生时跳变，从而更自然地描绘连续时间里的条件强度变化。这类方法表达力很强，但训练和采样也都更慢，因为它们往往需要数值求解微分方程，还要反复计算强度函数的积分。

除此之外，论文还讨论了 diffusion-based TPP。与传统自回归模型逐个预测未来事件不同，扩散模型尝试通过迭代去噪生成整段事件序列。这在长时域预测和序列模拟上给人眼前一亮的感觉，但计算开销大、时间一致性难保证、似然评估不直接等问题也同样突出。

不只是模型结构，参数化方式也是个关键点

TPP 里一个容易被忽略的问题是：神经网络到底应该预测什么？最常见的做法是预测条件强度函数。但最大似然训练时，强度函数需要在时间窗口上积分，这在神经模型里通常没有闭式解，只能靠数值积分撑着，影响效率和精度。

所以，近年来不少工作开始转向“intensity-free”建模，直接参数化条件密度函数、条件分布函数或累计强度函数。

比如说，用 log-normal mixture 直接建模下一个事件的时间分布，或者用单调神经网络 / 样条函数建模累计强度。这样就能绕开数值积分，提高训练和采样效率。论文把这些参数化方式放在一起做对比，提醒大家：Neural TPP 的进步不只是换一个更大的 backbone，也包括对概率建模目标本身的重新思考和设计。

第三条路线：LLM-based TPP —— 事件流终于有了“语义”

这篇综述最有新意的部分，就是把 LLM-based TPP 正式纳入了时间点过程的研究版图。论文认为，LLM-based TPP 可以分成两类。

第一类是 LLM-inspired TPP。它们并不是直接用 LLM 取代 TPP 的主干，而是借鉴 prompt learning、reasoning 等思路来增强现有的神经 TPP。比如 PromptTPP 使用可学习的 temporal prompts 来适应持续变化的数据分布；LAMP 则把 LLM 的溯因推理能力引进来，让模型为未来事件生成可能原因，再从历史事件中检索证据。

这类方法的好处是相对高效，能增强适应性或可解释性；局限在于，时间动态本身主要还是由传统神经 TPP 来建模。

第二类是 direct LLM-TPP integration，也就是直接让 LLM 担任事件序列的核心表示模型。TPP-LLM 把事件用文本描述表示，通过时间嵌入注入时间信息，再用 LoRA 这类参数高效微调方法来适配事件预测任务。Language-TPP 则更进一步，把连续时间间隔编码成 byte-level tokens，让时间和语言进入同一个 token 序列，由 LLM 统一建模。

这个方向的意义在于，TPP 不再只处理“时间 + 类型”这种二维事件，而开始处理带有自然语言描述、外部知识、多模态上下文的复杂事件流。

但论文同时也提醒，LLM-based TPP 正在扩展传统 TPP 的边界。经典 TPP 的核心是连续时间事件发生过程的概率律，任务通常包括似然建模、预测、模拟和因果结构发现。而 LLM 引入之后，事件序列检索、问答、多模态推理这些任务也被拉了进来。它们很有价值，但不见得都属于严格意义上的点过程问题。未来的社区需要更清楚地分辨：哪些任务本质上就是 TPP，哪些任务只是把 TPP 当作更大时间推理系统里的一个组件。

数据集和评测：TPP 社区还缺一个真正统一的标准

模型越来越复杂之后，评测的问题自然就变得更突出了。论文指出，TPP 研究长期以来面临着数据集碎片化、预处理不一致、训练/验证/测试划分不同、指标定义不统一这些问题。不同论文之间的性能比较，有时候真的没法简单地拿来直接对比。

近两年，EasyTPP 这类统一的 benchmark 工具开始在缓解这个问题，提供了标准化的预处理、模型实现、训练流程和评估脚本。论文认为，benchmark 标准化这件事的重要性，一点儿也不亚于新模型本身——只有可比较、可复现的实验结果，才能真正积累为社区知识。

TPP 的评测任务也在不断扩展：

next-event prediction：预测下一个事件的时间和类型；
long-horizon prediction：预测未来一段窗内的多个事件；
semantic or multimodal tasks：面向 LLM-based TPP 的检索、问答、多模态推理等；
causal discovery：识别不同事件类型之间的 Granger 因果关系。

论文最后总结了一个相对谨慎的经验判断：Transformer-based neural TPP 在复杂数据上的 next-event prediction，往往优于经典参数模型；直接建模条件密度或累计强度的模型，通常训练更高效；长时域预测依然是个难题；LLM-based 和 multimodal TPP 在语义理解任务上确实有优势，但在纯时间预测基准上，优势还没有那么明确。

应用：从预测下一次点击，到发现事件之间的因果链

TPP 的应用可以粗略分成两大类：事件预测和因果发现。

事件预测关心的是未来会发生什么、什么时候发生、属于哪一类。典型的场景包括社交网络中的转发预测、疫情传播预测、地震余震预测、金融市场订单预测、推荐系统中的用户行为预测等等。

因果发现则更关心事件之间的影响结构。比如在神经科学里，多个神经元的 spike train 可以被看作多变量点过程，研究者想知道神经元之间是否存在功能连接；在高频金融里，买单和卖单之间的互相影响可以用 Hawkes 过程来刻画；在 AIOps 里，系统故障事件的触发关系有助于定位根因；在医疗和网络安全中，事件依赖结构也能帮助理解复杂系统里的传播机制。

这也是 TPP 区别于一般序列预测模型的重要价值所在：它不仅试图预测未来，还试图回答“过去的哪些事件，以什么样的方式影响了未来”。

未来挑战：可解释性、可扩展性、采样效率和多模态

论文最后总结了 TPP 领域仍然需要攻克的几个核心难题。

第一是数据和模型的标准化。事件序列通常有不规则的时间间隔、变长的序列、多样化的 mark 空间和不同的时间粒度。不同的数据处理方式会显著影响模型表现，也让不同论文之间的比较变得困难。

第二是模型的可解释性。传统 Hawkes 模型里的背景强度和触发函数都有明确的含义，而神经 TPP 往往把动态编码进高维的隐状态里，很难搞清楚过去的事件到底是怎么影响未来强度的。在因果发现、科学建模和决策支持这些场景里，这个问题尤其棘手。

第三是可扩展性。真实的事件流可能包含数万甚至更多的时间戳，模型还得处理连续时间积分、长程依赖和多类型事件之间的交互。简单地把 Transformer 换成 Mamba 或者其他高效模块，还远远不够。未来需要搞清楚这些架构到底是怎么表示 hazard function、历史依赖和长期时间因果的。

第四是采样效率。经典的 thinning 法或 inverse transform sampling 需要反复评估强度函数，对复杂的神经模型来说代价很高。扩散模型、基于 flow 的方法、speculative decoding 等方向正在尝试并行或块状生成事件序列，但怎么平衡时间一致性、条件结构和计算成本，还需要进一步打磨。

第五是多模态建模。真实事件往往伴随着文本、图像、视频帧、传感器读数等上下文信息。LLM 和多模态大模型为这类问题提供了新工具，但也带来了时间对齐、不确定性校准、可控生成这些新问题。

结语：TPP 正在从“预测事件时间”走向“理解事件世界”

这篇 TMLR 综述传递出的一个重要信号是：TPP 正处在一个重新汇合的阶段。统计学传统提供了强度函数、似然、贝叶斯推断和因果解释；深度学习提供了强大的表示能力和端到端预测能力；大语言模型则把文本、知识、多模态和推理能力带进了事件序列建模。

未来的 TPP，可能不再只是一个“预测下一个事件什么时候发生”的模型，而是一个能够理解连续时间里复杂事件流的通用框架。它既要把握时间，也要理解语义；既要能预测，也要能解释；既要足够灵活，也要保留统计建模里那种可校准和可信任的底色。

对机器学习研究者来说，这意味着 TPP 不再只是一个偏门的统计工具，而是一个连接连续时间建模、序列学习、因果发现和大模型推理的重要交叉点。这篇综述的价值，正在于它把这些正在分散发展的线索，重新放回了一张完整的图里。

从贝叶斯到大语言模型：一文详解「时序点过程」近年进展

热门资讯

热门手游

相关攻略

热门专题