监管的含义-轻识

概述

本文深入探讨了监管机制背后的核心理念，以及它在Proto.Actor框架中运行时对Actor实体的意义。

监管的含义

监管在Proto.Actor模型中的Actor之间，构建了一种清晰明确的责任与依赖纽带。监管者（Supervisor）不仅要为其子Actor分配任务，还需妥善应对子Actor可能遭遇的失败情境。一旦子Actor遭遇失败（例如，因抛出异常而中断），它会暂停自身及所有子Actor的运行，并立即向其直属监管者发送失败通知。面对失败，监管者拥有四种核心应对策略：

继续执行：允许Actor维持运行状态，并保留其累积的内部状态。
重启：清除Actor的内部状态，并重新启动它，同时重启其所有子Actor。
永久终止：彻底停止Actor的运行，且不再恢复。此操作同样会导致其所有子Actor被终止。
上报失败：将失败信息传递给更高层级的监管者，这可能导致监管者自身也被视为失败。

将Actor视为监管层级结构（supervised hierarchy）的一部分至关重要，这解释了为何监管者会选择上报失败（因为监管者本身可能也是更高层级监管结构中的一环）。这一观念深刻影响着前三种策略的选择与应用：

恢复Actor的同时，也会恢复其所有子Actor。
重启Actor意味着其所有子Actor也将被重启。
终止Actor会连带终止其所有子Actor。

值得注意的是，Actor默认会在重启前终止其所有子Actor，但这一行为可以通过开发者自定义的hook函数进行调整。hook执行完毕后，若仍有子Actor未被终止或移除，它们将按递归方式被重启。这一机制确保了监管层级中的Actor状态能够以一致且可预测的方式恢复。重启后的Actor（及其剩余子Actor）将基于新的状态继续运行。

每个监管者都配备了一个配置函数，该函数根据不同类型的失败原因（异常类型）映射到上述四种操作之一。重要的是，此函数不考虑失败Actor的具体身份，从而确保了策略的一致性。

尽管如此，开发者在某些场景下可能会觉得这种策略缺乏灵活性，例如，希望对不同的子Actor采用不同的处理策略。此时，理解监管机制的核心——即构建递归故障处理结构——变得尤为关键。若在同一层级上尝试处理过多不同情况，可能会导致理解和维护难度骤增。因此，推荐的做法是引入新的监管层级，以更有效地应对复杂性。

在Proto.Actor等实现中，采用了“父级监管（parental supervision）”模式。Actor只能由其他Actor创建（顶级Actor由库或框架提供），且每个创建的Actor都受其父Actor的监管。这一限制使得监管层级的构建变得清晰且易于理解，同时促使开发者做出更加合理的设计决策。此外，该机制还确保了Actor不会被外部随意插入到监管层级中，从而避免了潜在的混乱和错误。

父级监管模式还为Actor应用程序（或子树）提供了自然且有序地关闭流程，进一步增强了系统的稳定性和可维护性。

警告：与监管相关的父子通信依赖于特殊的系统消息进行，这些消息拥有独立的邮箱，与用户消息分离。因此，与监管相关的事件与用户消息的排序并不确定。通常，用户无法控制正常消息与失败通知的先后顺序。

顶级 Supervisors

The top-level supervisors

在Proto.Actor框架中，任何实现了监管接口（supervisor interface）的类型均可作为监管者（Supervisors）。这意味着不仅Actor，非Actor实体同样可以担任监管角色。在框架的顶层，存在多个非基于Actor的监管者。

重启的含义

当Actor在处理特定消息时遭遇失败，失败原因通常可归结为以下三类：

针对特定消息的编程错误
处理消息时所使用的外部资源（暂时性）故障
Actor内部状态的损坏

除非能明确识别出失败的具体原因，否则无法排除第三种可能性。因此，通常需要清除内部状态。若监管者判断其其他子Actor或自身未受损坏影响（例如，由于有意识地应用了错误内核模式），则重启子Actor是最佳选择。这是通过创建子Actor类的新实例，并在内部用新实例替换失败实例来实现的。

能够实现这一操作的原因之一在于Actor被封装在特殊引用中。随后，新的Actor继续处理其信箱中的消息。这意味着重启对Actor外部而言是不可见的，但值得注意的是，导致失败的消息不会被重新处理。

重启的具体流程如下：

暂停Actor：阻止其处理正常消息，直至恢复为止。
调用旧实例的钩子（默认为向所有子Actor发送终止请求并调用postStop）。
等待请求终止的子Actor实际终止；此过程与其他Actor操作一样是非阻塞的，最后一个被杀死的子Actor的终止通知将推动进程进入下一步。
创建新的Actor实例：通过再次调用最初提供的工厂方法实现。
在新实例上调用（默认情况下也会调用PostRestart和PreStart）。
向未被杀死的子Actor发送重启请求；重启的子Actor将递归地遵循相同的过程，从步骤2开始。
恢复Actor。

生命周期监控的含义

与上述描述的父子之间的特殊关系不同，每个Actor都可以监控任何其他Actor。由于Actor从创建之初就完全处于活动状态，并且重启对受影响的监管者之外是不可见的，因此可用于监控的唯一状态变化是从活动状态到死亡状态的转变。监控因此被用来将一个Actor与另一个Actor关联起来，以便它可以对另一个Actor的终止做出反应，这与对失败做出反应的监管不同。

生命周期监控是通过向监控Actor发送消息来实现的。为了开始监听“Terminated”（已终止）消息，需要调用.TerminatedContext.Watch(targetPID)方法；为了停止监听，需要调用Context.Unwatch(targetPID)方法。一个重要的特性是，无论监控请求和目标终止的顺序如何，该消息都会被发送，即即使在注册时目标已经死亡，你仍然会收到该消息。

监控在以下情况下特别有用：监管者无法简单地重启其子Actor，而必须终止它们，例如在Actor初始化期间出现错误的情况下。在这种情况下，监管者应该监控这些子Actor，并在稍后时间重新创建它们或安排自己重试。

另一个常见的用例是，当Actor因缺少外部资源而需要失败时，该外部资源也可能是其自己的子Actor之一。如果第三方通过context.Stop(pid)方法或发送context.Poison(pid)消息（或其.NET异步对应方法）来终止一个子Actor，那么监管者也可能受到影响。

One-For-One 策略与 All-For-One 策略

One-For-One 策略

Proto.Actor提供了两种监督策略：One-For-One和All-For-One。这两种策略均通过异常类型到监督指令的映射进行配置，并限制了子Actor在终止前允许失败的次数。它们之间的核心差异在于，One-For-One策略仅将指令应用于失败的子Actor，而All-For-One策略则将其应用于所有兄弟Actor（即同一监管者下的其他子Actor）。通常，建议采用One-For-One策略，这也是默认选择。

One-For-One

All-For-One 策略

All-For-One策略适用于子Actor集合之间存在紧密依赖关系的情况，即一个子Actor的失败会直接影响其他子Actor的功能，它们之间紧密相连。由于重启操作不会清空消息队列，因此，在子Actor失败时，监管者通常会选择终止它们，并显式地重新创建（通过监控子Actor的生命周期）。否则，必须确保任何Actor都能无碍地接收重启前排队但在重启后处理的消息。

在这种情况下，若任何一个子Actor的失败都意味着其他子Actor也无法正常工作，那么采用All-For-One策略是合理的。这样，当监管者收到子Actor的失败通知时，它可以决定同时终止并重新创建所有受影响的子Actor，以确保整个系统的稳定性和一致性。

然而，需要注意的是，这种策略可能会引发更广泛的资源消耗和潜在的性能问题，因为它会同时影响多个子Actor。因此，在决定采用All-For-One策略之前，务必仔细评估系统的依赖关系和故障容忍度，以确保其适用性和必要性。

All-For-One

监管者层次结构清晰地定义了Actor的创建顺序：每个创建其他Actor的Actor都自动成为其所创建子Actor的监管者。

在子Actor的生命周期内，这一层次结构是固定不变的。一旦由父Actor创建，子Actor就始终处于父Actor的持续监管之下，直至其停止运行。在Proto.Actor框架中，不存在“领养”的概念。监管者放弃监管职责的唯一方式就是停止子Actor。因此，在应用程序设计阶段就选择正确的Actor层次结构至关重要，特别是当你不打算停止层次结构中的某些部分并用全新的Actor子树进行替换时。

风险最高的Actor（即最可能崩溃的Actor）应被置于尽可能低的层次结构中。在层次结构深处发生的错误可以由更多的监管者来处理，而相比之下，在接近顶层发生的错误能被处理的监管者数量就较少。当错误发生在Actor系统的顶层时，它可能会导致所有顶层Actor的重启，甚至可能引发整个Actor系统的停止运行。

root-level

创建根Actor和子Actor的方法

要创建根Actor，我们使用以下方法：

system.Root.Spawn(props);

其中，system代表Actor系统，Root是其根监管者的引用，Spawn是用于创建新Actor的方法，而props是Actor的属性和配置。

在通过根Actor的代码创建了根Actor之后，我们可以使用以下方法创建它们的子Actor：

context.Spawn(props);

在这里，context代表当前Actor的上下文，它提供了与Actor系统交互的接口。Spawn方法同样用于创建新Actor，props是新Actor的属性和配置。通过这种方法，我们可以在Actor层次结构中创建出根Actor及其子Actor。