一个可用的复杂系统总是从可用的简单系统演进来的。反过来这话也是正确的:从零开始设计的复杂系统从来都用不了,也没办法把它变成可用。
——John Gal,《系统学》(1975)
发送事件通知的常用方式。
即无代理的方式。这种方式当消费者离线时会丢失消息。
常见场景:
本质上是一种针对消息流处理而优化的数据库。常见产品Rabbit MQ、ActiveMQ等。
只能消费订阅之后的消息,也就是历史的消息已经不能消费了。
将历史的消息存储为日志形式。代表产品Kafka、Twitter DistrbutedLog。
事件是成功的命令。一个请求到来时最初是一个命令,它可能失败,或违反某种约束。一旦它成功,它就是一个事件了。
变更数据捕获(changed data capture,CDC)是一种设计理念。不是记录数据的当前状态,而是数据变化的过程。
事件溯源(event source)是一种强大的数据建模技术,是对CDC思想的一种应用。事件溯源使得应用程序随着时间的推移更容易演化,更安全,杜绝了直接覆盖数据的情形,更容易理解发生了什么来帮助调试分析。比如用户加购一个商品后又删除,使用事件溯源就会捕获到更多的细节,用户可能将来会买,或者找到了替代品。
复杂事件处理(Complex Event Processing,CEP)可以在流中搜索特定的模式,类似于正则表达式。查询和数据的关系在CEP和普通数据库是反过来的。在普通数据库中,数据是长期存储的,查询是临时的,一旦查询完,查询就没了。而在CEP中,查询是长期的,输入流中的事件不断流过匹配查询。常见实现Esper、IBM Info Sphere Streams、Apama等。
流分析与CEP界限有些模糊。作为一般规则,分析往往不太关心找到特定的事件序列,而更多地面向大量事件的累积效果和统计指标。例如:
流分析有时使用概率算法,比如布隆过滤器,基数统计的HyperLogLog,但是流不等于就是概率的,不精确的。
Actor与流:
事件时间与处理时间
使用事件时间得确定什么时候结束,使用处理事件可能导致事件错乱,处理事件的顺序和事件时间不一样。
窗口类型:
轮转窗口
长度固定,每个事件都属于一个窗口。比如一个一分钟窗口,10:03:00~10:03:59分到一个窗口,10:04:00~10:04:59是下一个窗口。
跳跃窗口
也具有固定长度,但是允许重叠。例如一个五分钟窗口,设定跳跃值为一分钟,10:03:00~10:07:59为一个窗口,下一个窗口为10:04:00~10:08:59,以此类推。
滑动窗口
包含某个间隔内发生地所有事件。例如,一个五分钟的滑动窗口将包括10:03:39~10:08:12的事件,因为他们相距不到五分钟。可以通过保留按时间排序的事件缓冲区并从移除旧事件来实现。
会话窗口
没有固定的持续时间,而是通过将同一用户在时间上紧密相关的所有事件分组在一起而定义的,一旦用户在一段事件内处于非活动状态,则窗口结束。