分布式系统: A distributed system is one in which components located at network computers communicate and coordinate their actions only by passing messages.
由于单机处理能力存在瓶颈,而升级单机处理能力的性价比越来越低,出于稳定性和可用性的考虑,就出现了分布式系统的架构方案。将分布式系统中的一些通用功能提出来形成了中间件,常用的有消息系统,服务框架,数据访问等。
1) 消息中间件,应用于解耦,提供分布式环境下完成事务。
消息系统的引入是为了解耦服务调用。消息发送的一致性是指产生消息的业务动作和消息发送一致。
JMS中基本元素的关系:
ConnectionFactory ->Connection ->Session ->Message
Destination+Session -> MessageProvider
Destination + Session -> MessageConsumer
JMS可以解决消息一致性问题,但存在限制且成本较高。JMS Queue模型也称为PTP方式,Topic模型称为Pub/Sub方式。分布式系统中的消息模型需求:
-消息发送方和接收方都是集群
-同一个消息的接收方可能有多个集群进行处理
-不同集群对于同一消息的处理不能相互干扰
2) 远程调用和对象访问中间件即服务框架,服务框架对应用进行拆分,完成服务化
服务框架的自身部署有两种:一种是把服务框架作为应用的一个依赖包并与应用一起打包;另一种是服务框架作为容器的一部分,或变为一个容器来提供远程调用和远程服务的功能。
服务框架自身用的类与应用用到的类都控制在User-Defined Class Loader级别,这样就实现了相互间的隔离。
服务框架可以使用基于接口,方法和参数的路由。流量控制是保证系统的稳定性,是为了控制到服务提供者的请求的流量,一般从两个维度考虑:
-根据服务自身的接口、方法做控制,针对不同的接口、方法设置不同的阈值,能够使服务端的不同接口、方法之间的负载不互相影响。
-根据来源做控制,根据不同来源设置不同的限制,一般用在比较基础的服务上。
服务框架是点对点模型,且一般是同构系统,企业服务总线是总线式模型,可以是异步系统。
3) 数据访问中间件,数据拆分以及数据的管理,扩容,迁移等。
使用数据库是一种读写数据的选择。数据库减压的方式有三:a优化应用,b引入缓存和搜索引擎,c数据和访问拆分。
数据库垂直或水平拆分后,要涉及分布式事务。分布式事务是指事务的参与者、支持事务的服务器,资源服务器以及事务服务器分别位于分布式系统的不同节点上。DTP定义了三个组件:
-application grogram,即应用程序,定义事务边界
-resource manager,资源管理器,理解为一个DBMS,资源必须实行XA规范定义的接口。
-transaction manager,事务管理器,负责协调和管理事务,并提供api并管理资源管理器,还控制着全局事务,管理事务的生命周期,并协调资源。
在分布式系统中,在提交之前增加了准备的阶段,成为两阶段提交。Paxos是一个比两阶段提交要轻量的保证一致性协议。CAP理论指出了consistency,availablity和partition-tolerance三个约束中最大满足两个。
从工程上看,最好避免分布式事务,如果必须使用,则考虑最终一致的方法,不要追求强一致。处理多主机sequence问题,一般采用独立ID生成器,或者id的生成逻辑直接放入应用本身。跨库join的解决方法,把join操作分成多次数据库操作,或者对常用信息冗余形成单表查询,再者就要借助搜索引擎解决跨库问题了。外键约束一般要求分库后每个单库的数据是内聚的。跨库查询一般要结果合并,并尽量避免排序分页操作。