TCP keepalive 保活机制
摘要关键字:关于 linux/windows 操作系统的tcp栈保活机制

       编写TCP服务程序的时候,一般都需要空闲检测。当对端以非优雅的方式断开连接(掉线、崩溃或者强行结束进程)的时候,可以通过空闲检测释放本端的连接和资源。

       一般来说需要在程序自身在业务逻辑层实现TCP连接的空闲检测,或者叫做超时、心跳检测。定时去发送自定义格式的探测报文,如果连续几次对端未响应则认为对端已经断开。

       其实,操作系统底层TCP协议栈已经提供了 keepalive 检测功能,是我这种懒人码农的福音,自己就不用动手实现空闲检测的代码了,能省就省。

       例如linux内核包含了对keep alive的支持,有三个参数,tcp_keepalive_time、tcp_keepalive_intvl、tcp_keepalive_probes ,可以通过setsocketopt改变设置。默认间隔为2个小时,TCP连接上两个小时内无任何活动,操作系统就向对端发送一个tcp保活探测,这时,有三种情况。
        1.客户端依旧活跃,回应响应报文;
        2.客户端已经崩溃或者离线,则不会回应,75秒后超时,一共发送10个探测包,最后宣告连接断开,关闭套接字,抛出异常
        3.客户端已经重启ok,则对服务器的探测报文回应一个rst。

       启用keepalive的方法,以python为例:

sock.setsockopt(socket.SOL_SOCKET,socket.SO_KEEPALIVE,True)

        在linux上执行 ss -o 观察套接字选项:

ESTAB      0      0                           192.168.199.199:16390                         210.21.236.135:42836    timer:(keepalive,120min,0)
ESTAB      0      0                           192.168.199.199:16390                         210.21.236.135:53269    timer:(keepalive,119min,0)

        在windows xp上抓包观察实际效果:       可以看出,每两个小时一个探测报文。拔掉对端网线模拟非优雅关闭的情况,服务端在连续发送5个探测报文后,检测到连接断开。

       有的人会问,为什么不用settimeout? 还是以python为例,因为settimeout会改变socket的阻塞属性,甚至socket.makefile要求套接字必须工作在blocking模式。
        具体参考手册描述:

Set a timeout on blocking socket operations. The value argument can be a nonnegative float expressing seconds, or None. If a float is given, subsequent socket operations will raise a timeout exception if the timeout period value has elapsed before the operation has completed. Setting a timeout of None disables timeouts on socket operations. s.settimeout(0.0) is equivalent to s.setblocking(0); s.settimeout(None) is equivalent to s.setblocking(1).


本条目发布于2016-06-06, 共阅读 3761 次, 评论 1 条
属于标签: tcp/ip
#1楼 匿名访客 2016-08-08 10:15:42
顶!TCP研究的很细致。
1 条评论,说点什么吧