编写TCP服务程序的时候,一般都需要空闲检测。当对端以非优雅的方式断开连接(掉线、崩溃或者强行结束进程)的时候,可以通过空闲检测释放本端的连接和资源。
一般来说需要在程序自身在业务逻辑层实现TCP连接的空闲检测,或者叫做超时、心跳检测。定时去发送自定义格式的探测报文,如果连续几次对端未响应则认为对端已经断开。
其实,操作系统底层TCP协议栈已经提供了 keepalive 检测功能,是我这种懒人码农的福音,自己就不用动手实现空闲检测的代码了,能省就省。
例如linux内核包含了对keep alive的支持,有三个参数,tcp_keepalive_time、tcp_keepalive_intvl、tcp_keepalive_probes ,可以通过setsocketopt改变设置。默认间隔为2个小时,TCP连接上两个小时内无任何活动,操作系统就向对端发送一个tcp保活探测,这时,有三种情况。
1.客户端依旧活跃,回应响应报文;
2.客户端已经崩溃或者离线,则不会回应,75秒后超时,一共发送10个探测包,最后宣告连接断开,关闭套接字,抛出异常。
3.客户端已经重启ok,则对服务器的探测报文回应一个rst。
启用keepalive的方法,以python为例:
sock.setsockopt(socket.SOL_SOCKET,socket.SO_KEEPALIVE,True)
在linux上执行 ss -o 观察套接字选项:
ESTAB 0 0 192.168.199.199:16390 210.21.236.135:42836 timer:(keepalive,120min,0) ESTAB 0 0 192.168.199.199:16390 210.21.236.135:53269 timer:(keepalive,119min,0)
在windows xp上抓包观察实际效果: 可以看出,每两个小时一个探测报文。拔掉对端网线模拟非优雅关闭的情况,服务端在连续发送5个探测报文后,检测到连接断开。
有的人会问,为什么不用settimeout? 还是以python为例,因为settimeout会改变socket的阻塞属性,甚至socket.makefile要求套接字必须工作在blocking模式。
具体参考手册描述:
Set a timeout on blocking socket operations. The value argument can be a nonnegative float expressing seconds, or None. If a float is given, subsequent socket operations will raise a timeout exception if the timeout period value has elapsed before the operation has completed. Setting a timeout of None disables timeouts on socket operations. s.settimeout(0.0) is equivalent to s.setblocking(0); s.settimeout(None) is equivalent to s.setblocking(1).