在连接云服务器的 TDengine 时,一定要注意这个细微的操作

今天的精选问题,说难肯定是不难,但是典型不典型呢——还是挺典型的。而且,相信大家也不是总有精力去阅读枯燥的技术文字,所以正如文章的封面一样,今天的主题是分享一个轻松的 TDengine Database的使用案例。

事情的经过是这样的:一位用户在华为云服务上用两个节点的内网搭建了一个 TDengine Database 集群,集群可以正常工作。除了这个集群之外,该用户还有另一个单独的华为云服务器,他们不属于同一内网,且分属于两个华为云账号。在这台服务器上面,有一个单机版的TDengine在运行。

有一天,他突然发现,在本地使用jdbc-restful方式去连接单机的TDengine是OK的,连接集群却会报错——timed out。

报错截图

事实上,对于jdbc-restful这种连接方式而言,不论TDengine是单机还是集群都应该是透明的,不存在什么特殊的区别,因为它只是连接6041这个HTTP服务端口,由运行这个服务端口的主机提供taosd服务(单机或集群)。

所以,一个OK一个不OK的情况是很诡异的。发现群里有这样的问题,我们立马到达战场开始排查。

对于云服务器出现的外网连接问题,我们的第一反应其实就是安全组的端口策略配置。所以,我们先让用户登陆了集群节点所在的华为云后台,并发来安全组配置的截图。在确认了安全组策略没问题之后,我们才开始了其他操作。

安全组配置

一开始,我们试着把内网ip的集群换成了外网ip。这一换不要紧,整个集群当时就不能工作了。并且出现了熟悉的:“unable to establish connection”。

遇到这种情况,检查节点间的端口连接情况是必须的操作。但我们telnet外网IP加端口6041后发现果然不通,而换成了telnet内网ip加端口6041就一切正常了。

这下我们就很迷惑了。

难道是外网ip的问题?可是检查了下,这些ip都是弹性ip,也就是都绑定在云服务器上的ip。那么既然如此,telnet 外网IP+6041怎么可能连接不通呢?

正在一筹莫展的时候,我们突然想到了安全组配置后是需要关联到服务器实例上的,否则是不会生效的。于是我们赶紧回到后台做了检查——果然,这个用户虽然配置了规则,但是因为初次使用云服务对于操作并不熟悉。所以,这套安全组规则并没有关联到这两台集群的服务器。

而单机节点可以连接的原因很简单——在另一个华为云账号安全组的策略关联上了。

这才是以上诡异事件的真正原因——是不是有一点哭笑不得,表象:云服务上的TDengine只有单机可以对外服务,集群却不行?事实:集群和单机分属两个账号,集群的安全组配置完并没有关联到实例上。

由于TDengine的生态正在逐步完善中,与各大平台或组件的交互也会越来越频繁,所以遇到的问题种类也会越来越多。很多问题其实都是一些非常不起眼的操作导致,这就需要我们非常细致地排查我们的场景了。就比如这次的问题,是典型的“细节决定成败(keng  ren)”。

最终,我们用了一下午的时间,把问题解决了。又用了断断续续的半天才把来龙去脉全部摸清楚。期间,曾帮助解决docker集群连接问题(https://mp.weixin.qq.com/s/PJ629gbF1_m3U2_S85Wbeg)的大佬 @freemine 再次悄悄路过帮忙定位问题原因,十分热心。

微信截图

最终,解决问题,皆大欢喜。

别看说起来轻描淡写,但是当时双方在只能靠文字沟通的情况下效率并不高,排查起来是比较耗时耗力的。就比如:“他们(集群和单机)不属于同一内网且分属于两个华为云账号”这个信息就是后来反推root cause的时候才得知的。

但不论如何,我们都会继续为 TDengine Database 的用户们保驾护航的。