问题现象
在阿里ocp集群node7节点上,解析某个域名会出现无法解析的情况。报错信息:Name or service not known
问题排查
经过测试发现,发现此问题不只发生在node7节点中。在所有阿里云华东2(上海)可用区F的服务器中,都会出现解析该域名无法解析的情况(其它可用区正常)。
结论
经过向阿里工程师确认,问题出现的原因是由于解析该域名的自建DNS权威服务器不支持edns导致的。DNS社区要求权威服务器必须支持edns,否则localdns不在有workaround机制。但是线上阿里云的localdns因为版本不同,还没有完全升级完,所以有的区域(可用区F)遵守了这个约定不能解析,而有的区域还兼容这个workaround可以解析。
相关连接:https://www.isc.org/blogs/dns-flag-day-2020/
解决方案
(1)对方自建权威DNS开启EDNS
(2)将ECS的resolver修改为223.5.5.5和223.6.6.6,两个DNS还没有移除ends的workaround