空间交叉注意力时,对于一个bev立柱上的4个点不一定完全都在一张图像上,假设只有三个点在这张图向上,可变形注意力(MSDeformableAttention3D层forward函数)好像没有考虑到这种情况去聚合有效点的特征,而是把四个点的特征都聚合了,在求平均时,倒是的确除以了有效点个数3,不知道我理解错了没有?