关于Pearson correlation coefficien

您好，看到论文里提到了皮尔逊相关系数 ，提到GPT-4 和CharacterRM  的人工判断结果进行对比后CharacterRM的相关性更高，请问这个是基于什么集合来评的？有额外的人工集合来判断吗，还是从reward model的训练集中split出一部分作为测试集？
感谢您的回答。