您好,看到论文里提到了皮尔逊相关系数 ,提到GPT-4 和CharacterRM 的人工判断结果进行对比后CharacterRM的相关性更高,请问这个是基于什么集合来评的?有额外的人工集合来判断吗,还是从reward model的训练集中split出一部分作为测试集? 感谢您的回答。