今晚一直在弄一个评测的事情评测需要几个东西-评测集-不同粒度的评测标准-评测器-稳定的执行（人+机）什么是好的 query，好的任务？凭什么这些任务能去评测产品产出的Good Bad Same呢？标准又该如何定义？为什么满足这个标准，就对了，否则就不对了呢？🤔🤔

今晚一直在弄一个评测的事情

评测需要几个东西
-评测集
-不同粒度的评测标准
-评测器
-稳定的执行（人+机）

什么是好的 query，好的任务？凭什么这些任务能去评测产品产出的Good Bad Same呢？

标准又该如何定义？
为什么满足这个标准，就对了，否则就不对了呢？

🤔🤔