互联网从业者充电站
3 小时前
今晚一直在弄一个评测的事情
评测需要几个东西
-评测集
-不同粒度的评测标准
-评测器
-稳定的执行(人+机)
什么是好的 query,好的任务?凭什么这些任务能去评测产品产出的Good Bad Same呢?
标准又该如何定义?
为什么满足这个标准,就对了,否则就不对了呢?
🤔
🤔
Home
Powered by
BroadcastChannel
&
Sepia