随着模型的改进,LLM的评估也在不断变化;LLMs没有简单的对/错答案,这使得结果具有主观性,因此测试方法需要适应这一变化。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
@
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。