Foresight News 消息,OpenAI 发布医疗 AI 评估基准 HealthBench,并已在 GitHub 开源。该基准由来自全球 250 多名医生共同开发,包含 5000 个真实健康对话,旨在评估大语言模型在医疗场景的表现。