导航:首页>> 快讯>> OpenAI开源HealthBench,60个国家合力开发5000段真实对话

OpenAI开源HealthBench,60个国家合力开发5000段真实对话

来源: jinse 76天前
金色财经报道,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。并且采用了多轮对话测试,而不是简单的答题或选择题模式。根据测试数据显示,大模型在医疗保健领域的表现有了显著提升。例如,从之前的GPT-3.5Turbo的16%到GPT-4o的32%,再到o3的60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano不仅在性能上超越了GPT-4o,而且成本降低了25倍。
利好
利空
最新快讯
来源:panewslab
时间:2025-07-31 14:19:00
PANews 7月31日消息,中国人民大学深圳研究院常务副院长宋科表示,香港《稳定币条例》是全球首个针对法币稳定币的全面监管框架。从全球范围来看,该条例在稳定币政策制定上具有示范效应。在他看来,《稳定...
来源:techflowpost
时间:2025-07-31 14:18:00
深潮 TechFlow 消息,7 月 31 日,据金十数据报道,现货黄金站上3300美元/盎司,日内涨0.77%。
来源:techflowpost
时间:2025-07-31 14:17:00
深潮 TechFlow 消息,7 月 31 日,据金十数据报道,中国人民大学深圳研究院常务副院长宋科表示,香港《稳定币条例》是全球首个针对法币稳定币的全面监管框架。从全球范围来看,该条例在稳定币政策制...
来源:panewslab
时间:2025-07-31 14:16:00
PANews 7月31日消息,据Blockchain Council报道,前Jefferies交易员曾天(Tian Zeng)创立了一只规模达7000万美元的加密对冲基金Third Eye,该基金将于...
来源:jinse
时间:2025-07-31 14:04:00
金色财经报道,Letsbonk.fun 创始人 Tom 在 X 平台发文表示,用户等待的关键更新发布时间较预期有所延迟,原因包括遇到问题及多方干扰。目前团队已取得诸多进展,接下来将在进入下一个增长阶段...
最新资讯 查看更多>
  • 交易所
  • 币种
排名 交易所 24h成交额
1 BinanceBinance ¥1,527.57 亿
2 BybitBybit ¥576.23 亿
3 Coinbase ExchangeCoinbase Exchange ¥71.57 亿
4 OKXOKX ¥519.71 亿
5 UpbitUpbit ¥77.13 亿
6 KrakenKraken ¥43.20 亿
7 BitgetBitget ¥494.79 亿
8 RaydiumRaydium ¥11.50 亿
9 BitfinexBitfinex ¥6.09 亿
10 Uniswap v2Uniswap v2 ¥3.72 亿
查看更多
行情 行情 行情  平台  平台 平台 首页 首页 首页 观点 观点 观点   快讯   快讯 快讯