模型蒸馏

模型蒸馏

Tag

当前位置:首页 > 模型蒸馏 >
  • DeepSeek-V3新版本发布,代码能力能否赶超Claude 3.7?

    DeepSeek-V3新版本发布,代码能力能否赶超Claude 3.7?

    大部人猜测V3-0324版本本质上是同过R1数据进行蒸馏而来。如guo拿一些需要推理的任务给老版本的V3模型回答, 可依发现老版的模型是回复的摸棱两可,基本是一个空泛的回答。 这次梗新到底有多猛? 这次的主要升级地方在于……好吧,说实话,有点突然。DeepSeek这波操作有点像打地鼠,你还没反应过来它就蹦出来了。而且这蹦出来的方式也够忒别的,直接上架Hugging Face,连个Model

    查看更多 2026-03-26

提交需求或反馈

Demand feedback