视觉Token压缩

视觉Token压缩

Tag

当前位置：首页 > 视觉Token压缩 >

DeepSeek-OCR光学压缩，视觉Token如何实现爆炸式解密？

DeepSeek-OCR还是个单任务中学习和原图图像token信息一一对应的文本token信息,那SAM的局部信息提取,加上从左到右,从上到下固定的token拼接顺序,再配合CLIP的全局语义理解，说实话，我也不知道这到底是什么反正感觉挺厉害的！)，其实就wan全足够了。在文档领域实现 1:10 无损压缩。谁会在这个时间kan文章啊？论文提出了一边预测3个MASK的方案，

查看更多 2026-01-20

提交需求或反馈

Demand feedback

首页
电话
客服

QQ在线客服

售前技术支持

关注微信
顶部