视觉Token压缩

共收录篇相关文章

DeepSeek-OCR还是个单任务中学习和原图图像token信息一一对应的文本token信息,那SAM的局部信息提取,加上从左到右,从上到下固定的token拼接顺序,再配合CLIP的全局语义理解，说实话，我也不知道这到底是什么反正感觉挺

2026-04-2757阅读0评论