DeepSeek-OCR:基于光学压缩的上下文处理,是何高招?
- 内容介绍
- 文章标签
- 相关推荐
DeepSeek-OCR:这玩意儿到底是个什么鬼?光学压缩还能这么玩?
哎呀,最近这个圈子里真的是炸开了锅!大家都在谈论什么大模型,什么长上下文,什么Transformer,听得耳朵都起茧子了。但是!今天我们要聊的这个东西,DeepSeek-OCR,它真的有点不一样。说实话,第一次看到“吗?还是说要把文字变成光子存进光纤里?后来仔细一看,哦,原来是这么回事!这帮人真的是脑洞大开,居然想把文本变成图片,然后再塞进模型里去。这听起来是不是有点像是在脱裤子放屁?直接读文本不就好了吗?非要多此一举转成图片,官宣。?
但是朋友们,别急着喷。这背后其实藏着大智慧啊!你想啊,现在的LLM处理长文本的时候,那个计算复杂度是呈二次方增长的,也就是O。这是什么概念?就是文本越长,算力吃得越凶,显卡烧得越快!这谁顶得住啊?所以 DeepSeek这帮天才就想出了一个绝招:既然文本Token这么贵,那我们能不能用视觉Token来代替呢?一张图片,哪怕包含了一千个字,在模型眼里可能也就几十个或者几百个Patch。这压缩比,简直了!这就是所谓的“上下文光学压缩”。听起来是不是很高大上?其实说白了就是“以图代文”,不地道。。

这不仅仅是OCR,这是对记忆的模拟!
我直接好家伙。 我们得承认,DeepSeek-OCR不仅仅是一个用来识别文字的工具。虽然它叫OCR,但它的野心远不止于此。你看他们的论文里怎么说的?“开辟LLM研究新方向,光学压缩的渐进模糊特性为模拟人类遗忘机制、解决长上下文挑战提供了创新思路”。哇塞,这逼格瞬间就上来了有没有!
那必须的! 人类是怎么记忆的?是不是记得最近发生的事情特别清楚,越久远的事情越模糊?DeepSeek-OCR就想模拟这个过程。他们把很久以前的文本渲染成一张小小的、模糊的图片,只保留大概意思;而最近的文本就渲染成高清大图。这样一来既节省了Token,又符合人类的认知规律。这哪里是技术,这简直就是哲学!这简直就是“让每一行代码都有温度”!虽然我不太确定代码怎么会有温度,难道是GPU跑得太热了吗?哈哈,开个玩笑。
DeepSeek-OCR:这玩意儿到底是个什么鬼?光学压缩还能这么玩?
哎呀,最近这个圈子里真的是炸开了锅!大家都在谈论什么大模型,什么长上下文,什么Transformer,听得耳朵都起茧子了。但是!今天我们要聊的这个东西,DeepSeek-OCR,它真的有点不一样。说实话,第一次看到“吗?还是说要把文字变成光子存进光纤里?后来仔细一看,哦,原来是这么回事!这帮人真的是脑洞大开,居然想把文本变成图片,然后再塞进模型里去。这听起来是不是有点像是在脱裤子放屁?直接读文本不就好了吗?非要多此一举转成图片,官宣。?
但是朋友们,别急着喷。这背后其实藏着大智慧啊!你想啊,现在的LLM处理长文本的时候,那个计算复杂度是呈二次方增长的,也就是O。这是什么概念?就是文本越长,算力吃得越凶,显卡烧得越快!这谁顶得住啊?所以 DeepSeek这帮天才就想出了一个绝招:既然文本Token这么贵,那我们能不能用视觉Token来代替呢?一张图片,哪怕包含了一千个字,在模型眼里可能也就几十个或者几百个Patch。这压缩比,简直了!这就是所谓的“上下文光学压缩”。听起来是不是很高大上?其实说白了就是“以图代文”,不地道。。

这不仅仅是OCR,这是对记忆的模拟!
我直接好家伙。 我们得承认,DeepSeek-OCR不仅仅是一个用来识别文字的工具。虽然它叫OCR,但它的野心远不止于此。你看他们的论文里怎么说的?“开辟LLM研究新方向,光学压缩的渐进模糊特性为模拟人类遗忘机制、解决长上下文挑战提供了创新思路”。哇塞,这逼格瞬间就上来了有没有!
那必须的! 人类是怎么记忆的?是不是记得最近发生的事情特别清楚,越久远的事情越模糊?DeepSeek-OCR就想模拟这个过程。他们把很久以前的文本渲染成一张小小的、模糊的图片,只保留大概意思;而最近的文本就渲染成高清大图。这样一来既节省了Token,又符合人类的认知规律。这哪里是技术,这简直就是哲学!这简直就是“让每一行代码都有温度”!虽然我不太确定代码怎么会有温度,难道是GPU跑得太热了吗?哈哈,开个玩笑。

