如何通过LLM实现多模态图表理解任务?

2026-05-21 23:013阅读0评论工具资源
  • 内容介绍
  • 文章标签
  • 相关推荐

上一章我们介绍了纯文本模态的表格理解任务,这一章我们聚焦多模态图表数据。先讨论下单纯使用prompt的情况下 图片和文字模态哪种表格模型理解的效果更好更好, 破防了... 再说下和表格相关的图表理解任务的微调方案。

一、Prompt 时代:图片 VS 文本,谁更“懂”图表?

说真的,这俩玩意儿各有各的脾气。文字模型往往像个书呆子,理性严谨; 行吧... 而图片模型则像个画家,直觉爆棚。我们随手抛了几个实验:

​解密Prompt系列33. LLM之图表理解任务-多模态篇
  • 同一个柱状图, 用纯文提问“最高值是多少”,答对率约 78%
  • 同一个柱状图, 用视觉+文本混合模型提问,同样的问题,答对率飙到 85%
  • 但如果换成复杂的交叉表, 文字模型竟然抢了风头——答对率逆袭到 82%而视觉模型跌到 70%

CPU你。 所以结论是:别把所有鸡蛋都放在同一个篮子里——不同类型的图表要挑最合适的模态。

1️⃣ 为什么视觉模型有时会“失灵”?

这里合并使用了token的self‑attention的cosine similar来作为相似度度量, 然后使用了二分图匹配算法,有点好奇为啥是用这个方案而不直接用矩阵。就是把所有token分两堆,然后男嘉宾去找最喜欢的女嘉宾,保留最有眼缘的r对嘉宾进行合并。这里token合并并不一定是相邻token,原来如此。。

2️⃣ “颜色块”与“空白”到底能干嘛?

这里其实用到了chart图表本身的图片特征, 比方说饼图和直方图等图片会在局部存在大量的同娱乐块,以及空白,所以呢在裁剪的区域上可以再做一层相似合并,搞起来。。

二、 微调方案大盘点:ChartLlama、TinyChart 以及它们的小伙伴们

翻旧账。

阅读全文

上一章我们介绍了纯文本模态的表格理解任务,这一章我们聚焦多模态图表数据。先讨论下单纯使用prompt的情况下 图片和文字模态哪种表格模型理解的效果更好更好, 破防了... 再说下和表格相关的图表理解任务的微调方案。

一、Prompt 时代:图片 VS 文本,谁更“懂”图表?

说真的,这俩玩意儿各有各的脾气。文字模型往往像个书呆子,理性严谨; 行吧... 而图片模型则像个画家,直觉爆棚。我们随手抛了几个实验:

​解密Prompt系列33. LLM之图表理解任务-多模态篇
  • 同一个柱状图, 用纯文提问“最高值是多少”,答对率约 78%
  • 同一个柱状图, 用视觉+文本混合模型提问,同样的问题,答对率飙到 85%
  • 但如果换成复杂的交叉表, 文字模型竟然抢了风头——答对率逆袭到 82%而视觉模型跌到 70%

CPU你。 所以结论是:别把所有鸡蛋都放在同一个篮子里——不同类型的图表要挑最合适的模态。

1️⃣ 为什么视觉模型有时会“失灵”?

这里合并使用了token的self‑attention的cosine similar来作为相似度度量, 然后使用了二分图匹配算法,有点好奇为啥是用这个方案而不直接用矩阵。就是把所有token分两堆,然后男嘉宾去找最喜欢的女嘉宾,保留最有眼缘的r对嘉宾进行合并。这里token合并并不一定是相邻token,原来如此。。

2️⃣ “颜色块”与“空白”到底能干嘛?

这里其实用到了chart图表本身的图片特征, 比方说饼图和直方图等图片会在局部存在大量的同娱乐块,以及空白,所以呢在裁剪的区域上可以再做一层相似合并,搞起来。。

二、 微调方案大盘点:ChartLlama、TinyChart 以及它们的小伙伴们

翻旧账。

阅读全文