如何将LLM的表格理解任务文本模态进行高效?

2026-05-23 23:374阅读0评论服务器VPS
  • 内容介绍
  • 文章标签
  • 相关推荐

大模型表格理解任务:如何高效处理文本模态?

表格理解任务已经成为一个重要的研究方向,特别是在包含表格的RAG任务以及表格操作数据抽取文本对比等任务中。这一章我们将探讨单一的文本模态,即已经通过OCR或者多模态等方式从PDF或者图片中获取了表格的文本数据,优化一下。。

表格理解任务的多样性

TableLLM论文进行了用户调研,以了解用户对于表格任务的真实需求。除了传统的TableQA、 Table Extraction、Dialogue、Fact Verification等Table2Text任务之外还包含了更多操作类任务,比方说表格匹配、表格绘图。

解密Prompt系列32. LLM之表格理解任务-文本模态
操作类型 纯表格数据 文本中内嵌的表格数据
Query
Update
Merge
Chart

整体上, 论文把表格数据涉及到的操作类型分成了Query、Update、Merge和Chart四大类。在纯表格数据上,四种操作类型都会有,而在文本中内嵌的表格数据上,query查询是主要操作。

微调数据的构成

说到点子上了。 微调数据的构成包括Instruction+Input+Question为输入,Response为输出。论文使用了NL+SEP来表征表格数据,并加入了表格任务的描述。考虑表格数据的长度往往超过4K,这里选用LongLora微调后的7B模型为基座。

阅读全文

大模型表格理解任务:如何高效处理文本模态?

表格理解任务已经成为一个重要的研究方向,特别是在包含表格的RAG任务以及表格操作数据抽取文本对比等任务中。这一章我们将探讨单一的文本模态,即已经通过OCR或者多模态等方式从PDF或者图片中获取了表格的文本数据,优化一下。。

表格理解任务的多样性

TableLLM论文进行了用户调研,以了解用户对于表格任务的真实需求。除了传统的TableQA、 Table Extraction、Dialogue、Fact Verification等Table2Text任务之外还包含了更多操作类任务,比方说表格匹配、表格绘图。

解密Prompt系列32. LLM之表格理解任务-文本模态
操作类型 纯表格数据 文本中内嵌的表格数据
Query
Update
Merge
Chart

整体上, 论文把表格数据涉及到的操作类型分成了Query、Update、Merge和Chart四大类。在纯表格数据上,四种操作类型都会有,而在文本中内嵌的表格数据上,query查询是主要操作。

微调数据的构成

说到点子上了。 微调数据的构成包括Instruction+Input+Question为输入,Response为输出。论文使用了NL+SEP来表征表格数据,并加入了表格任务的描述。考虑表格数据的长度往往超过4K,这里选用LongLora微调后的7B模型为基座。

阅读全文