如何将LLM的表格理解任务文本模态进行高效？

2026-05-23 23:375阅读0评论服务器VPS

内容介绍
文章标签
相关推荐

大模型表格理解任务：如何高效处理文本模态？

表格理解任务已经成为一个重要的研究方向，特别是在包含表格的RAG任务以及表格操作数据抽取文本对比等任务中。这一章我们将探讨单一的文本模态，即已经通过OCR或者多模态等方式从PDF或者图片中获取了表格的文本数据，优化一下。。

表格理解任务的多样性

TableLLM论文进行了用户调研，以了解用户对于表格任务的真实需求。除了传统的TableQA、 Table Extraction、Dialogue、Fact Verification等Table2Text任务之外还包含了更多操作类任务，比方说表格匹配、表格绘图。

操作类型	纯表格数据	文本中内嵌的表格数据
Query	✔	✔
Update	✔
Merge	✔
Chart	✔

整体上，论文把表格数据涉及到的操作类型分成了Query、Update、Merge和Chart四大类。在纯表格数据上，四种操作类型都会有，而在文本中内嵌的表格数据上，query查询是主要操作。

微调数据的构成

说到点子上了。微调数据的构成包括Instruction+Input+Question为输入，Response为输出。论文使用了NL+SEP来表征表格数据，并加入了表格任务的描述。考虑表格数据的长度往往超过4K，这里选用LongLora微调后的7B模型为基座。

不同表格数据表征形式的效果对比

论文实验了包括JSON、 3种不同的标记语言，以及在众多表格任务中常见的使用“|”分隔符直接分割表的NL+Sep模式。表征形式效果 JSON 一般 HTML 最佳 NL+Sep 较好痛并快乐着。以上消融实验比较明显的结论有两个：先说说使用标记语言进行表格数据表征可以显著提高模型的效果；接下来不同的表征形式对不同的子任务有不同的影响。基于Prompt的方案先说说我们介绍基于Prompt的方案，核心回答表格问答和推理中的两个问题：如何抽取相关数据和如何进行推理，坦白说...。 Dater的整体流程包含三个步骤：表格分解，问题分解，和合并推理。论文使用了GPT3 Codex作为模型。微调方案：Table Llama和TableLLM 将心比心... 除了以上利用GPT的Prompt方案，我们再介绍两个微调方案：Table Llama和TableLLM。 Table Llama是很典型的垂直领域微调方案。论文设计了TableInstruct微调数据集，筛选了总共包括14个表格数据集的总共11类任务。其中训练集选择8个数据集和8类任务，测试集为6个数据集和4类任务，来检测模型在样本外任务类型上的泛化效果，没眼看。。数据集/任务类型训练集/测试集分布情况举例 WikiSQL等部分数据集例子...具体分布细节略,含8个训练集与6个测试集.我CPU干烧了。我正在参与2024腾讯技术创作特训营最新征文，快来和我瓜分大奖！Dater与Chain-of-Table方案解析及效果对比分析研究讨论..."Parsing-execution-filling"的方案，其实和ReACT，Self-ASK，IRCOT的思路是一样的，不过是适配到了表格任务上...f_add_column, f_select_column等函数功能及few-shot demos示例说明列表标题行... f_add_column:新增列及其取值逻辑. f_select_column:选择列及其参数正则表达式支持.其他相关工作与讨论分析未来方向设想等...谷歌提出的Chain-of-Table在Dater的基础上加入了更多，你想... 太顶了。更灵活的表格操作...f_select_row + f_select_column功能对应关系举例列表... f_select_row + f_select_column其实就对应上面Dater的操作.中肯。想看更全的大模型相关论文梳理·微调及预训练数据和框架·AIGC应用，移步 DecryPrompt! 大型语言模型是否能够理解结构化表格数据？—一项基准测试与实证研究探讨评述.. ..概述. 大致内容包含但不限于以下方面信息点或关键词提及。 ; 各种不同类型的自然语言处理与大模型结合运用场景；结构化与非结构化数据的特点及其在AI系统中处理差异性简要概述说明部分... 这里主要是看下上面表格数据构建的流程... .... 动态规划是模型基于当前表格状态... 参数生成的prompt包括... 经过多步操作后当前的表格状态... 一些相关的其他工作的简单提及Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning; 一些实验后来啊显示使用不同的基座模型... Chain-of-Table在Wiki TQ和TabFact等... 并且在不同大小的... 微软这篇论文主要实验并回答了两个问题；动态规划部分prompt包括... 历史的Function chain. 等等.，瞎扯。

标签：表格理解大模型微调 Prompt

大模型表格理解任务：如何高效处理文本模态？

表格理解任务的多样性

操作类型	纯表格数据	文本中内嵌的表格数据
Query	✔	✔
Update	✔
Merge	✔
Chart	✔

微调数据的构成

不同表格数据表征形式的效果对比

标签：表格理解大模型微调 Prompt

大模型表格理解任务：如何高效处理文本模态？

表格理解任务的多样性

微调数据的构成

不同表格数据表征形式的效果对比

相关推荐

大模型表格理解任务：如何高效处理文本模态？

表格理解任务的多样性

微调数据的构成

不同表格数据表征形式的效果对比

相关推荐