|
基于视觉语言模型的平面几何图形自动形式化 崔晓腾,刘一 北京交通大学计算机科学与技术学院,北京市 100044 摘要:视觉语言模型等大模型已展现出强大的世界知识理解能力,为数学问题自动求解研究提供了新的启发。在几何问题自动求解领域,几何图形中所蕴含的复杂多样的抽象几何关系给利用大模型进行求解带来了巨大挑战。为了提升几何问题求解的准确性,本文分析了现有的求解范式,并提出利用视觉语言模型来提高几何图形自动形式化的准确性。首先,通过利用代数交换律进行数据增强,本文基于数据集 Geometry3K构建了一个多模态指令微调数据集GeometryDiagramFormalization86K (GDF86K)。该数据集包含超过86,000个(几何图形,形式化语言文字列表)数据对,以促进图形形式化模型的训练。基于 GDF86K 进行有监督微调,本文训练得到专注于几何图形形式化的视觉语言模型 Geo-TinyLLaVA。在输入的几何图形带有完整的几何点命名标注的前提下,Geo-TinyLLaVA 在几何图形形式化任务上的表现优于传统的 Inter-GPS 图形解析器,并可作为插件集成到 Inter-GPS几何问题求解系统中,以提高其求解准确率。 关键词:视觉语言模型;形式化;平面几何;教据增强;有监督微调 中图分类号:TP183
|