SFC-LD Dataset_数据集

SFC-LD Dataset

arXiv2025-09-16 更新2025-09-18 收录

工业自动化

程序转换

资源简介：

该数据集由成对的SFC和LD程序文本表示组成，用于训练大型语言模型（LLM）进行LD到SFC的转换。数据集包含420个样本，其中包含三种基本结构的SFC和LD表示，用于评估LLM在LD到SFC转换任务上的性能。

原始地址：

https://github.com/yimin-up/Converting IEC 61131LD into SFC Using LLM Dataset and Testing.git

提供机构：

CISTER /Faculty of Engineering University of Porto

创建时间：

2025-09-16

数据集介绍

构建方式

在工业控制编程领域，SFC-LD数据集的构建采用了基于规则生成的合成方法。研究团队首先定义顺序结构、并行分支结构和选择分支结构三种基本SFC模式，通过递归算法随机生成SFC数据架构，并设置不同的概率参数控制各结构的出现频率。随后利用SFC到LD转换的相对简易性，将生成的SFC文本表示自动转化为等效的LD文本表示，形成语义匹配的程序对。整个过程通过调整递归深度和分支概率参数，生成了四个具有不同复杂度的子数据集。

特点

该数据集的核心特征体现在其结构化设计与复杂性梯度。数据集包含420个样本，划分为四个子集，分别对应不同的结构组成概率和递归深度，从而形成从简单到复杂的程序序列。每个样本均由SFC文本表示与等效LD文本表示成对组成，且剔除了实际工业场景中的变量声明和动作描述，专注于程序控制流的结构化表征。这种设计既保证了数据的内在一致性，又通过盒状图统计验证了各数据集在步数和转换数上的复杂度差异，为模型性能评估提供了多维度的测试基准。

使用方法

数据集主要用于训练和评估大语言模型在LD到SFC转换任务上的性能。使用时需将LD文本表示输入模型，要求生成对应的SFC文本表示。输出结果需经过开源编译器MatIEC进行语法检查，并通过结构对比算法与原始SFC数据架构进行相似性验证。研究支持少样本学习和微调两种模式，实验表明微调后的GPT-4o-mini模型在特定子集上可达91%的联合通过率。该数据集还可用于分析程序复杂度与转换准确性的关联关系，为工业控制程序的自动化转换提供基准测试平台。

背景与挑战

背景概述

在工业自动化领域，可编程逻辑控制器（PLC）的图形化编程语言因其与物理过程的紧密对应而备受工程师青睐。IEC 61131-3标准定义了五种编程语言，其中梯形图（LD）和顺序功能图（SFC）是两种广泛应用的图形化语言。2025年，波尔图大学工程学院的Yimin Zhang与Mario de Sousa团队针对LD到SFC自动转换的长期难题，构建了SFC-LD数据集。该数据集通过生成随机的SFC结构并转换为等效的LD文本表示，旨在利用大语言模型（LLM）解决传统方法中领域知识缺失和状态爆炸问题，为工业控制领域的代码转换研究提供了首个公开的文本化数据集，推动了AI在PLC编程中的应用探索。

当前挑战

SFC-LD数据集致力于解决工业控制中梯形图向顺序功能图的自动转换问题，其核心挑战在于传统规则方法因缺乏领域知识而难以准确描述组件行为，且易受状态爆炸问题制约。构建过程中，研究者面临真实工业数据稀缺的困境，被迫采用合成数据生成策略；需平衡程序复杂度与生成可行性，通过递归结构和概率参数控制避免结构爆炸；同时需将图形逻辑转化为文本表示以适应LLM处理，但简化命名规则和忽略输入输出变量可能削弱实际工业场景的适用性。

常用场景

经典使用场景

在工业自动化领域，SFC-LD数据集主要用于探索基于大型语言模型的梯形图（LD）向顺序功能图（SFC）的自动转换研究。该数据集通过生成配对的SFC与LD文本表示，为模型训练提供了结构化输入，有效支持了程序逻辑的跨模态转换实验。其典型应用包括验证LLM在控制逻辑转换中的可行性，并成为工业编程语言转换研究的基础资源。

实际应用

在实际工业场景中，该数据集支持了遗留梯形图程序的现代化改造与维护。通过将LD转换为更易理解的SFC形式，工程师能够更高效地分析离散事件系统的状态逻辑，提升代码可读性与系统可靠性。此外，该技术可集成至PLC开发工具链中，为自动化生成控制逻辑、简化调试流程提供底层数据支持，推动工业编程的智能化转型。

衍生相关工作

该数据集催生了多项工业编程语言处理的研究，例如基于检索增强生成（RAG）的ST代码生成框架、多智能体协同的PLC代码自动化系统，以及结合在线反馈的偏好优化方法。这些工作扩展了LLM在控制逻辑生成、测试用例合成和语义验证等方面的应用，形成了以文本表示为桥梁的工业程序处理新范式，为后续研究提供了方法论与数据基础。

以上内容由AI搜集并总结生成