开云体育官方网站 登顶Hugging Face论文热榜, LLM重写数据准备的游戏设施

开云体育官方网站 - KAIYUN
开云滚球
开云体育官方网站 - KAIYUN
开云体育官方网站 登顶Hugging Face论文热榜, LLM重写数据准备的游戏设施
发布日期:2026-02-12 23:54    点击次数:95

开云体育官方网站 登顶Hugging Face论文热榜, LLM重写数据准备的游戏设施

在企业级系统中,数据团队浩繁濒临一个窘境:模子迭代连忙,但数据准备的「老旧管谈」却愈发千里重。清洗、对王人、标注…… 这些责任依然深陷于东谈主工设施与各人教养的泥潭。您的团队是否也为此困扰?

数据形状丰富多采,正则抒发式越写越多,却总有出东谈主料思的「脏数据」出现

其实,分析房价涨跌并不难办,关键在于你是否善于观察发现,毕竟在房价涨跌前,总是会出现一些蛛丝马迹的!

跨系统表结构不一致,对王人逻辑复杂,东谈主工映射耗时耗力

海量数据衰败标签和语义形色,分析师「看不懂、用不好」

这背后是数据准备这依然典艰巨 —— 它占用了数据团队近 80% 的时候与元气心灵,却依然是智能化进度中最顽强的瓶颈。传统方法主要依赖静态设施与领域特定模子,存在三大根底局限:高度依赖东谈主工与各人学问、对任务语义的感知才气有限、在不同任务与数据模态间泛化才气差。

如今,一份引爆 HuggingFace 趋势榜的磋商综述指出,大讲话模子(Large Language Models,LLMs)正在从根底上篡改这一场面,激动数据准备从「设施首先」向「语义首先」的范式沟通。

来自上海交通大学、清华大学、微软磋商院、麻省理工学院(MIT)、上海 AI Lab、小红书、阿里巴巴、港科大(广州)等机构的磋商团队,系统梳理了比年来大讲话模子在数据准备经过中的变装变化,试图陈述一个业界祥和的问题:LLM 能否成为下一代数据管谈的「智能语义核心」,透彻重构数据准备的范式?

论文标题:Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

arXiv 论文地址:https://arxiv.org/abs/2601.17058

Huggingface 论文主页:https://huggingface.co/papers/2601.17058

GitHub 样式主页:https://github.com/weAIDB/awesome-data-llm

从「东谈主工设施」到「语义首先」的数据准备范式鼎新

传统的数据准备高度依赖东谈主工设施和任务定制模子:正则抒发式、字段校验逻辑、领域特定的分类器,不仅构建和珍藏资本富贵,且一朝数据形状变化或濒临跨域集成,整套体系就显得格外脆弱。

磋商团队指出,LLM 的引入正在激动这依然过从「设施首先」向「语义首先」沟通。模子不再只是施行预设逻辑,而是尝试领悟数据背后的含义,并据此完成检测、培植、对王人和补充等操作。

在这篇综述中,作家从应用层面(Application-Ready)的视角开赴,构建了一个以任务为中心的分类框架,将 LLM 增强的数据准备过程拆分为三大核心标准:

数据清洗(Data Cleaning):空幻检测、形状尺度化、格外培植、缺失值填补等;

数据集成(Data Integration):实体匹配、模式匹配、跨源对王人与冲破消解;

数据增强(Data Enrichment):列类型识别、语义标注、表级与库级画像构建。

图 1:数据准备三大核心任务:数据清洗、集成与增强,辞别处置数据的一致性与质地问题、拒绝与集成羁系、以及语义与险阻文限度

论文中的举座框架展示了 LLM 在数据准备活水线中的多维度变装。磋商团队将现有时间旅途归纳为三类,这与传统单一方法变成昭彰对比:

基于 prompt 的方法(M1):通过结构化教导和险阻文示例,奏凯指点模子完成尺度化、匹配或标注等任务,强调纯真性与低开辟资本。

检索增强与搀杂方法(M2):伙同检索增强生成(RAG)、模子调优(如微调)、袖珍模子或传统设施系统,在资本、范畴与踏实性之间寻求均衡。

智能体编排方法(M3):让 LLM 行为配合核心,调用外部器具和子模子,逐步构建复杂的数据处理责任流,探索自动化与自主有谋划的范畴。

图 2:LLM 增强的数据准备时间全景总览,涵盖数据清洗、数据集成和数据增强三大任务特等细分时间道路

代表性责任与系统:从表面到工程实践

在具体方法层面,论文梳理了比年来一批具有昭彰工程导向特征的代表性责任。举例:

在数据清洗场景中,CleanAgent 引入了粗略自主经营的智能体架构,通过调用 Python 库等外部器具动态构建清洗责任流。

在数据集成领域,Jellyfish 探索了「大模子教小模子」的蒸馏范式,开云体育诈欺 GPT-4 的推理轨迹微调轻量级模子,显耀裁减了大范畴匹配的资本。

而在数据增强标的,Pneuma 则伙同了 RAG(检索增强生成) 时间,通过检索数据湖中的有关表格与文档,为原始数据补充缺失的语义险阻文与元数据。

表 1:LLM 增强的数据准备方法时间概览

论文回来的「时间河山式」对照表(如上方表 1),将不同方法按照时间旅途(基于 prompt、RAG、智能体等)与任务标准(清洗、集成、增强) 进行交叉定位。其核心价值在于匡助工程团队进行时间选型:在不同范畴、资本拘谨与任务阶段下,应优先研讨哪类时间道路。

从该表中,磋商团队索要出几条对工程实践极具带领真谛的不雅察:

基于 prompt 的方法合乎小范畴、高复杂度任务:举例高价值表格的语义培植、复杂实体歧义消解,但在大范畴场景中资本和一致性难以收敛。

RAG 与搀杂系统成为主流工程选拔:通过检索、设施系统或轻量模子分管高频、低难度任务,让 LLM 专注于「难例」和核心语义有谋划,完了更高的举座性价比。

智能体道路仍处于探索阶段:多步器具调用在复杂责任流中展现出后劲,但其踏实性、调试资本和服从可评估性仍是面前的主要瓶颈。

常用评估数据集与基准

除了代表性方法和系统,论文还整理了面前用于评估 LLM 数据准备才气的代表性数据集与基准(如下方表 2),为工程团队和磋商者提供了一份「可复执行验舆图」。

表 2:数据准备代表性数据集总览

从任务维度看,这些基准约莫隐匿了三类典型场景:

数据清洗(Data Cleaning):常用数据集包括 Hospital 和 Flights,用于评估模子在形状空幻培植、值尺度化和缺失字段补全等任务中的踏实性与准确性。这类数据集往往包含东谈主为注入或确切采集的噪声模式,合乎测试模子在结构性空幻下的鲁棒性。

数据集成(Data Integration):在实体匹配和跨源对王人任务中,WDC Products 和 Amazon-Google Products 等电商类数据集被无为使用,用于磨练模子在称号歧义、属性不一致和多对多匹配场景下的语义判别才气。

数据增强(Data Enrichment):表语义标注和列类型识别任务中,磋商责任常基于 OpenWikiTable、Public BI 等表格语义数据集,评估模子生成元数据和语义形色的准确性与一致性。

磋商团队指出,面前多数基准仍以中小范畴表格和结构化数据为主,关于企业级数据湖、日记流和多模态数据场景的隐匿仍然有限,这也在一定程度上限度了不同方法在确切系统中的横向对比才气。

核心洞见、现有挑战与工程指南

在对浩繁文件与系统进行深化对比后,磋商团队给出了邻接全文的核心洞见,并明晰地指出了迈向确切应用必须突出的鸿沟:

工程可落地性优先:在确切系统中,浑沌量、蔓延、资本收敛和服从可回溯性,往往比单次任务的十足准确率更为要道。这意味着追求极致精度的复杂方法,无意是工程上的最优解。

搀杂架构是主流标的:短期内,LLM 更可能行为「语义核心」镶嵌传统数据管谈,与设施系统、检索引擎和轻量模子变成协同的搀杂架构,而非完全替代现有基础设施。

评估体系是面前瓶颈:不同磋商给与的数据集、概念和任务界说互异较大,艰难和洽、可复现的评估尺度,严重制约了时间的横向相比、迭代与工程选型。

但是,走向大范畴确切应用,仍濒临明确挑战:推理资本与蔓延在大范畴场景下仍显富贵;踏实性与幻觉问题在条款严苛的清洗、匹配任务中亟待处置;而和洽的评估体系确立更是任重谈远。

因此,综述指出,更执行的旅途并非用大模子完全取代现有设施,而是将其行为 「语义配合者」镶嵌要道节点。

这份综述为工程团队提供了一张宝贵的时间舆图与选型指南。若是你正在搭建或优化企业级数据平台开云体育官方网站,它不错帮你判断:在哪些标准引入大模子担任「智能语义层」能带来最高性价比,而在哪些部分,经过考据的传统设施系统与数据库内核仍是更可靠、高效的选拔。