“大模型基本颠覆了传统人工智能开发体系。”齐红威介绍,未来众多传统行业将快速应用大模型,其中90%的工作与数据相关,这凸显了高质量数据集的重要性。
当下,大模型下数据已经开始分层,而当前制约大模型高质量数据集最核心的问题包括版权、标注成本、领域数据封闭等。
那么,高质量数据集应该如何建设?齐红威认为,建设技术体系包括从业务系统提取数据至大模型;数据标注生产环节,含标准制定、人员培训、质量控制与生产管理;数据集管理;服务体系构建;利用高质量数据集为传统行业赋能,快速生成领域大模型;评测模型效果,高质量数据集核心是质量。
(《大模型下数据已经开始分层》由贵阳日报为您提供,转载请注明来源,未经书面授权许可,不得转载或镜像。)