定制垂类大模型
AI2025-01-11
定制垂类大模型
核心观点
定制垂类大模型 = 优质数据集 + 开源大模型
我们微调的目的,是定制一个专属的垂类大模型,实现这一点,需要我们所指定领域的优质数据集和一个选定的开源通用大模型。
通俗来说,微调,其实可以类比为给一个高中生(通用大模型),灌输知识偏好(数据集)塑造世界观,长大成职业选手(分化成对应的能力者,垂类大模型)。
1.1 收集可能的数据集素材
Chat-嬛嬛这种赋予大模型特定人格的技术,也被称为大模型的人格化,它是指通过一系列技术手段,使大模型在语言表达、行为模式、情感反应等方面更接近人类,从而为用户带来更自然、更亲切、更个性化的交互体验。
要想实现这个目标,我们其实就是要让 AI 在对话中,能按照一问一答的方式,回复出对应人物风格的话语,最简单我们能思考到的,就是把相关的台词都喂给 AI,因此我们可以去网上搜集相关的剧本。
1.2 构建对应格式的数据集
1.2.1 选择数据格式
- 文本数据: 对于语言模型来说,微调数据必须是文本。如果你的数据源是 WORD、PDF 等格式,需要使用专门的解析工具,提取其中的文本。如 Python 的 
docx、PyPDF2包。 - 结构化存储: 微调数据除了当前对话的输入和输出之外,还有一些其他的属性,如想要大模型扮演的角色、对话历史等等。因此,为了更好地对数据进行处理,通常会对数据进行结构化,并以 json 或者 jsonl 的格式进行存储。
 - 主流格式: 目前主流的数据集有两种格式:Alpaca 格式和 ShareGPT 格式,其主要特点如下表所示。
 
1.2.2 构建数据集
这里为了构建足够大的数据集,我直接将 instruction 和 output 分为了 subject、verb、object 以及其他的一些助词,直接通过代码枚举组合生成了足够的数据
1.3 配置微调参数
在讯飞星辰 MaaS 平台,可支持配置的微调参数可以分成下面三个大类。
1.4 评价微调效果
- 模型训练完成后,可以仿照上一篇文章一样,将模型发布为服务,使用简单数据进行效果验证。
 - 如果效果符合预期,可以采用类似构建训练集的方式,构建测试集,进行批量推理。
 - 最后,如果希望将模型集成在要开发的应用中,可以使用在模型服务列表,查看调用信息,进行 API 调用。