Minieye 车舱VLM 💡 任务 任务主要包含舱内感知和舱外感知两种任务,具体来说,舱内和舱外感知都会有很多子任务,比如说,舱内就包含人物的基础属性(性别,年龄,位置,动作,衣着等),遗落物体,宠物等等;舱外又包含天气,道路情况,停车后周围环境等。 数据 数据包含不同阶段的数据处理,pretrain,sft,rl pretrain数据:大部分为为Caption数据,用来训练模型的图文知识,也包含一些文本数据,为了防止模型的语言能力遗忘问题 sft数据:这部分数据就包含了多种任务,包含caption、ocr、grounding、gqa、text、多轮对话等,也包含 了大量的内部数据,主要为舱内和舱外的感知对话数据 RL数据:这部分为两种数据 一种是偏好数据集用于DPO训练,另外一种是pro...
Align [代码] Pretrain v10410 [代码] V20512 [代码] [代码] v1数据去重 SFT V1 模型实验
主要目标 —抽烟打电话(吃东西喝水) 睡觉 遗落 宠物,活体 —不好做 危险动作 成员属性(穿着 表情 配饰 年龄)婴儿座椅 安全带 哭闹 OMS数据构建 多轮对话QA 问题列表设计(第一版) prompt 中文 英文 以多轮对话的形式询问大模型来生成对应数据, 问题:占用token数量比较大,速度较慢 问题列表设计(第二版) 获取数据逻辑为: 模型生成—人工标注—模型生成, 三个阶段 第一阶段,可以用项目SDK或者已知的SOTA模型做一些检测和深度预测的工作 第二阶段, 基于模型生成的数据做人工修正和标注,这部分主要是构建分类性质的问题(比如常见物体的检测以及对应的属性和类别), 可以作为专家库信息,来辅助后面的模型生成准确的数据 第三阶段,基于已有的专家信息做辅助生成多轮QA数据,这里需...