OMS-model

Aug 29, 2024
3 views
Work

主要目标

—抽烟打电话(吃东西喝水) 睡觉 遗落 宠物,活体

—不好做 危险动作 成员属性(穿着 表情 配饰 年龄)婴儿座椅 安全带 哭闹

OMS数据构建

多轮对话QA

问题列表设计(第一版)

**prompt**
**中文**
**英文**

以多轮对话的形式询问大模型来生成对应数据, 问题:占用token数量比较大,速度较慢

问题列表设计(第二版)

获取数据逻辑为: 模型生成—人工标注—模型生成, 三个阶段

  • 第一阶段,可以用项目SDK或者已知的SOTA模型做一些检测和深度预测的工作
  • 第二阶段, 基于模型生成的数据做人工修正和标注,这部分主要是构建分类性质的问题(比如常见物体的检测以及对应的属性和类别), 可以作为专家库信息,来辅助后面的模型生成准确的数据
  • 第三阶段,基于已有的专家信息做辅助生成多轮QA数据,这里需要设计多种问答模板,并使用语言模型对数据进行多样性润色
prompt(生成QA数据)
生成效果
prompt(生成evaluation数据)
生成效果

图像描述

复杂逻辑推理

车内是否有人的表情或者动作看起来有危险? 是否有任何乘客在做可能分散驾驶员注意力的动作?

gpt生成的一些额外问题

OMS-Model 各阶段数据

Align

Caption:

pretrain

16B tokens 6M items

  • Caption
  • object365-v1:

Fine-Tuning

模型训练