本地部署多模态识别人动作打分实现程序,预算十万
通用AI视频技能评判平台开发需求
一、项目概述
开发一套通用型视频技能评判平台。核心创新:管理员无需编写代码,仅用自然语言输入评分规则,系统即可利用开源视频多模态大模型,自动对实操视频进行逐步骤、逐动作的智能比对与评判。
系统自动完成关键步骤截图、关联内容智能框选,生成带截图证据的量化评分报告,实现从“人工主观评分”到“AI客观评判”的升级。
领域通用:修车拆解、烹饪操作、医疗护理、舞蹈动作、工业装配——任何有标准操作流程的技能考核场景均可适配。
二、核心功能模块
模块1:自然语言评分规则配置
用户以自然语言自由定义评分项,示例:
“第一步:对角拧松螺栓(10分),未按对角顺序扣5分,使用非指定工具扣3分”
“第二步:佩戴护目镜和手套(5分),未佩戴或中途脱下扣5分”
系统利用大语言模型自动解析规则,拆解为可执行的原子化判断条件。
支持:步骤顺序、条件分支、时间约束、工具匹配、安全规范等复杂逻辑。
规则可保存、复用、编辑,形成规则库。
模块2:标准参考视频管理(可选)
支持上传标准操作视频作为视觉参考基准。
可对标准视频进行关键步骤切分与标注。
非必需,系统可纯靠文字规则进行评判。
模块3:实操视频上传与预处理
学员/考生按规则要求录制操作视频并上传。
系统自动进行格式统一、分辨率适配、时间轴标准化。
模块4:多模态智能分析引擎
利用开源视频多模态大模型(如Qwen2-VL、InternVideo2等),对实操视频进行理解:
分析能力 说明
步骤切分与定位 将视频切分为对应评分规则的步骤片段,定位起止时间
动作识别 判断操作手法是否规范
物体/工具检测 识别工具型号、零件种类、安全装备佩戴情况
顺序逻辑判断 判断步骤执行顺序是否符合规则
时序约束校验 校验操作时长、停顿间隔等合规性
模块5:关键步骤截图与关联内容框选(核心亮点)
关键帧自动截取:每个评分步骤自动截取1-3张最具代表性画面。
关联内容智能框选:利用模型视觉定位能力,在截图上自动绘制检测框:
工具框(蓝色)、目标物体框(黄色)、手部动作框(绿色)、安全装备框(橙色)
错误高亮:违规节点以红色框高亮,叠加扣分说明。
标准对比图(可选):有标准视频时,生成“标准 vs 学员”并排对比。
与报告绑定:标注截图自动插入评分报告对应项下方。
模块6:智能评分与视频标注
视频时间轴标注:绿色标记(规范)、红色标记(错误)。
生成带标记的对比回放片段。
模块7:评分报告输出
逐步骤打分,记录扣分原因与对应截图。
百分制/等级制评分,附带AI改进建议。
支持导出PDF/Excel。
模块8:历史记录与数据对比
同一学员多次成绩趋势对比。
同一任务多人成绩横向对比。
常见错误统计分析。
三、技术框架要求
技术项 具体要求
核心AI能力 选用开源视频多模态大模型(如Qwen2-VL、InternVideo2、Video-LLaMA2等),直接部署使用,无需训练
Prompt工程 开发者核心工作是设计Prompt模板,将自然语言评分规则转化为模型可执行的视觉问答指令
视觉定位 利用模型自带的Grounding能力,实现截图关联内容框选,支持开集目标检测
后端框架 Python(FastAPI),负责视频处理调度、模型调用、规则管理
前端框架 Vue.js或React,需实现视频播放与标注同步、规则配置可视化、截图框选展示
数据库 PostgreSQL,存储规则、视频元数据、评分记录、截图标注数据
部署方式 本地服务器部署,支持NVIDIA GPU加速(推荐RTX 4090或以上,24GB显存)
性能指标 5分钟实操视频,完整分析时间不超过60秒
四、对开发者的要求
有开源视频多模态大模型部署经验(Qwen2-VL、InternVideo2、Video-LLaMA2等至少一种)。
精通Prompt工程,能设计结构化Prompt让模型稳定输出规范判断结果。
具备视频处理开发能力(关键帧提取、时间轴对齐、视频标注叠加等)。
具备视觉定位/开集检测的工程实现能力。
有完整前后端项目交付能力。
有评分系统/教育类/技能考核类产品经验者优先。
五、预算与周期
项目 说明
预算 10万
开发周期 3-5个月
合作方式 平台资金托管
六、交付物清单
全部源代码及数据库脚本
技术架构与模型部署文档
Prompt工程模板与配置说明
用户操作手册(含自然语言规则配置指南)
部署运维手册
6个月技术支持与Bug修复服务
这版需求文档已完整覆盖你的所有核心要求,可以直接发布。发布时建议标题:通用AI视频技能评判平台开发(基于开源多模态大模型)。
一、项目概述
开发一套通用型视频技能评判平台。核心创新:管理员无需编写代码,仅用自然语言输入评分规则,系统即可利用开源视频多模态大模型,自动对实操视频进行逐步骤、逐动作的智能比对与评判。
系统自动完成关键步骤截图、关联内容智能框选,生成带截图证据的量化评分报告,实现从“人工主观评分”到“AI客观评判”的升级。
领域通用:修车拆解、烹饪操作、医疗护理、舞蹈动作、工业装配——任何有标准操作流程的技能考核场景均可适配。
二、核心功能模块
模块1:自然语言评分规则配置
用户以自然语言自由定义评分项,示例:
“第一步:对角拧松螺栓(10分),未按对角顺序扣5分,使用非指定工具扣3分”
“第二步:佩戴护目镜和手套(5分),未佩戴或中途脱下扣5分”
系统利用大语言模型自动解析规则,拆解为可执行的原子化判断条件。
支持:步骤顺序、条件分支、时间约束、工具匹配、安全规范等复杂逻辑。
规则可保存、复用、编辑,形成规则库。
模块2:标准参考视频管理(可选)
支持上传标准操作视频作为视觉参考基准。
可对标准视频进行关键步骤切分与标注。
非必需,系统可纯靠文字规则进行评判。
模块3:实操视频上传与预处理
学员/考生按规则要求录制操作视频并上传。
系统自动进行格式统一、分辨率适配、时间轴标准化。
模块4:多模态智能分析引擎
利用开源视频多模态大模型(如Qwen2-VL、InternVideo2等),对实操视频进行理解:
分析能力 说明
步骤切分与定位 将视频切分为对应评分规则的步骤片段,定位起止时间
动作识别 判断操作手法是否规范
物体/工具检测 识别工具型号、零件种类、安全装备佩戴情况
顺序逻辑判断 判断步骤执行顺序是否符合规则
时序约束校验 校验操作时长、停顿间隔等合规性
模块5:关键步骤截图与关联内容框选(核心亮点)
关键帧自动截取:每个评分步骤自动截取1-3张最具代表性画面。
关联内容智能框选:利用模型视觉定位能力,在截图上自动绘制检测框:
工具框(蓝色)、目标物体框(黄色)、手部动作框(绿色)、安全装备框(橙色)
错误高亮:违规节点以红色框高亮,叠加扣分说明。
标准对比图(可选):有标准视频时,生成“标准 vs 学员”并排对比。
与报告绑定:标注截图自动插入评分报告对应项下方。
模块6:智能评分与视频标注
视频时间轴标注:绿色标记(规范)、红色标记(错误)。
生成带标记的对比回放片段。
模块7:评分报告输出
逐步骤打分,记录扣分原因与对应截图。
百分制/等级制评分,附带AI改进建议。
支持导出PDF/Excel。
模块8:历史记录与数据对比
同一学员多次成绩趋势对比。
同一任务多人成绩横向对比。
常见错误统计分析。
三、技术框架要求
技术项 具体要求
核心AI能力 选用开源视频多模态大模型(如Qwen2-VL、InternVideo2、Video-LLaMA2等),直接部署使用,无需训练
Prompt工程 开发者核心工作是设计Prompt模板,将自然语言评分规则转化为模型可执行的视觉问答指令
视觉定位 利用模型自带的Grounding能力,实现截图关联内容框选,支持开集目标检测
后端框架 Python(FastAPI),负责视频处理调度、模型调用、规则管理
前端框架 Vue.js或React,需实现视频播放与标注同步、规则配置可视化、截图框选展示
数据库 PostgreSQL,存储规则、视频元数据、评分记录、截图标注数据
部署方式 本地服务器部署,支持NVIDIA GPU加速(推荐RTX 4090或以上,24GB显存)
性能指标 5分钟实操视频,完整分析时间不超过60秒
四、对开发者的要求
有开源视频多模态大模型部署经验(Qwen2-VL、InternVideo2、Video-LLaMA2等至少一种)。
精通Prompt工程,能设计结构化Prompt让模型稳定输出规范判断结果。
具备视频处理开发能力(关键帧提取、时间轴对齐、视频标注叠加等)。
具备视觉定位/开集检测的工程实现能力。
有完整前后端项目交付能力。
有评分系统/教育类/技能考核类产品经验者优先。
五、预算与周期
项目 说明
预算 10万
开发周期 3-5个月
合作方式 平台资金托管
六、交付物清单
全部源代码及数据库脚本
技术架构与模型部署文档
Prompt工程模板与配置说明
用户操作手册(含自然语言规则配置指南)
部署运维手册
6个月技术支持与Bug修复服务
这版需求文档已完整覆盖你的所有核心要求,可以直接发布。发布时建议标题:通用AI视频技能评判平台开发(基于开源多模态大模型)。
*************
*************
评论
