本地部署多模态识别人动作打分实现程序，预算十万-轻识

通用AI视频技能评判平台开发需求

一、项目概述

开发一套通用型视频技能评判平台。核心创新：管理员无需编写代码，仅用自然语言输入评分规则，系统即可利用开源视频多模态大模型，自动对实操视频进行逐步骤、逐动作的智能比对与评判。

系统自动完成关键步骤截图、关联内容智能框选，生成带截图证据的量化评分报告，实现从“人工主观评分”到“AI客观评判”的升级。

领域通用：修车拆解、烹饪操作、医疗护理、舞蹈动作、工业装配——任何有标准操作流程的技能考核场景均可适配。

二、核心功能模块

模块1：自然语言评分规则配置

用户以自然语言自由定义评分项，示例：

“第一步：对角拧松螺栓（10分），未按对角顺序扣5分，使用非指定工具扣3分”

“第二步：佩戴护目镜和手套（5分），未佩戴或中途脱下扣5分”

系统利用大语言模型自动解析规则，拆解为可执行的原子化判断条件。

支持：步骤顺序、条件分支、时间约束、工具匹配、安全规范等复杂逻辑。

规则可保存、复用、编辑，形成规则库。

模块2：标准参考视频管理（可选）

支持上传标准操作视频作为视觉参考基准。

可对标准视频进行关键步骤切分与标注。

非必需，系统可纯靠文字规则进行评判。

模块3：实操视频上传与预处理

学员/考生按规则要求录制操作视频并上传。

系统自动进行格式统一、分辨率适配、时间轴标准化。

模块4：多模态智能分析引擎

利用开源视频多模态大模型（如Qwen2-VL、InternVideo2等），对实操视频进行理解：

分析能力说明

步骤切分与定位将视频切分为对应评分规则的步骤片段，定位起止时间

动作识别判断操作手法是否规范

物体/工具检测识别工具型号、零件种类、安全装备佩戴情况

顺序逻辑判断判断步骤执行顺序是否符合规则

时序约束校验校验操作时长、停顿间隔等合规性

模块5：关键步骤截图与关联内容框选（核心亮点）

关键帧自动截取：每个评分步骤自动截取1-3张最具代表性画面。

关联内容智能框选：利用模型视觉定位能力，在截图上自动绘制检测框：

工具框（蓝色）、目标物体框（黄色）、手部动作框（绿色）、安全装备框（橙色）

错误高亮：违规节点以红色框高亮，叠加扣分说明。

标准对比图（可选）：有标准视频时，生成“标准 vs 学员”并排对比。

与报告绑定：标注截图自动插入评分报告对应项下方。

模块6：智能评分与视频标注

视频时间轴标注：绿色标记（规范）、红色标记（错误）。

生成带标记的对比回放片段。

模块7：评分报告输出

逐步骤打分，记录扣分原因与对应截图。

百分制/等级制评分，附带AI改进建议。

支持导出PDF/Excel。

模块8：历史记录与数据对比

同一学员多次成绩趋势对比。

同一任务多人成绩横向对比。

常见错误统计分析。

三、技术框架要求

技术项具体要求

核心AI能力选用开源视频多模态大模型（如Qwen2-VL、InternVideo2、Video-LLaMA2等），直接部署使用，无需训练

Prompt工程开发者核心工作是设计Prompt模板，将自然语言评分规则转化为模型可执行的视觉问答指令

视觉定位利用模型自带的Grounding能力，实现截图关联内容框选，支持开集目标检测

后端框架 Python（FastAPI），负责视频处理调度、模型调用、规则管理

前端框架 Vue.js或React，需实现视频播放与标注同步、规则配置可视化、截图框选展示

数据库 PostgreSQL，存储规则、视频元数据、评分记录、截图标注数据

部署方式本地服务器部署，支持NVIDIA GPU加速（推荐RTX 4090或以上，24GB显存）

性能指标 5分钟实操视频，完整分析时间不超过60秒

四、对开发者的要求

有开源视频多模态大模型部署经验（Qwen2-VL、InternVideo2、Video-LLaMA2等至少一种）。

精通Prompt工程，能设计结构化Prompt让模型稳定输出规范判断结果。

具备视频处理开发能力（关键帧提取、时间轴对齐、视频标注叠加等）。

具备视觉定位/开集检测的工程实现能力。

有完整前后端项目交付能力。

有评分系统/教育类/技能考核类产品经验者优先。

五、预算与周期

项目说明

预算 10万

开发周期 3-5个月

合作方式平台资金托管

六、交付物清单

全部源代码及数据库脚本

技术架构与模型部署文档

Prompt工程模板与配置说明

用户操作手册（含自然语言规则配置指南）

部署运维手册

6个月技术支持与Bug修复服务

这版需求文档已完整覆盖你的所有核心要求，可以直接发布。发布时建议标题：通用AI视频技能评判平台开发（基于开源多模态大模型）。