本地部署多模态识别人动作打分实现程序,预算十万

通用AI视频技能评判平台开发需求

一、项目概述

开发一套通用型视频技能评判平台。核心创新:管理员无需编写代码,仅用自然语言输入评分规则,系统即可利用开源视频多模态大模型,自动对实操视频进行逐步骤、逐动作的智能比对与评判。



系统自动完成关键步骤截图、关联内容智能框选,生成带截图证据的量化评分报告,实现从“人工主观评分”到“AI客观评判”的升级。



领域通用:修车拆解、烹饪操作、医疗护理、舞蹈动作、工业装配——任何有标准操作流程的技能考核场景均可适配。



二、核心功能模块

模块1:自然语言评分规则配置

用户以自然语言自由定义评分项,示例:



“第一步:对角拧松螺栓(10分),未按对角顺序扣5分,使用非指定工具扣3分”

“第二步:佩戴护目镜和手套(5分),未佩戴或中途脱下扣5分”



系统利用大语言模型自动解析规则,拆解为可执行的原子化判断条件。



支持:步骤顺序、条件分支、时间约束、工具匹配、安全规范等复杂逻辑。



规则可保存、复用、编辑,形成规则库。



模块2:标准参考视频管理(可选)

支持上传标准操作视频作为视觉参考基准。



可对标准视频进行关键步骤切分与标注。



非必需,系统可纯靠文字规则进行评判。



模块3:实操视频上传与预处理

学员/考生按规则要求录制操作视频并上传。



系统自动进行格式统一、分辨率适配、时间轴标准化。



模块4:多模态智能分析引擎

利用开源视频多模态大模型(如Qwen2-VL、InternVideo2等),对实操视频进行理解:



分析能力 说明

步骤切分与定位 将视频切分为对应评分规则的步骤片段,定位起止时间

动作识别 判断操作手法是否规范

物体/工具检测 识别工具型号、零件种类、安全装备佩戴情况

顺序逻辑判断 判断步骤执行顺序是否符合规则

时序约束校验 校验操作时长、停顿间隔等合规性

模块5:关键步骤截图与关联内容框选(核心亮点)

关键帧自动截取:每个评分步骤自动截取1-3张最具代表性画面。



关联内容智能框选:利用模型视觉定位能力,在截图上自动绘制检测框:



工具框(蓝色)、目标物体框(黄色)、手部动作框(绿色)、安全装备框(橙色)



错误高亮:违规节点以红色框高亮,叠加扣分说明。



标准对比图(可选):有标准视频时,生成“标准 vs 学员”并排对比。



与报告绑定:标注截图自动插入评分报告对应项下方。



模块6:智能评分与视频标注

视频时间轴标注:绿色标记(规范)、红色标记(错误)。



生成带标记的对比回放片段。



模块7:评分报告输出

逐步骤打分,记录扣分原因与对应截图。



百分制/等级制评分,附带AI改进建议。



支持导出PDF/Excel。



模块8:历史记录与数据对比

同一学员多次成绩趋势对比。



同一任务多人成绩横向对比。



常见错误统计分析。



三、技术框架要求

技术项 具体要求

核心AI能力 选用开源视频多模态大模型(如Qwen2-VL、InternVideo2、Video-LLaMA2等),直接部署使用,无需训练

Prompt工程 开发者核心工作是设计Prompt模板,将自然语言评分规则转化为模型可执行的视觉问答指令

视觉定位 利用模型自带的Grounding能力,实现截图关联内容框选,支持开集目标检测

后端框架 Python(FastAPI),负责视频处理调度、模型调用、规则管理

前端框架 Vue.js或React,需实现视频播放与标注同步、规则配置可视化、截图框选展示

数据库 PostgreSQL,存储规则、视频元数据、评分记录、截图标注数据

部署方式 本地服务器部署,支持NVIDIA GPU加速(推荐RTX 4090或以上,24GB显存)

性能指标 5分钟实操视频,完整分析时间不超过60秒

四、对开发者的要求

有开源视频多模态大模型部署经验(Qwen2-VL、InternVideo2、Video-LLaMA2等至少一种)。



精通Prompt工程,能设计结构化Prompt让模型稳定输出规范判断结果。



具备视频处理开发能力(关键帧提取、时间轴对齐、视频标注叠加等)。



具备视觉定位/开集检测的工程实现能力。



有完整前后端项目交付能力。



有评分系统/教育类/技能考核类产品经验者优先。



五、预算与周期

项目 说明

预算 10万

开发周期 3-5个月

合作方式 平台资金托管



六、交付物清单

全部源代码及数据库脚本



技术架构与模型部署文档



Prompt工程模板与配置说明



用户操作手册(含自然语言规则配置指南)



部署运维手册



6个月技术支持与Bug修复服务



这版需求文档已完整覆盖你的所有核心要求,可以直接发布。发布时建议标题:通用AI视频技能评判平台开发(基于开源多模态大模型)。
已有9人报名
*************
*************
浏览 1066
点赞
2评论
1收藏
1分享

手机扫一扫分享

分享
举报
评论
图片
表情
全部评论
Dcc4天前
8年算法经验,阿里腾讯算法专家,有匹配的落地项目和多个国家专利。
点赞回复
技术狂4天前
和我现在做的比较契合,感兴趣加****:****查看联系方式
点赞回复
推荐
点赞
2评论
1收藏
1分享

手机扫一扫分享

分享
举报