已结束已结束开发一套AI辅助学习终端,预算一万
项目目标:开发一套AI辅助学习终端,ESP32-P4采集课本图像,经中转层调用OCR与大模型解析,最终在本地实现解析结果的屏幕显示与语音播报。
关键接口约定(双方必须遵循的通信标准):
1. 通信协议:统一使用 HTTP/HTTPS 进行请求交互
2. 图像上传格式:ESP32-P4 以 JPEG 格式上传图像,请求中附带设备ID与请求ID
3. 结果回传格式:中转层以固定JSON格式返回结果,如:{"code":200, "content":"解析内容", "error":""}
4. 基础错误约定:超时时间30秒,失败重试2次,错误码定义:200=成功/400=参数错误/500=服务错误
| 序号 | 阶段名称 | 执行主体 | 核心动作描述 |
|------|------------------------|----------------|------------------------------------------------------------------------------|
| 1 | 本地图像采集 | ESP32-P4 | 驱动外接摄像头,对准课本完成画面拍摄、图像采集与初步预处理(含JPEG压缩)。 |
| 2 | 图像 & 数据上传 | ESP32-P4 | 将采集后的图像数据,通过WiFi网络上传至中转层服务。 |
| 3 | 中转层分发请求 | 中转层服务 | 接收图像数据,调用OCR接口提取文本,转发至豆包大模型。 |
| 4 | AI 内容解析 | 豆包大模型 | 接收文本,生成答疑、解析、知识点梳理等讲解内容。 |
| 5 | 结果回传至中转层 | 豆包大模型 | 将生成的讲解内容返回给中转层服务。 |
| 6 | 中转层二次转发 | 中转层服务 | 对内容做格式适配,将最终数据回传给ESP32-P4。 |
| 7 | 本地终端输出呈现 | ESP32-P4 | 接收数据后,驱动显示模块展示解析内容,同时驱动语音模块同步播报讲解。 |
| 角色 | 负责范围 | 核心交付物 |
|-------------------|----------------|----------------------------------------------------------------------------|
| ESP32-P4 工程师 | 硬件端全流程 | 1. 摄像头驱动、图像采集与预处理(含JPEG压缩)
2. WiFi通信模块,对接中转层API(遵循HTTP协议)
3. 显示模块驱动,文本/图片渲染
4. 语音播报模块驱动,TTS播放 |
| 中转层工程师 | 服务端全流程 | 1. 接收图像数据的HTTP接口
2. OCR文本提取功能
3. 对接豆包大模型API
4. 结果格式适配与回传接口(遵循约定JSON格式) |
联调说明:两位工程师自行约定通信协议细节、数据格式与调试方式,完成跨端联调。我方仅验证最终端到端流程是否通跑。
关键接口约定(双方必须遵循的通信标准):
1. 通信协议:统一使用 HTTP/HTTPS 进行请求交互
2. 图像上传格式:ESP32-P4 以 JPEG 格式上传图像,请求中附带设备ID与请求ID
3. 结果回传格式:中转层以固定JSON格式返回结果,如:{"code":200, "content":"解析内容", "error":""}
4. 基础错误约定:超时时间30秒,失败重试2次,错误码定义:200=成功/400=参数错误/500=服务错误
| 序号 | 阶段名称 | 执行主体 | 核心动作描述 |
|------|------------------------|----------------|------------------------------------------------------------------------------|
| 1 | 本地图像采集 | ESP32-P4 | 驱动外接摄像头,对准课本完成画面拍摄、图像采集与初步预处理(含JPEG压缩)。 |
| 2 | 图像 & 数据上传 | ESP32-P4 | 将采集后的图像数据,通过WiFi网络上传至中转层服务。 |
| 3 | 中转层分发请求 | 中转层服务 | 接收图像数据,调用OCR接口提取文本,转发至豆包大模型。 |
| 4 | AI 内容解析 | 豆包大模型 | 接收文本,生成答疑、解析、知识点梳理等讲解内容。 |
| 5 | 结果回传至中转层 | 豆包大模型 | 将生成的讲解内容返回给中转层服务。 |
| 6 | 中转层二次转发 | 中转层服务 | 对内容做格式适配,将最终数据回传给ESP32-P4。 |
| 7 | 本地终端输出呈现 | ESP32-P4 | 接收数据后,驱动显示模块展示解析内容,同时驱动语音模块同步播报讲解。 |
| 角色 | 负责范围 | 核心交付物 |
|-------------------|----------------|----------------------------------------------------------------------------|
| ESP32-P4 工程师 | 硬件端全流程 | 1. 摄像头驱动、图像采集与预处理(含JPEG压缩)
2. WiFi通信模块,对接中转层API(遵循HTTP协议)
3. 显示模块驱动,文本/图片渲染
4. 语音播报模块驱动,TTS播放 |
| 中转层工程师 | 服务端全流程 | 1. 接收图像数据的HTTP接口
2. OCR文本提取功能
3. 对接豆包大模型API
4. 结果格式适配与回传接口(遵循约定JSON格式) |
联调说明:两位工程师自行约定通信协议细节、数据格式与调试方式,完成跨端联调。我方仅验证最终端到端流程是否通跑。
*************
*************
评论
