项目背景】我们需要开发一套企业级音频数据处理流水线 (Pipeline),用于大规模非结构化数据的清洗与分析。 本项目不
2026-01-19 11:22
项目背景】我们需要开发一套企业级音频数据处理流水线 (Pipeline),用于大规模非结构化数据的清洗与分析。 本项目不涉及前端开发(使用 NocoDB)和 App 开发,工作重心全在 Docker 容器内的后端逻辑。核心挑战】在面对日均 10w+ 级长音频数据洪峰时,设计一套高吞吐、低延迟的流式处理架构。重点考察系统的水平扩展能力与故障自愈能力,确保 7x24 小时稳定运行。【硬性技术要求】Python (FastAPI): 精通异步编程 (Async/Await),代码规范严谨。Temporal.io:[核心门槛] 必须有 Temporal 或 Cadence 分布式任务编排的实际落地经验。我们需要利用它实现指数重试、令牌桶限流 (Rate Limiting) 和死信队列。LLM 多模态集成:熟悉 OpenAI/Google Gemini API,有处理 Audio Streaming (音频流上传) 的经验,具备处理大文件的最佳实践能力。**DevOps:能编写生产级的 docker-compose.yml,一键部署 Postgres, PgBouncer, Temporal, NocoDB 等全套服务。【工作内容】接入层:接收对象存储(OSS)的 Webhook 回调,极速响应。调度层:配置 Temporal Workflow,精准控制并发节奏。执行层:编写 Worker,建立 OSS -> Memory Buffer -> Gemini 的流式管道。可视化:部署 NocoDB 并自动对接数据库,实现数据展示。
*************
*************
评论
全部评论
金伟2026-01-19 12:08
