成品优先-轻识

一、项目背景与目标

作为版权方，我方目前持有大量图书、图片（照片及手绘图）及餐饮类商标的版权/所有权。由于侵权成本低、传播渠道广，人工巡查已无法满足维权需求。

项目目标：开发一套自动化的全网侵权监测系统，通过爬虫技术、AI比对算法，实现对全网多平台侵权行为的自动发现、智能比对、线索管理，大幅降低人工排查成本，提高维权效率。

二、核心监测对象与业务逻辑

1. 图书版权监测（普通图书）

盗版图书的各平台售卖

侵权特征：盗版电子书上传、原文长图/文字抄袭、有声书盗播、网盘资源分享。

监测逻辑：

提取图书核心文本（如连续3-5个段落/特征章节）作为指纹。

全网比对文本相似度，识别洗稿、搬运行为。

监控各大网盘搜索站、电子书分享论坛、知识付费平台。

2. 图片版权监测（照片与手绘图）

侵权特征：未经授权用于文章配图、电商商品图、社交媒体搬运、二次创作（加滤镜/裁剪/去水印）、手绘图临摹/微调。

监测逻辑：

照片：采用感知哈希及特征向量比对，容忍裁剪、缩放、压缩、调色等变形。

手绘图：引入AI图像识别（线稿提取、轮廓比对），识别临摹、微调改图等高阶侵权。

3. 商标侵权监测（餐饮方向）

侵权特征：餐饮门店违规使用相同/近似Logo、近似品牌名（如“康师傅”与“康帅傅”）、山寨门店门头、外卖平台仿冒店铺。

监测逻辑：

图文双维比对：既有商标图形的图像比对，又有商标文字的OCR提取与文本比对。

行业聚焦：重点监控本地生活平台（美团、饿了么、大众点评）、短视频平台（抖音、快手探店视频）、餐饮加盟网站。

三、核心功能模块需求

模块一：版权资产管理库（我方素材录入）

资产上传：支持批量上传图书（PDF/TXT/EPUB）、图片（JPG/PNG/PSD）、商标（图片+文字+注册号）。

指纹提取：系统自动对上传资产生成唯一比对指纹（文本指纹、图像特征向量）。

分类标签：支持按资产类型（图书/图片/商标）、状态（监测中/已下架）进行分类管理。

模块二：全网智能监测引擎（核心）

定向平台监测：

*图文平台：* 微信公众号、小红书、微博、知乎、头条号、百家号等。

*视频/短视频：* 抖音、快手、B站（提取视频封面、字幕及AI语音转文字比对）。

*电商/生活：* 淘宝、拼多多、美团、饿了么、大众点评。

*资源站：* 网盘搜索引擎、各类文档分享站（百度文库、豆丁等）。

7x24小时爬虫调度：支持自定义监测频率（如：重点资产每小时巡检，普通资产每日巡检）。

关键词与特征双驱动：支持设定品牌词、书名、作者名等关键词初筛，再结合指纹算法精准比对。

模块三：AI智能比对与侵权判定

相似度阈值自定义：允许设置侵权判定阈值（如图像相似度>80%报警，文本重合度>60%报警）。

变形抗性识别：

图片：抗裁剪、抗翻转、抗滤镜、抗去水印。

商标：抗变形、抗换色、OCR错别字识别（识别近似字替换）。

图书：抗段落重排、同义词替换（需引入NLP语义比对）。

白名单过滤：支持录入我方授权渠道/白名单URL，避免误报。

模块四：侵权线索与取证管理

侵权线索大屏：展示疑似侵权链接、相似度得分、截图预览、发布时间、平台来源。

一键固证（区块链存证）：对侵权页面进行自动截图、录屏、提取源代码，并对接公证处/区块链存证平台（如蚂蚁链、至信链）生成具有法律效力的电子凭证。

维权动作流转：线索状态可标记为“待确认”、“已存证”、“发函中”、“已删除”。

四、技术实现要求

爬虫架构：采用分布式爬虫框架（如 Scrapy + Redis），需具备极强的反反爬能力（代理IP池调度、UA轮换、验证码打码平台对接、登录态管理）。

图像比对算法：

基础：pHash / dHash 等感知哈希。

进阶：基于深度学习的特征提取（如 ResNet / ViT 提取特征向量），使用向量数据库（如 Milvus / FAISS）实现亿级图片毫秒级检索。

文本比对算法：

采用 SimHash / MinHash 进行海量文本去重。

采用 NLP 技术（如 BERT 模型）计算语义相似度，防范“洗稿”式侵权。

OCR技术：接入高精度商用OCR接口，用于识别视频内文字、图片内文字、门头招牌，辅助商标侵权判定。

五、非功能性需求

准确性要求：图像/商标检索召回率需达到 95% 以上，文本检索准确率 90% 以上，误报率控制在 10% 以内。

性能要求：单日处理全网数据量不低于 1000 万条，新增资产入库后 2 小时内完成全网首轮比对。

安全性：我方版权资产库需加密存储，防止数据泄露；系统需支持多角色权限管理（管理员、法务、运营）。

合规性：爬虫抓取需遵守Robots协议及数据安全法，取证过程需符合电子证据保全规范。

六、项目交付物

全网版权监测系统 Web 端（含后台管理）。

侵权线索预警通知服务（邮件/企业微信/钉钉机器人预警）。

核心算法源代码及系统部署文档。

算法效果测试报告（基于我方提供的测试集）。

💡 给您的额外建议（开发前必看）：

优先级切分：这个系统如果一次性做全，建议分期开发：

*一期：* 优先做“图片”和“商标”的监测，因为图像比对算法相对成熟，且餐饮商标侵权牟利最快，见效最快。平台聚焦电商和外卖平台。

*二期：* 再攻克“图书”的语义级洗稿比对和网盘深网抓取，这个技术难度最大。

平台授权问题：很多平台（如微信、小红书）反爬极其严格，正规做法是申请平台开放API，但通常审核严格；如果走爬虫路线，需让技术团队评估代理IP池的持续采购成本，这会是一笔不小的运营开支。

API集成：商标比对其实可以接入国家知识产权局的商标查询接口，或者第三方商标大数据API，比自己从零训练模型性价比高很多。