AI人工智能初学者

2获赞0关注1粉丝

喜欢

清华提出 OneDet3D，基于点云的3D目标检测多域联合训练，强大的通用能力展现，模型几乎覆盖所有三维目标检测任务！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

浙大/南京信息科技/上海AILab/伦敦帝国/暨南大学联合提出 HYPERDET: 通用生成图像检测框架，性能 SOTA ！

文章来源于未来先知，作者小先知近年来，各种生成式视觉模型的发展使得合成视觉上逼真的图像成为可能，这也突显了从实际照片中有效检测这些生成图像的迫切需求。尽管在这个领域取得了进步，但现有的检测方法往往难以准确识别由不同生成模型合成的图像。在本文中，作者提出了一种新颖且通用的检测框架HyperDet，它创

AI人工智能初学者

从CNN 到 ConVRNN: 时间序列异常检测的可视化技术！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

轻量级神经网络模型，嵌入式微小设备也能实时检测！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

TrackMe:一种简单有效的多目标跟踪标注工具！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

上海人工智能实验室（上海AI实验室）致力于通过“通专融合”路径探索开放、可控、可信的通用人工智能（AGI），其关键技术之一在于同步提升深度推理与专业泛化能力。2024年11月25日，上海AI实验室展示了自主生成高智力密度数据、具备元动作思考能力的“模型”等一系列创新进展，并开放强推理模型书生Inte

AI人工智能初学者

OrientedFormer: 基于 Transformer的定向目标检测新框架！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

DFMSD：面向目标检测的双特征Mask异质蒸馏框架！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

60个最新开源Transformer压缩方法，让你的模型更高效！

大家在实际部署Transformer时，都需要压缩模型来减少内存和计算成本。而Transformer模型结合了注意力和前馈网络，往往需要特定压缩技术来提升性能。本文总结了不同情况下的60种Transformer模型压缩方法与开源代码。分为量化、剪枝、知识蒸馏三大类。这60种都是近3年内非常新颖的创新

AI人工智能初学者

南开大学提出 ADFQ-ViT，解决 ViT 在低比特量化时显著准确性损失的问题！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架，解决切片的高分辨率LVLM引起的输入碎片化问题！

备注好友：方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群高分辨率输入使大型视觉-语言模型（LVLMs）能够辨别更精细的视觉细节，增强了它们的理解能力。为了减少由高分辨率输入引起的训练和计算成本，一个有前景的方向是使用滑动窗口将输入切成均匀的块，每个块与训练有素的视觉编码器的输入大小相匹配。

AI人工智能初学者

从理论到实践，ViT-1.58b 在复杂 Transformer 架构中的应用！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

自动多步蒸馏（AMD） | 突破大规模视觉模型压缩的效能界限！

备注好友：方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群基于 Transformer 的架构因其卓越的性能已成为各种视觉任务的默认标准模型。随着模型规模的不断扩大，模型蒸馏在各种实际应用中变得尤为重要，尤其是在计算资源受限的设备上。然而，当前流行的知识蒸馏方法在遇到教师模型和学生模型之间的

AI人工智能初学者

突破预训练与存储瓶颈：利用视觉语言模型提升无监督领域自适应！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

破解LLM长上下文瓶颈：MoA混合注意力技术提升3.9倍上下文长度，性能飙升7倍！

Abstract稀疏注意力能有效缓解大型语言模型（LLM）在长上下文中的显著内存和吞吐量需求。现有方法通常采用统一的稀疏注意力 Mask ，在不同注意力头和输入长度上应用相同的稀疏模式。然而，这种统一的方法未能捕捉到LLM中固有的多样化注意力模式，忽略了它们在准确性和延迟之间的不同权衡。为了应对这一

AI人工智能初学者

南京理工将 CNN 与 Transformer 结合，在变化检测准确度上显著提升，超越现有技术水平！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群想要了解更多：前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」行业技术方案👉「AI安防、AI医疗、AI自动驾驶」AI模型部署落地实战👉「CUDA、TensorRT、N

AI人工智能初学者

南洋理工 & 新加坡大学提出 DM3D | 3D点云剪枝策略，在多个检测模型上实现精度与计算效率双赢！

ADAS Laboratory点击上方蓝字关注智驾实验室加入【智驾实验室】交流群，获取更多内容和资料将深度神经网络应用于三维点云处理，因其在增强现实/虚拟现实、自动驾驶和机器人技术等多个领域的卓越性能而越来越受

AI人工智能初学者

文档228 基于 CO-DETR 的光照感知 Transformer架构 | 即使在极低光照条件下也能准确检测目标！

AI人工智能初学者

文档49 如何使用未标注数据对LLMs进行微调

AI人工智能初学者

文档90 RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层！

AI人工智能初学者

文档85 既要又要｜SemanticFormer时空关系和空间关系都不放过，性能超越一众SOTA

AI人工智能初学者

文档121 上海大学提出Retinex-Mamba | 低光照下细节保持依旧完美，超越ViT家族！

AI人工智能初学者

文档97 Trio-ViT | 专门针对高效 ViTs 的卷积 Transformer混合架构的加速器！

AI人工智能初学者

文档56 FipTR | 自动驾驶中基于 BEV 的流感知预测器模块，优雅且完全端到端框架！

AI人工智能初学者

文档152 超越 ReLU 和 Sigmoid | 新型激活函数锥形和抛物锥形的研究，训练速度再上一层！

AI人工智能初学者

文档80 清华 & 华为开源U-DiTS | 利用 U-Net 架构提升扩散 Transformer 的性能和效率！

AI人工智能初学者

YOLO & GhostNet | 实现了准确定位和分类，同时实现在复杂环境中的模型准确性和性能！

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群安全头盔在建筑工地等潜在危险普遍存在的环境中对保护工人 Head 受伤起着至关重要的作用。然而，目前尚无方法能同时实现在复杂环境中的模型准确性和性能。在本研究中，作者利用基于YOLO的模型进行安全头盔检测，在减少参数和浮点运算数量超过2

AI人工智能初学者

文档48 上交大提出 ZO-DARTS | 提高图像分类效率，性能SOTA的同时，搜索时间减少3倍！

AI人工智能初学者

文档92 MMA-UNet | 一种多模态非对称融合网络，提高红外与可见图像融合性能！

AI人工智能初学者