炸裂!最新CVPR2024、ICLR2024、AAAI2024、ICML、ACL2024论文+Code大合集!
我花了3个月的时间整理了包括CVPR 2023/2024、ECCV 2023、ICML 2023、ICLR 2024/2023、NeurIPS 2023、ACL 2024、EMNLP 2023、AAAI 2024/2023、WWW 2023/2024等顶会在内的超过20000篇人工智能优质论文,今天
GiantPandaCV
0
在GPU上加速RWKV6模型的Linear Attention计算
精简版:经过一些profile发现flash-linear-attention中的rwkv6 linear attention算子的表现比RWKV-CUDA中的实现性能还要更好,然后也看到了继续优化triton版本kernel的线索。接着还分析了一下rwkv6 cuda kernel的几次开发迭代以
GiantPandaCV
0
性能提升,星辰AI大模型TeleChat-12B评测
0x0. 前言2月份的时候评测过TeleChat-7B大模型,见星辰AI大模型TeleChat-7B评测。最近中电信 AI 科技有限公司针对TeleChat-7B进行了性能升级,并开源了一个更大的模型TeleChat-12B,受邀对这个大模型进行新的评测。本文主要关注TeleChat-7B在做一些文
GiantPandaCV
0
FasterTransformer Decoding 源码分析(三)-LayerNorm介绍
作者丨进击的Killua来源丨https://zhuanlan.zhihu.com/p/669440844编辑丨GiantPandaCV本文是FasterTransformer Decoding 源码分析的第三篇,主要介绍FasterTransformer中LayerNorm是如何实现及优化的。首先
GiantPandaCV
0
Tensor Cores 使用介绍
作者丨进击的Killua来源丨https://zhuanlan.zhihu.com/p/671312675编辑丨GiantPandaCV概要介绍TensorCore 是从Nvidia Volta 架构GPU开始支持的重要特性,使CUDA开发者能够使用混合精度来获得更高的吞吐量,而不牺牲精度。Tens
GiantPandaCV
4
推理部署工程师面试题库
作者丨进击的Killua来源丨https://zhuanlan.zhihu.com/p/673046520编辑丨GiantPandaCV最近团队在招人,记录一些常用的面试问题,持续更新中。1. 描述一下SM的结构?(INT32/FP32/FP64)CUDA core,Tensor Core,LD/S
GiantPandaCV
32
CVPR2024-扩散模型可解释性新探索,图像生成一致性创新高!AI视频生成新机遇?
CVPR2024-扩散模型可解释性新探索,图像生成一致性创新高!AI视频生成新机遇?1. 本文概要在本研究中,作者指出了对图像生成扩散模型的可重复性或一致性进行定量评分的重要性。本文提出了一种基于成对平均CLIP(对比语言-图像预训练)分数的语义一致性评分方法。通过将此度量应用于比较两种领先的开源图
GiantPandaCV
1
最新大模型论文研究论文合集,包含谷歌/苹果/亚马逊/港大、阿里最新研究报告!
清华团队推出 MiniCPM:利用可扩展的训练策略挖掘小模型潜力;苹果MM1大模型:30B参数,多模态,在预训练指标上达到SOTA;亚马逊提出大规模视频语言对齐方法VidLA;英伟达参与,高效视频扩散模型CMD发布;谷歌、Stability AI新研究:由文本引导生成纹理3D服装;港大、阿里新研究:
GiantPandaCV
0
系统调优助手,PyTorch Profiler TensorBoard 插件教程
0x1. 前言使用PyTorch Profiler进行性能分析已经一段时间了,毕竟是PyTorch提供的原生profile工具,个人感觉做系统性能分析时感觉比Nsys更方便一些,并且画的图也比较直观。这里翻译一下PyTorch Profiler TensorBoard Plugin的教程并分享一些使
GiantPandaCV
6
聊聊字节 AML 万卡工作 MegaScale: Scaling Large Language Model Tr...
作者丨无恶不作 来源丨https://zhuanlan.zhihu.com/p/684619370 编辑丨GiantPandaCV 1. 摘要 字节介绍了用于训练大规模语言模型(LLM)的生产系统 MegaScale。在这个系统上高效稳定的在万卡级别进行千亿级别模型训练...
GiantPandaCV
0
《PytorchConference2023 翻译系列》16.PyTorch 边缘部署之编译器和...
我们推出了一个新的系列,对PytorchConference2023 的博客进行中文编译,会陆续在公众号发表。也可以访问下面的地址 https://www.aispacewalk.cn/docs/ai/framework/pytorch/PytorchConference2023/PyTorch%20%E8%BE...
GiantPandaCV
0
万字详解书生·浦语2.0!综合性能领先开源社区,支持免费商用!
总览 自2023年7月6日,书生·浦语(InternLM)在世界人工智能大会上正式开源以来,在社区和业界形成越来越大的影响。在过去半年,大模型技术体系也在快速演进,100K级别的长上下文、代码解释、智能体等新技术不断迭代...
GiantPandaCV
0
ICCV2023论文精选!从微分方程角度理解self-attention机制的底层逻...
论文题目:Understanding Self-attention Mechanism via Dy
GiantPandaCV
0