对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
什么样的人算是中了基因***?
哪些让你用了觉得相见恨晚的键盘?
粤S在广东是怎么样的存在?粤牌有鄙视链吗?
这种裙子是不是对直男爆杀?
有一双超级大长腿是什么感觉?
成为体育女主播,光「好看」就够了吗?
什么是你去了台湾才知道的事?
为什么美军“好像”不怕泄密?
音乐作曲编曲能否任何乐器都不会弹直接学软件编辑?
每次去国外,别人一眼就看出我是中国人,是中国人身上有什么特质吗?
***如一个高水平程序员故意留了一个只有他自己知道的漏洞,那么这种行为违法吗?
成飞西飞沈飞哪个实力好?
如何评价“寡姐”斯嘉丽·约翰逊的身材?
挂面怎么会那么难吃?
为什么腾讯地图不如百度地图成功?
docker有哪些有趣的用途?