^-^
人工智能、计算机、机器学习、linux、程序员
SEGMM的CUDA Core实现
最近更新:2021-06-04   |   字数总计:6.7k   |   阅读估时:25分钟   |   阅读量:
  1. 定义
    1. 计算示例
  2. 计算结构
    1. 朴素算法
    2. 分块算法
    3. 算法与硬件性能
  3. MaxAs中的SGEMM实现
    1. 关键结构与参数
      1. 双缓冲
      2. 展开因子
      3. 共享内存大小
    2. 256线程算法实现
      1. 加载A、B到共享内存
      2. 从共享内存加载数据到寄存器
      3. 计算C子矩阵: 寄存器组与重用
      4. 线程数据交换与写回