Skip to content

Conversation

@PPPoint-t
Copy link

@PPPoint-t PPPoint-t commented Jan 12, 2026

描述

Infinicore 赛题 T1-1-4 : 算子 sum, topk, var, var_mean, all
GPU 使用 ninetoothed 实现,ntops 仓库pr地址

记录

  1. topkntl.sort 不支持同时返回索引,暂用迭代选择法实现
  2. varvar_mean 若使用 welford 方法效果应该更好,暂用 two-pass 来实现
  3. 摩尔线程 all 算子的 GPU 实现中,若 out 是不连续输出的使用 copy_ 时会有问题,copy 后仍无法对齐,不连续输出的测例无法通过

测试截图

算子 CPU NVIDIA 摩尔线程
sum cpu-sum nvidia-sum 摩尔-sum
topk cpu-topk nvidia-topk 摩尔-topk
var cpu-var nvidia-var 摩尔-var
var_mean cpu-var_mean nvidia-var_mean 摩尔-var_mean
all cpu-all nvidia-all 摩尔-all

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant