我一直在阅读GPU线程是轻量级的,你可以在它们上面抛出很多任务来并行完成......但它们的重量是多少呢?

假设我有一个百万成员的float3数组,我想计算每个float3值的长度 .

将基本上100万个任务发送到GPU是否有意义(因此内核计算全局数组的单个float3长度并返回)?或者更像1000个任务的东西,每个内核执行循环通过1000个数组成员?如果对这样的任务进行分组有好处,有没有办法计算每个分组的最佳大小?