wip: moved gir to public header · logdahl.net/kestrel@585f67d

logdahl.net / kestrel

fork

Configure Feed

Issues Pull Requests Commits Tags

Feed URL

Select the types of activity you want to include in your feed.

A Modern GPGPU API & wip linux RDNA2+ Driver

rdna driver linux gpu

fork

Configure Feed

Issues Pull Requests Commits Tags

Feed URL

Select the types of activity you want to include in your feed.

wip: moved gir to public header

This WILL be removed in the future. However, we need a way
to write shaders. Right now, only using the IR.

Olle Lögdahl 4 months ago 585f67d4 7f560168

+487 -411

16 changed files

expand all collapse all

drivers

CMakeLists.txt

amdgpu

cmds.cpp

compiler

compiler.cpp

compiler.h

impl.h

interface.cpp

shader.h

common

gir

gir.h

gir_builder.cpp

gir_dump.cpp

gir_normalize.cpp

kestrel

include

kestrel

gir.h

interface.h

kestrel.h

api.cpp

test

examples

07_hello_dispatch

hello_dispatch.cpp

drivers/CMakeLists.txt

reviewed

··· 3 3 ) 4 4 add_library(kes_driver_common STATIC ${COMMON_DRIVER_SOURCES}) 5 5 target_include_directories(kes_driver_common PUBLIC 6 6 + ${PROJECT_SOURCE_DIR}/kestrel/include 6 7 common 7 8 ) 8 9

+60 -87

drivers/amdgpu/cmds.cpp

reviewed

··· 1 1 - #include "gir/gir.h" 1 1 + #include "kestrel/gir.h" 2 2 #include "compiler/compiler.h" 3 3 #include "cp_encoder.h" 4 4 #include "gpuinfo.h" ··· 258 258 uint64_t data_va; 259 259 }; 260 260 261 261 - struct ShaderRegs { 262 262 - uint32_t pgm_lo; 263 263 - uint32_t pgm_hi; 264 264 - uint32_t pgm_rsrc1; 265 265 - uint32_t pgm_rsrc2; 266 266 - uint32_t pgm_rsrc3; 261 261 + // @todo: should this really be part of a shader or the device? 262 262 + // i think device. 263 263 + void precompute_regs(ShaderInfo &info) { 264 264 + auto &regs = info.regs; 267 265 268 268 - uint32_t userdata_0; 269 269 - }; 266 266 + // @todo: setup that compute_resource_limits thingy. 270 267 271 271 - enum class HwStage { 272 272 - Compute 273 273 - }; 268 268 + switch(info.hw_stage) { 269 269 + case HwStage::Compute: 270 270 + regs.pgm_lo = R_00B830_COMPUTE_PGM_LO; 271 271 + regs.pgm_hi = R_00B834_COMPUTE_PGM_HI; 272 272 + regs.pgm_rsrc1 = R_00B848_COMPUTE_PGM_RSRC1; 273 273 + regs.pgm_rsrc2 = R_00B84C_COMPUTE_PGM_RSRC2; 274 274 + regs.pgm_rsrc3 = R_00B8A0_COMPUTE_PGM_RSRC3; 275 275 + regs.userdata_0 = R_00B900_COMPUTE_USER_DATA_0; 276 276 + break; 277 277 + } 278 278 + } 274 279 275 275 - struct ShaderInfo { 276 276 - uint32_t block_size[3]; 277 277 - HwStage hw_stage; 278 278 - ShaderRegs regs; 280 280 + KesShader amdgpu_create_shader(KesDevice pd, void *modptr) { 281 281 + auto *dev = reinterpret_cast<DeviceImpl *>(pd); 282 282 + gir::Module *module = reinterpret_cast<gir::Module *>(modptr); 279 283 280 280 - bool ordered; 281 281 - uint32_t wave_size; 282 282 - }; 284 284 + assert(dev, "amdgpu_create_shader: device handle invalid: {}", (void *)dev); 285 285 + assert(module, "amdgpu_create_shader: module handle invalid: {}", (void *)module); 283 286 284 284 - struct ShaderConfig { 285 285 - uint32_t pgm_rsrc1; 286 286 - uint32_t pgm_rsrc2; 287 287 - uint32_t pgm_rsrc3; 288 288 - uint32_t compute_resource_limits; 289 289 - 290 290 - uint32_t user_sgpr_count; 291 291 - }; 292 292 - 293 293 - struct Shader { 294 294 - ShaderInfo info; 295 295 - ShaderConfig config; 296 296 - uint64_t va; 297 297 - }; 298 298 - 299 299 - void init_compute_shader_config(DeviceImpl *dev, Shader &shader) { 287 287 + auto shader = new Shader; 300 288 301 289 // @todo: ultra temporary. 302 290 auto alloc = amdgpu_malloc(dev, 1024, 256, KesMemoryDefault); 303 303 - 304 304 - { 305 305 - gir::Module mod; 306 306 - gir::Builder gb(mod); 307 307 - auto rp = gb.get_root_ptr(); 308 308 - auto p = gb.add(rp, gb.mul(gb.get_local_invocation_id(), gb.i32(4))); 309 309 - auto x = gb.load(p); 310 310 - auto sum = gb.add(x, gb.i32(15)); 311 311 - gb.store(p, sum); 312 312 - 313 313 - rdna2_compile(mod, alloc.cpu, alloc.gpu); 314 314 - } 291 291 + rdna2_compile(*module, alloc.cpu, alloc.gpu); 292 292 + shader->allocation = alloc; 315 293 316 294 log("shader code: {} {}", (void *)alloc.cpu, (void *)alloc.gpu); 317 295 318 318 - // @todo: temporary 319 296 auto ordered = false; 320 297 auto wave_size = 32; 321 298 auto waves_per_threadgroup = 1; ··· 335 312 336 313 auto num_shared_vgpr_blocks = num_shared_vgprs / 8; 337 314 338 338 - shader.config.user_sgpr_count = num_user_sgprs; 339 339 - shader.info.ordered = ordered; 340 340 - shader.info.wave_size = wave_size; 341 341 - shader.info.block_size[0] = 32; 342 342 - shader.info.block_size[1] = 1; 343 343 - shader.info.block_size[2] = 1; 344 344 - shader.va = alloc.gpu; 345 345 - shader.info.hw_stage = HwStage::Compute; 315 315 + shader->config.user_sgpr_count = num_user_sgprs; 316 316 + shader->info.ordered = ordered; 317 317 + shader->info.wave_size = wave_size; 318 318 + shader->info.block_size[0] = 32; 319 319 + shader->info.block_size[1] = 1; 320 320 + shader->info.block_size[2] = 1; 321 321 + shader->va = alloc.gpu; 322 322 + shader->info.hw_stage = HwStage::Compute; 346 323 347 324 // use large limits. 348 348 - shader.config.compute_resource_limits = 325 325 + shader->config.compute_resource_limits = 349 326 S_00B854_SIMD_DEST_CNTL(waves_per_threadgroup % 4 == 0) 350 327 | S_00B854_WAVES_PER_SH(max_waves_per_sh) 351 328 | S_00B854_CU_GROUP_COUNT(threadgroups_per_cu - 1); 352 329 353 353 - shader.config.pgm_rsrc1 = 330 330 + shader->config.pgm_rsrc1 = 354 331 S_00B848_VGPRS((num_vgprs - 1) / (wave_size == 32 ? 8 : 4)) 355 332 | S_00B848_DX10_CLAMP(dx10_clamp) 356 333 | S_00B128_MEM_ORDERED(true); //always true for gfx10.3 357 334 358 358 - shader.config.pgm_rsrc2 = 359 359 - S_00B84C_USER_SGPR(shader.config.user_sgpr_count) 360 360 - | S_00B22C_USER_SGPR_MSB_GFX10(shader.config.user_sgpr_count >> 5) 335 335 + shader->config.pgm_rsrc2 = 336 336 + S_00B84C_USER_SGPR(shader->config.user_sgpr_count) 337 337 + | S_00B22C_USER_SGPR_MSB_GFX10(shader->config.user_sgpr_count >> 5) 361 338 | S_00B12C_SCRATCH_EN(scratch_enabled) 362 339 | S_00B12C_TRAP_PRESENT(trap_present) 363 340 | S_00B84C_TGID_X_EN(1) 364 341 | S_00B84C_TGID_Y_EN(1) 365 342 | S_00B84C_TGID_Z_EN(1); 366 343 367 367 - shader.config.pgm_rsrc3 = 344 344 + shader->config.pgm_rsrc3 = 368 345 S_00B8A0_SHARED_VGPR_CNT(num_shared_vgpr_blocks); 369 369 - } 370 346 371 371 - void precompute_regs(ShaderInfo &info) { 372 372 - auto &regs = info.regs; 373 373 - 374 374 - // @todo: setup that compute_resource_limits thingy. 347 347 + precompute_regs(shader->info); 375 348 376 376 - switch(info.hw_stage) { 377 377 - case HwStage::Compute: 378 378 - regs.pgm_lo = R_00B830_COMPUTE_PGM_LO; 379 379 - regs.pgm_hi = R_00B834_COMPUTE_PGM_HI; 380 380 - regs.pgm_rsrc1 = R_00B848_COMPUTE_PGM_RSRC1; 381 381 - regs.pgm_rsrc2 = R_00B84C_COMPUTE_PGM_RSRC2; 382 382 - regs.pgm_rsrc3 = R_00B8A0_COMPUTE_PGM_RSRC3; 383 383 - regs.userdata_0 = R_00B900_COMPUTE_USER_DATA_0; 384 384 - break; 385 385 - } 349 349 + return reinterpret_cast<KesShader>(shader); 386 350 } 387 351 388 352 void emit_compute_shader(Shader &shader, Pm4Encoder &enc) { ··· 401 365 enc.emit(shader.info.block_size[2] & 0xFFFF); 402 366 } 403 367 368 368 + void amdgpu_bind_shader(KesCommandList pcl, KesShader pshader) { 369 369 + auto *cl = reinterpret_cast<CommandListImpl *>(pcl); 370 370 + auto *shader = reinterpret_cast<Shader *>(pshader); 371 371 + assert(cl, "amdgpu_bind_shader: command list handle invalid: {}", (void *)pcl); 372 372 + assert(shader, "amdgpu_bind_shader: shader handle invalid: {}", (void *)shader); 373 373 + 374 374 + cl->state.shader = shader; 375 375 + 376 376 + // @todo: setup registers here. 377 377 + auto hw_ip_type = hw_ip_type_from_queue_type(cl->queue->type); 378 378 + Pm4Encoder enc(cl->queue->dev->info, hw_ip_type, cl->cs); 379 379 + 380 380 + emit_compute_shader(*shader, enc); 381 381 + } 382 382 + 404 383 void amdgpu_emit_dispatch_packets(GpuInfo &ginfo, Pm4Encoder &enc, Shader &shader, DispatchInfo &dinfo) { 405 384 406 385 // @todo: get this from device settings ··· 417 396 if (shader.info.wave_size == 32) { 418 397 dispatch_initiator |= S_00B800_CS_W32_EN(1); 419 398 } 420 420 - 421 421 - emit_compute_shader(shader, enc); 422 399 423 400 uint32_t regs[2]; 424 401 regs[0] = dinfo.data_va; ··· 451 428 auto *cl = reinterpret_cast<CommandListImpl *>(pcl); 452 429 assert(cl, "dispatch: command list handle invalid: {}", (void *)pcl); 453 430 454 454 - auto hw_ip_type = hw_ip_type_from_queue_type(cl->queue->type); 455 455 - Pm4Encoder enc(cl->queue->dev->info, hw_ip_type, cl->cs); 431 431 + auto dev = cl->queue->dev; 456 432 457 457 - Shader tmp{}; 458 433 DispatchInfo dinfo{ 459 434 .x = x, 460 435 .y = y, ··· 463 438 .data_va = data, 464 439 }; 465 440 466 466 - // @todo: do this earlier. 467 467 - init_compute_shader_config(cl->queue->dev, tmp); 468 468 - precompute_regs(tmp.info); 469 469 - 470 470 - amdgpu_emit_dispatch_packets(cl->queue->dev->info, enc, tmp, dinfo); 441 441 + auto hw_ip_type = hw_ip_type_from_queue_type(cl->queue->type); 442 442 + Pm4Encoder enc(dev->info, hw_ip_type, cl->cs); 443 443 + amdgpu_emit_dispatch_packets(cl->queue->dev->info, enc, *cl->state.shader, dinfo); 471 444 } 472 445 473 446 void amdgpu_cmd_dispatch_indirect(KesCommandList pcl, kes_gpuptr_t data, kes_gpuptr_t indirect_addr) {

-1

drivers/amdgpu/compiler/compiler.cpp

reviewed

··· 1 1 #include "compiler.h" 2 2 #include "rdna2_asm.h" 3 3 - #include "gir/gir.h" 4 3 5 4 #include <sstream> 6 5 #include <iomanip>

+1 -1

drivers/amdgpu/compiler/compiler.h

reviewed

··· 1 1 #pragma once 2 2 3 3 - #include "gir/gir.h" 3 3 + #include "kestrel/gir.h" 4 4 5 5 void rdna2_compile(gir::Module &mod, void *write_ptr, uint64_t base_addr);

drivers/amdgpu/impl.h

reviewed

··· 7 7 8 8 #include "cmdstream.h" 9 9 #include "gpuinfo.h" 10 10 + #include "shader.h" 10 11 11 12 #include "common.h" 12 13 ··· 37 38 struct CommandListImpl { 38 39 QueueImpl *queue; 39 40 CommandStream cs; 41 41 + 42 42 + struct { 43 43 + Shader *shader; 44 44 + } state; 40 45 }; 41 46 42 47 struct SemaphoreImpl { ··· 68 73 69 74 KesSemaphore amdgpu_create_semaphore(KesDevice, uint64_t); 70 75 int amdgpu_wait_semaphore(KesSemaphore, uint64_t); 76 76 + 77 77 + KesShader amdgpu_create_shader(KesDevice device, void *module); 78 78 + void amdgpu_bind_shader(KesCommandList command_list, KesShader shader); 71 79 } 72 80 73 81 void device_register_allocation(DeviceImpl *impl, amdgpu_bo_handle bo);

drivers/amdgpu/interface.cpp

reviewed

··· 23 23 fns->fn_cmd_dispatch_indirect = amdgpu_cmd_dispatch_indirect; 24 24 fns->fn_create_semaphore = amdgpu_create_semaphore; 25 25 fns->fn_wait_semaphore = amdgpu_wait_semaphore; 26 26 + fns->fn_create_shader = amdgpu_create_shader; 27 27 + fns->fn_bind_shader = amdgpu_bind_shader; 26 28 }

+43

drivers/amdgpu/shader.h

reviewed

··· 1 1 + #pragma once 2 2 + 3 3 + #include <cstdint> 4 4 + 5 5 + struct ShaderRegs { 6 6 + uint32_t pgm_lo; 7 7 + uint32_t pgm_hi; 8 8 + uint32_t pgm_rsrc1; 9 9 + uint32_t pgm_rsrc2; 10 10 + uint32_t pgm_rsrc3; 11 11 + 12 12 + uint32_t userdata_0; 13 13 + }; 14 14 + 15 15 + enum class HwStage { 16 16 + Compute 17 17 + }; 18 18 + 19 19 + struct ShaderInfo { 20 20 + uint32_t block_size[3]; 21 21 + HwStage hw_stage; 22 22 + ShaderRegs regs; 23 23 + 24 24 + bool ordered; 25 25 + uint32_t wave_size; 26 26 + }; 27 27 + 28 28 + struct ShaderConfig { 29 29 + uint32_t pgm_rsrc1; 30 30 + uint32_t pgm_rsrc2; 31 31 + uint32_t pgm_rsrc3; 32 32 + uint32_t compute_resource_limits; 33 33 + 34 34 + uint32_t user_sgpr_count; 35 35 + }; 36 36 + 37 37 + struct Shader { 38 38 + ShaderInfo info; 39 39 + ShaderConfig config; 40 40 + uint64_t va; 41 41 + 42 42 + KesAllocation allocation; 43 43 + };

-138

drivers/common/gir/gir.h

reviewed

··· 1 1 - #pragma once 2 2 - 3 3 - #include <cstdint> 4 4 - #include <vector> 5 5 - #include <functional> 6 6 - #include <string_view> 7 7 - 8 8 - #define GIR_VERSION "v1.1" 9 9 - 10 10 - namespace gir { 11 11 - 12 12 - enum class Type { 13 13 - Void, 14 14 - I32, 15 15 - F32, 16 16 - Ptr, 17 17 - }; 18 18 - 19 19 - struct Value { 20 20 - uint32_t id; 21 21 - 22 22 - bool is_inst() const { return id != ~0u; } 23 23 - }; 24 24 - 25 25 - enum class Op { 26 26 - Add, 27 27 - Sub, 28 28 - Mul, 29 29 - Div, 30 30 - Mod, 31 31 - FAdd, 32 32 - FSub, 33 33 - FMul, 34 34 - FDiv, 35 35 - And, 36 36 - Or, 37 37 - Xor, 38 38 - Shl, 39 39 - Shr, 40 40 - Eq, 41 41 - Ne, 42 42 - Lt, 43 43 - Le, 44 44 - Gt, 45 45 - Ge, 46 46 - Load, 47 47 - LoadShared, 48 48 - Store, 49 49 - StoreShared, 50 50 - Const, 51 51 - GetRootPtr, 52 52 - GetLocalInvocationId, 53 53 - GetThreadIdX, 54 54 - GetThreadIdY, 55 55 - GetThreadIdZ, 56 56 - GetWorkgroupIdX, 57 57 - GetWorkgroupIdY, 58 58 - GetWorkgroupIdZ, 59 59 - BackendIntrinsic, 60 60 - }; 61 61 - 62 62 - struct Inst { 63 63 - Op op; 64 64 - Type type; 65 65 - std::vector<Value> operands; 66 66 - 67 67 - // only for BackendIntrinsic 68 68 - uint32_t intrinsic_id; 69 69 - 70 70 - union { 71 71 - int64_t imm_i64; 72 72 - } data; 73 73 - 74 74 - struct { 75 75 - bool is_uniform = false; 76 76 - uint32_t phys_reg = ~0u; 77 77 - uint32_t last_use = 0xFFFFFFFF; 78 78 - } meta; 79 79 - }; 80 80 - 81 81 - class Module { 82 82 - public: 83 83 - std::vector<Inst> insts; 84 84 - 85 85 - Value emit(Inst inst) { 86 86 - uint32_t id = insts.size(); 87 87 - insts.push_back(inst); 88 88 - return Value{id}; 89 89 - } 90 90 - 91 91 - Inst &deref(Value v) { 92 92 - return insts[v.id]; 93 93 - } 94 94 - }; 95 95 - 96 96 - class Builder { 97 97 - public: 98 98 - Builder(Module& m) : mod(m) {} 99 99 - 100 100 - Value i32(int32_t imm); 101 101 - Value f32(float f); 102 102 - 103 103 - Value add(Value a, Value b); 104 104 - Value sub(Value a, Value b); 105 105 - Value mul(Value a, Value b); 106 106 - 107 107 - Value fadd(Value a, Value b); 108 108 - Value fmul(Value a, Value b); 109 109 - 110 110 - Value eq(Value a, Value b); 111 111 - Value lt(Value a, Value b); 112 112 - 113 113 - Value load(Value addr); 114 114 - Value load_shared(Value addr); 115 115 - void store(Value addr, Value data); 116 116 - void store_shared(Value addr, Value data); 117 117 - 118 118 - Value get_root_ptr(); 119 119 - 120 120 - Value get_local_invocation_id(); 121 121 - Value get_thread_id_x(); 122 122 - Value get_thread_id_y(); 123 123 - Value get_thread_id_z(); 124 124 - 125 125 - Value get_workgroup_id_x(); 126 126 - Value get_workgroup_id_y(); 127 127 - Value get_workgroup_id_z(); 128 128 - 129 129 - protected: 130 130 - Module& mod; 131 131 - }; 132 132 - 133 133 - std::string dump_module(Module &mod, std::function<std::string_view(uint32_t)> backend_intrinsic_to_string); 134 134 - 135 135 - void pass_normalize(Module& mod); 136 136 - void pass_eliminate_dead_code(Module &mod); 137 137 - 138 138 - };

-180

drivers/common/gir/gir_builder.cpp

reviewed

··· 1 1 - #include "gir.h" 2 2 - 3 3 - #include <cstring> 4 4 - 5 5 - namespace gir { 6 6 - 7 7 - Value Builder::i32(int32_t imm) { 8 8 - return mod.emit(Inst{ 9 9 - .op = Op::Const, 10 10 - .type = Type::I32, 11 11 - .operands = {}, 12 12 - .data = {.imm_i64 = imm} 13 13 - }); 14 14 - } 15 15 - 16 16 - Value Builder::f32(float f) { 17 17 - uint32_t bits; 18 18 - memcpy(&bits, &f, sizeof(float)); 19 19 - return mod.emit(Inst{ 20 20 - .op = Op::Const, 21 21 - .type = Type::F32, 22 22 - .operands = {}, 23 23 - .data = {.imm_i64 = (int64_t)bits} 24 24 - }); 25 25 - } 26 26 - 27 27 - Value Builder::add(Value a, Value b) { 28 28 - return mod.emit(Inst{ 29 29 - .op = Op::Add, 30 30 - .type = Type::I32, 31 31 - .operands = {a, b} 32 32 - }); 33 33 - } 34 34 - 35 35 - Value Builder::sub(Value a, Value b) { 36 36 - return mod.emit(Inst{ 37 37 - .op = Op::Sub, 38 38 - .type = Type::I32, 39 39 - .operands = {a, b} 40 40 - }); 41 41 - } 42 42 - 43 43 - Value Builder::mul(Value a, Value b) { 44 44 - return mod.emit(Inst{ 45 45 - .op = Op::Mul, 46 46 - .type = Type::I32, 47 47 - .operands = {a, b} 48 48 - }); 49 49 - } 50 50 - 51 51 - Value Builder::fadd(Value a, Value b) { 52 52 - return mod.emit(Inst{ 53 53 - .op = Op::FAdd, 54 54 - .type = Type::F32, 55 55 - .operands = {a, b} 56 56 - }); 57 57 - } 58 58 - 59 59 - Value Builder::fmul(Value a, Value b) { 60 60 - return mod.emit(Inst{ 61 61 - .op = Op::FMul, 62 62 - .type = Type::F32, 63 63 - .operands = {a, b} 64 64 - }); 65 65 - } 66 66 - 67 67 - Value Builder::eq(Value a, Value b) { 68 68 - return mod.emit(Inst{ 69 69 - .op = Op::Eq, 70 70 - .type = Type::I32, 71 71 - .operands = {a, b} 72 72 - }); 73 73 - } 74 74 - 75 75 - Value Builder::lt(Value a, Value b) { 76 76 - return mod.emit(Inst{ 77 77 - .op = Op::Lt, 78 78 - .type = Type::I32, 79 79 - .operands = {a, b} 80 80 - }); 81 81 - } 82 82 - 83 83 - Value Builder::load(Value addr) { 84 84 - return mod.emit(Inst{ 85 85 - .op = Op::Load, 86 86 - .type = Type::I32, 87 87 - .operands = {addr}, 88 88 - }); 89 89 - } 90 90 - 91 91 - Value Builder::load_shared(Value addr) { 92 92 - return mod.emit(Inst{ 93 93 - .op = Op::LoadShared, 94 94 - .type = Type::I32, 95 95 - .operands = {addr}, 96 96 - }); 97 97 - } 98 98 - 99 99 - void Builder::store(Value addr, Value data) { 100 100 - mod.emit(Inst{ 101 101 - .op = Op::Store, 102 102 - .type = Type::Void, 103 103 - .operands = {addr, data}, 104 104 - }); 105 105 - } 106 106 - 107 107 - void Builder::store_shared(Value addr, Value data) { 108 108 - mod.emit(Inst{ 109 109 - .op = Op::StoreShared, 110 110 - .type = Type::Void, 111 111 - .operands = {addr, data}, 112 112 - }); 113 113 - } 114 114 - 115 115 - Value Builder::get_root_ptr() { 116 116 - return mod.emit(Inst{ 117 117 - .op = Op::GetRootPtr, 118 118 - .type = Type::Ptr, 119 119 - .operands = {} 120 120 - }); 121 121 - } 122 122 - 123 123 - Value Builder::get_local_invocation_id() { 124 124 - return mod.emit(Inst{ 125 125 - .op = Op::GetLocalInvocationId, 126 126 - .type = Type::I32, 127 127 - .operands = {} 128 128 - }); 129 129 - } 130 130 - 131 131 - Value Builder::get_thread_id_x() { 132 132 - return mod.emit(Inst{ 133 133 - .op = Op::GetThreadIdX, 134 134 - .type = Type::I32, 135 135 - .operands = {} 136 136 - }); 137 137 - } 138 138 - 139 139 - Value Builder::get_thread_id_y() { 140 140 - return mod.emit(Inst{ 141 141 - .op = Op::GetThreadIdY, 142 142 - .type = Type::I32, 143 143 - .operands = {} 144 144 - }); 145 145 - } 146 146 - 147 147 - Value Builder::get_thread_id_z() { 148 148 - return mod.emit(Inst{ 149 149 - .op = Op::GetThreadIdZ, 150 150 - .type = Type::I32, 151 151 - .operands = {} 152 152 - }); 153 153 - } 154 154 - 155 155 - 156 156 - Value Builder::get_workgroup_id_x() { 157 157 - return mod.emit(Inst{ 158 158 - .op = Op::GetWorkgroupIdX, 159 159 - .type = Type::I32, 160 160 - .operands = {} 161 161 - }); 162 162 - } 163 163 - 164 164 - Value Builder::get_workgroup_id_y() { 165 165 - return mod.emit(Inst{ 166 166 - .op = Op::GetWorkgroupIdY, 167 167 - .type = Type::I32, 168 168 - .operands = {} 169 169 - }); 170 170 - } 171 171 - 172 172 - Value Builder::get_workgroup_id_z() { 173 173 - return mod.emit(Inst{ 174 174 - .op = Op::GetWorkgroupIdZ, 175 175 - .type = Type::I32, 176 176 - .operands = {} 177 177 - }); 178 178 - } 179 179 - 180 180 - }

+1 -1

drivers/common/gir/gir_dump.cpp

reviewed

··· 1 1 - #include "gir.h" 1 1 + #include "kestrel/gir.h" 2 2 #include <string> 3 3 #include <sstream> 4 4

+1 -1

drivers/common/gir/gir_normalize.cpp

reviewed

··· 1 1 - #include "gir.h" 1 1 + #include "kestrel/gir.h" 2 2 3 3 namespace gir { 4 4

+321

kestrel/include/kestrel/gir.h

reviewed

··· 1 1 + #pragma once 2 2 + 3 3 + /* 4 4 + * GIR is the IR language used. 5 5 + * 6 6 + * @NOTE: 7 7 + * This will actually NOT be exposed in the final API. I think! I want some kind of 8 8 + * spir-v compilation or otherwise. Not completely sure yet. 9 9 + */ 10 10 + 11 11 + #include <cstdint> 12 12 + #include <vector> 13 13 + #include <functional> 14 14 + #include <string_view> 15 15 + #include <cstring> 16 16 + 17 17 + #define GIR_VERSION "v1.1" 18 18 + 19 19 + namespace gir { 20 20 + 21 21 + enum class Type { 22 22 + Void, 23 23 + I32, 24 24 + F32, 25 25 + Ptr, 26 26 + }; 27 27 + 28 28 + struct Value { 29 29 + uint32_t id; 30 30 + 31 31 + bool is_inst() const { return id != ~0u; } 32 32 + }; 33 33 + 34 34 + enum class Op { 35 35 + Add, 36 36 + Sub, 37 37 + Mul, 38 38 + Div, 39 39 + Mod, 40 40 + FAdd, 41 41 + FSub, 42 42 + FMul, 43 43 + FDiv, 44 44 + And, 45 45 + Or, 46 46 + Xor, 47 47 + Shl, 48 48 + Shr, 49 49 + Eq, 50 50 + Ne, 51 51 + Lt, 52 52 + Le, 53 53 + Gt, 54 54 + Ge, 55 55 + Load, 56 56 + LoadShared, 57 57 + Store, 58 58 + StoreShared, 59 59 + Const, 60 60 + GetRootPtr, 61 61 + GetLocalInvocationId, 62 62 + GetThreadIdX, 63 63 + GetThreadIdY, 64 64 + GetThreadIdZ, 65 65 + GetWorkgroupIdX, 66 66 + GetWorkgroupIdY, 67 67 + GetWorkgroupIdZ, 68 68 + BackendIntrinsic, 69 69 + }; 70 70 + 71 71 + struct Inst { 72 72 + Op op; 73 73 + Type type; 74 74 + std::vector<Value> operands; 75 75 + 76 76 + // only for BackendIntrinsic 77 77 + uint32_t intrinsic_id; 78 78 + 79 79 + union { 80 80 + int64_t imm_i64; 81 81 + } data; 82 82 + 83 83 + struct { 84 84 + bool is_uniform = false; 85 85 + uint32_t phys_reg = ~0u; 86 86 + uint32_t last_use = 0xFFFFFFFF; 87 87 + } meta; 88 88 + }; 89 89 + 90 90 + class Module { 91 91 + public: 92 92 + std::vector<Inst> insts; 93 93 + 94 94 + Value emit(Inst inst) { 95 95 + uint32_t id = insts.size(); 96 96 + insts.push_back(inst); 97 97 + return Value{id}; 98 98 + } 99 99 + 100 100 + Inst &deref(Value v) { 101 101 + return insts[v.id]; 102 102 + } 103 103 + }; 104 104 + 105 105 + class Builder { 106 106 + public: 107 107 + Builder(Module& m) : mod(m) {} 108 108 + 109 109 + Value i32(int32_t imm); 110 110 + Value f32(float f); 111 111 + 112 112 + Value add(Value a, Value b); 113 113 + Value sub(Value a, Value b); 114 114 + Value mul(Value a, Value b); 115 115 + 116 116 + Value fadd(Value a, Value b); 117 117 + Value fmul(Value a, Value b); 118 118 + 119 119 + Value eq(Value a, Value b); 120 120 + Value lt(Value a, Value b); 121 121 + 122 122 + Value load(Value addr); 123 123 + Value load_shared(Value addr); 124 124 + void store(Value addr, Value data); 125 125 + void store_shared(Value addr, Value data); 126 126 + 127 127 + Value get_root_ptr(); 128 128 + 129 129 + Value get_local_invocation_id(); 130 130 + Value get_thread_id_x(); 131 131 + Value get_thread_id_y(); 132 132 + Value get_thread_id_z(); 133 133 + 134 134 + Value get_workgroup_id_x(); 135 135 + Value get_workgroup_id_y(); 136 136 + Value get_workgroup_id_z(); 137 137 + 138 138 + protected: 139 139 + Module& mod; 140 140 + }; 141 141 + 142 142 + std::string dump_module(Module &mod, std::function<std::string_view(uint32_t)> backend_intrinsic_to_string); 143 143 + 144 144 + void pass_normalize(Module& mod); 145 145 + void pass_eliminate_dead_code(Module &mod); 146 146 + 147 147 + // builder impl 148 148 + inline Value Builder::i32(int32_t imm) { 149 149 + return mod.emit(Inst{ 150 150 + .op = Op::Const, 151 151 + .type = Type::I32, 152 152 + .operands = {}, 153 153 + .data = {.imm_i64 = imm} 154 154 + }); 155 155 + } 156 156 + 157 157 + inline Value Builder::f32(float f) { 158 158 + uint32_t bits; 159 159 + memcpy(&bits, &f, sizeof(float)); 160 160 + return mod.emit(Inst{ 161 161 + .op = Op::Const, 162 162 + .type = Type::F32, 163 163 + .operands = {}, 164 164 + .data = {.imm_i64 = (int64_t)bits} 165 165 + }); 166 166 + } 167 167 + 168 168 + inline Value Builder::add(Value a, Value b) { 169 169 + return mod.emit(Inst{ 170 170 + .op = Op::Add, 171 171 + .type = Type::I32, 172 172 + .operands = {a, b} 173 173 + }); 174 174 + } 175 175 + 176 176 + inline Value Builder::sub(Value a, Value b) { 177 177 + return mod.emit(Inst{ 178 178 + .op = Op::Sub, 179 179 + .type = Type::I32, 180 180 + .operands = {a, b} 181 181 + }); 182 182 + } 183 183 + 184 184 + inline Value Builder::mul(Value a, Value b) { 185 185 + return mod.emit(Inst{ 186 186 + .op = Op::Mul, 187 187 + .type = Type::I32, 188 188 + .operands = {a, b} 189 189 + }); 190 190 + } 191 191 + 192 192 + inline Value Builder::fadd(Value a, Value b) { 193 193 + return mod.emit(Inst{ 194 194 + .op = Op::FAdd, 195 195 + .type = Type::F32, 196 196 + .operands = {a, b} 197 197 + }); 198 198 + } 199 199 + 200 200 + inline Value Builder::fmul(Value a, Value b) { 201 201 + return mod.emit(Inst{ 202 202 + .op = Op::FMul, 203 203 + .type = Type::F32, 204 204 + .operands = {a, b} 205 205 + }); 206 206 + } 207 207 + 208 208 + inline Value Builder::eq(Value a, Value b) { 209 209 + return mod.emit(Inst{ 210 210 + .op = Op::Eq, 211 211 + .type = Type::I32, 212 212 + .operands = {a, b} 213 213 + }); 214 214 + } 215 215 + 216 216 + inline Value Builder::lt(Value a, Value b) { 217 217 + return mod.emit(Inst{ 218 218 + .op = Op::Lt, 219 219 + .type = Type::I32, 220 220 + .operands = {a, b} 221 221 + }); 222 222 + } 223 223 + 224 224 + inline Value Builder::load(Value addr) { 225 225 + return mod.emit(Inst{ 226 226 + .op = Op::Load, 227 227 + .type = Type::I32, 228 228 + .operands = {addr}, 229 229 + }); 230 230 + } 231 231 + 232 232 + inline Value Builder::load_shared(Value addr) { 233 233 + return mod.emit(Inst{ 234 234 + .op = Op::LoadShared, 235 235 + .type = Type::I32, 236 236 + .operands = {addr}, 237 237 + }); 238 238 + } 239 239 + 240 240 + inline void Builder::store(Value addr, Value data) { 241 241 + mod.emit(Inst{ 242 242 + .op = Op::Store, 243 243 + .type = Type::Void, 244 244 + .operands = {addr, data}, 245 245 + }); 246 246 + } 247 247 + 248 248 + inline void Builder::store_shared(Value addr, Value data) { 249 249 + mod.emit(Inst{ 250 250 + .op = Op::StoreShared, 251 251 + .type = Type::Void, 252 252 + .operands = {addr, data}, 253 253 + }); 254 254 + } 255 255 + 256 256 + inline Value Builder::get_root_ptr() { 257 257 + return mod.emit(Inst{ 258 258 + .op = Op::GetRootPtr, 259 259 + .type = Type::Ptr, 260 260 + .operands = {} 261 261 + }); 262 262 + } 263 263 + 264 264 + inline Value Builder::get_local_invocation_id() { 265 265 + return mod.emit(Inst{ 266 266 + .op = Op::GetLocalInvocationId, 267 267 + .type = Type::I32, 268 268 + .operands = {} 269 269 + }); 270 270 + } 271 271 + 272 272 + inline Value Builder::get_thread_id_x() { 273 273 + return mod.emit(Inst{ 274 274 + .op = Op::GetThreadIdX, 275 275 + .type = Type::I32, 276 276 + .operands = {} 277 277 + }); 278 278 + } 279 279 + 280 280 + inline Value Builder::get_thread_id_y() { 281 281 + return mod.emit(Inst{ 282 282 + .op = Op::GetThreadIdY, 283 283 + .type = Type::I32, 284 284 + .operands = {} 285 285 + }); 286 286 + } 287 287 + 288 288 + inline Value Builder::get_thread_id_z() { 289 289 + return mod.emit(Inst{ 290 290 + .op = Op::GetThreadIdZ, 291 291 + .type = Type::I32, 292 292 + .operands = {} 293 293 + }); 294 294 + } 295 295 + 296 296 + 297 297 + inline Value Builder::get_workgroup_id_x() { 298 298 + return mod.emit(Inst{ 299 299 + .op = Op::GetWorkgroupIdX, 300 300 + .type = Type::I32, 301 301 + .operands = {} 302 302 + }); 303 303 + } 304 304 + 305 305 + inline Value Builder::get_workgroup_id_y() { 306 306 + return mod.emit(Inst{ 307 307 + .op = Op::GetWorkgroupIdY, 308 308 + .type = Type::I32, 309 309 + .operands = {} 310 310 + }); 311 311 + } 312 312 + 313 313 + inline Value Builder::get_workgroup_id_z() { 314 314 + return mod.emit(Inst{ 315 315 + .op = Op::GetWorkgroupIdZ, 316 316 + .type = Type::I32, 317 317 + .operands = {} 318 318 + }); 319 319 + } 320 320 + 321 321 + }

+3 -1

kestrel/include/kestrel/interface.h

reviewed

··· 32 32 void (*fn_cmd_dispatch)(KesCommandList command_list, kes_gpuptr_t data, uint32_t x, uint32_t y, uint32_t z); 33 33 void (*fn_cmd_dispatch_indirect)(KesCommandList command_list, kes_gpuptr_t data, kes_gpuptr_t command_addr); 34 34 KesSemaphore (*fn_create_semaphore)(KesDevice device, uint64_t value); 35 35 - int (*fn_wait_semaphore)(KesSemaphore semaphore, uint64_t value); 35 35 + int (*fn_wait_semaphore)(KesSemaphore semaphore, uint64_t value); 36 36 + KesShader (*fn_create_shader)(KesDevice device, void *module); 37 37 + void (*fn_bind_shader)(KesCommandList command_list, KesShader shader); 36 38 }; 37 39 38 40 /**

+17

kestrel/include/kestrel/kestrel.h

reviewed

··· 36 36 typedef void *KesSemaphore; 37 37 38 38 /** 39 39 + * Opaque handle to a Shader. 40 40 + */ 41 41 + typedef void *KesShader; 42 42 + 43 43 + /** 39 44 * Structure describing a memory allocation. 40 45 * @sa kes_malloc 41 46 */ ··· 325 330 KesSemaphore kes_create_semaphore(KesDevice device, uint64_t value); 326 331 327 332 int kes_wait_semaphore(KesSemaphore semaphore, uint64_t value); 333 333 + 334 334 + /** 335 335 + * Create a Shader 336 336 + * @param device The device to create the shader on. 337 337 + * @param module An opaque handle to a gir::Module. 338 338 + * 339 339 + * @todo: TO BE REMOVED for proper spir-v or otherwise! 340 340 + * @note: Bad leaky C++ :^/ 341 341 + */ 342 342 + KesShader kes_create_shader(KesDevice device, void *module); 343 343 + 344 344 + void kes_bind_shader(KesCommandList command_list, KesShader shader); 328 345 329 346 #ifdef __cplusplus 330 347 }

+15 -1

kestrel/rt/api.cpp

reviewed

··· 74 74 75 75 std::string lib_name = "libkes_" + gpu.driver_name + ".so"; 76 76 77 77 - std::string temp_path = std::string("/home/olle/hack/kestrel/build-dev/drivers/") + lib_name; 77 77 + std::string temp_path = std::string("/home/olle/hack/kestrel/build/drivers/") + lib_name; 78 78 79 79 printf("trying path: %s\n", temp_path.c_str()); 80 80 ··· 238 238 239 239 return dev->fns.fn_wait_semaphore(handle->sem, value); 240 240 } 241 241 + 242 242 + KesShader kes_create_shader(KesDevice pd, void *module) { 243 243 + auto *dev = reinterpret_cast<DeviceHandle *>(pd); 244 244 + auto shader = dev->fns.fn_create_shader(dev->drv_handle, module); 245 245 + 246 246 + return shader; 247 247 + } 248 248 + 249 249 + void kes_bind_shader(KesCommandList pcl, KesShader shader) { 250 250 + auto *clhandle = reinterpret_cast<CommandListHandle *>(pcl); 251 251 + auto *dev = clhandle->dev; 252 252 + 253 253 + dev->fns.fn_bind_shader(clhandle->cmdlist, shader); 254 254 + }

+14

test/examples/07_hello_dispatch/hello_dispatch.cpp

reviewed

··· 1 1 #include <unistd.h> 2 2 #include <kestrel/kestrel.h> 3 3 + #include <kestrel/gir.h> 3 4 4 5 #include <stdio.h> 5 6 ··· 17 18 18 19 auto compute = kes_create_queue(dev, KesQueueTypeCompute); 19 20 21 21 + gir::Module mod; 22 22 + { 23 23 + gir::Builder gb(mod); 24 24 + auto rp = gb.get_root_ptr(); 25 25 + auto p = gb.add(rp, gb.mul(gb.get_local_invocation_id(), gb.i32(4))); 26 26 + auto x = gb.load(p); 27 27 + auto sum = gb.add(x, gb.i32(15)); 28 28 + gb.store(p, sum); 29 29 + } 30 30 + 31 31 + auto shader = kes_create_shader(dev, (void *)&mod); 32 32 + 20 33 auto cl = kes_start_recording(compute); 21 34 { 35 35 + kes_bind_shader(cl, shader); 22 36 kes_cmd_dispatch(cl, x.gpu, 32, 1, 1); 23 37 } 24 38