Added API and tests for new GemmStridedBatched routine

author: Cedric Nugteren <web@cedricnugteren.nl> 2018-01-07 14:27:15 +0100
committer: Cedric Nugteren <web@cedricnugteren.nl> 2018-01-07 14:27:15 +0100
commit: 9fb2c61b256ccf66b6a7b6f605008125288d60cf (patch)
tree: 2df0c0ed7a5be8e7f1b78131467e8620a2266da7 /include
parent: 0c48c6e6c4cd953523a10bcb804fde67e4650a57 (diff)
3 files changed, 71 insertions, 0 deletions
diff --git a/include/clblast.h b/include/clblast.h
index a05b487f..8e3e64da 100644
--- a/include/clblast.h
+++ b/include/clblast.h
@@ -647,6 +647,18 @@ StatusCode GemmBatched(const Layout layout, const Transpose a_transpose, const T
                        const size_t batch_count,
                        cl_command_queue* queue, cl_event* event = nullptr);
 
+// StridedBatched version of GEMM: SGEMMSTRIDEDBATCHED/DGEMMSTRIDEDBATCHED/CGEMMSTRIDEDBATCHED/ZGEMMSTRIDEDBATCHED/HGEMMSTRIDEDBATCHED
+template <typename T>
+StatusCode GemmStridedBatched(const Layout layout, const Transpose a_transpose, const Transpose b_transpose,
+                              const size_t m, const size_t n, const size_t k,
+                              const T alpha,
+                              const cl_mem a_buffer, const size_t a_offset, const size_t a_ld, const size_t a_stride,
+                              const cl_mem b_buffer, const size_t b_offset, const size_t b_ld, const size_t b_stride,
+                              const T beta,
+                              cl_mem c_buffer, const size_t c_offset, const size_t c_ld, const size_t c_stride,
+                              const size_t batch_count,
+                              cl_command_queue* queue, cl_event* event = nullptr);
+
 // =================================================================================================
 
 // Retrieves the required size of the temporary buffer for the GEMM kernel (optional)
diff --git a/include/clblast_c.h b/include/clblast_c.h
index bd74fe88..f1fc5371 100644
--- a/include/clblast_c.h
+++ b/include/clblast_c.h
@@ -1451,6 +1451,53 @@ CLBlastStatusCode PUBLIC_API CLBlastHgemmBatched(const CLBlastLayout layout, con
                                                  const size_t batch_count,
                                                  cl_command_queue* queue, cl_event* event);
 
+// StridedBatched version of GEMM: SGEMMSTRIDEDBATCHED/DGEMMSTRIDEDBATCHED/CGEMMSTRIDEDBATCHED/ZGEMMSTRIDEDBATCHED/HGEMMSTRIDEDBATCHED
+CLBlastStatusCode PUBLIC_API CLBlastSgemmStridedBatched(const CLBlastLayout layout, const CLBlastTranspose a_transpose, const CLBlastTranspose b_transpose,
+                                                        const size_t m, const size_t n, const size_t k,
+                                                        const float alpha,
+                                                        const cl_mem a_buffer, const size_t a_offset, const size_t a_ld, const size_t a_stride,
+                                                        const cl_mem b_buffer, const size_t b_offset, const size_t b_ld, const size_t b_stride,
+                                                        const float beta,
+                                                        cl_mem c_buffer, const size_t c_offset, const size_t c_ld, const size_t c_stride,
+                                                        const size_t batch_count,
+                                                        cl_command_queue* queue, cl_event* event);
+CLBlastStatusCode PUBLIC_API CLBlastDgemmStridedBatched(const CLBlastLayout layout, const CLBlastTranspose a_transpose, const CLBlastTranspose b_transpose,
+                                                        const size_t m, const size_t n, const size_t k,
+                                                        const double alpha,
+                                                        const cl_mem a_buffer, const size_t a_offset, const size_t a_ld, const size_t a_stride,
+                                                        const cl_mem b_buffer, const size_t b_offset, const size_t b_ld, const size_t b_stride,
+                                                        const double beta,
+                                                        cl_mem c_buffer, const size_t c_offset, const size_t c_ld, const size_t c_stride,
+                                                        const size_t batch_count,
+                                                        cl_command_queue* queue, cl_event* event);
+CLBlastStatusCode PUBLIC_API CLBlastCgemmStridedBatched(const CLBlastLayout layout, const CLBlastTranspose a_transpose, const CLBlastTranspose b_transpose,
+                                                        const size_t m, const size_t n, const size_t k,
+                                                        const cl_float2 alpha,
+                                                        const cl_mem a_buffer, const size_t a_offset, const size_t a_ld, const size_t a_stride,
+                                                        const cl_mem b_buffer, const size_t b_offset, const size_t b_ld, const size_t b_stride,
+                                                        const cl_float2 beta,
+                                                        cl_mem c_buffer, const size_t c_offset, const size_t c_ld, const size_t c_stride,
+                                                        const size_t batch_count,
+                                                        cl_command_queue* queue, cl_event* event);
+CLBlastStatusCode PUBLIC_API CLBlastZgemmStridedBatched(const CLBlastLayout layout, const CLBlastTranspose a_transpose, const CLBlastTranspose b_transpose,
+                                                        const size_t m, const size_t n, const size_t k,
+                                                        const cl_double2 alpha,
+                                                        const cl_mem a_buffer, const size_t a_offset, const size_t a_ld, const size_t a_stride,
+                                                        const cl_mem b_buffer, const size_t b_offset, const size_t b_ld, const size_t b_stride,
+                                                        const cl_double2 beta,
+                                                        cl_mem c_buffer, const size_t c_offset, const size_t c_ld, const size_t c_stride,
+                                                        const size_t batch_count,
+                                                        cl_command_queue* queue, cl_event* event);
+CLBlastStatusCode PUBLIC_API CLBlastHgemmStridedBatched(const CLBlastLayout layout, const CLBlastTranspose a_transpose, const CLBlastTranspose b_transpose,
+                                                        const size_t m, const size_t n, const size_t k,
+                                                        const cl_half alpha,
+                                                        const cl_mem a_buffer, const size_t a_offset, const size_t a_ld, const size_t a_stride,
+                                                        const cl_mem b_buffer, const size_t b_offset, const size_t b_ld, const size_t b_stride,
+                                                        const cl_half beta,
+                                                        cl_mem c_buffer, const size_t c_offset, const size_t c_ld, const size_t c_stride,
+                                                        const size_t batch_count,
+                                                        cl_command_queue* queue, cl_event* event);
+
 // =================================================================================================
 
 // CLBlast stores binaries of compiled kernels into a cache in case the same kernel is used later on
diff --git a/include/clblast_cuda.h b/include/clblast_cuda.h
index e1237936..b0cb9aa8 100644
--- a/include/clblast_cuda.h
+++ b/include/clblast_cuda.h
@@ -619,6 +619,18 @@ StatusCode GemmBatched(const Layout layout, const Transpose a_transpose, const T
                        const size_t batch_count,
                        const CUcontext context, const CUdevice device);
 
+// StridedBatched version of GEMM: SGEMMSTRIDEDBATCHED/DGEMMSTRIDEDBATCHED/CGEMMSTRIDEDBATCHED/ZGEMMSTRIDEDBATCHED/HGEMMSTRIDEDBATCHED
+template <typename T>
+StatusCode GemmStridedBatched(const Layout layout, const Transpose a_transpose, const Transpose b_transpose,
+                              const size_t m, const size_t n, const size_t k,
+                              const T alpha,
+                              const CUdeviceptr a_buffer, const size_t a_offset, const size_t a_ld, const size_t a_stride,
+                              const CUdeviceptr b_buffer, const size_t b_offset, const size_t b_ld, const size_t b_stride,
+                              const T beta,
+                              CUdeviceptr c_buffer, const size_t c_offset, const size_t c_ld, const size_t c_stride,
+                              const size_t batch_count,
+                              const CUcontext context, const CUdevice device);
+
 // =================================================================================================
 
 // Retrieves the required size of the temporary buffer for the GEMM kernel (optional)
author	Cedric Nugteren <web@cedricnugteren.nl>	2018-01-07 14:27:15 +0100
committer	Cedric Nugteren <web@cedricnugteren.nl>	2018-01-07 14:27:15 +0100
commit	9fb2c61b256ccf66b6a7b6f605008125288d60cf (patch)
tree	2df0c0ed7a5be8e7f1b78131467e8620a2266da7 /include
parent	0c48c6e6c4cd953523a10bcb804fde67e4650a57 (diff)