色99在线,亚洲视频在线精品,国产特级毛片

摘要：本文論述了使用CUDA C編寫Windows Console Application、動態鏈接庫(DLL)、在 .NET 中使用CUDA C編寫的DLL的基本方法。

1、 CUDA C編寫Windows Console Application

下面我們從一個簡單的例子開始學習CUDA C。

打開VS，新建一個CUDAWinApp項目，項目名稱為Vector，解決方案名稱為CUDADemo。依次點擊“確定”，“下一步”，選擇Empty project。點擊“Finished”。這樣一個CUDA的項目就建成了。

右鍵點擊Vector項目，依次選擇“添加”、“新建項”、“代碼”、“CUDA”。在名稱中輸入要添加的文件名。如Vector.cu。然后點擊添加。

下面在Vector.cu文件里實現兩個向量相加的程序。

    //添加系統庫
#include <stdio.h>
#include <stdlib.h>
//添加CUDA支持
#include <cuda.h>

__global__ void VecAdd(float *A, float *B, float *C);

__host__ void runVecAdd(int argc, char **argv);

int main(int argc, char **argv)
{
 runVecAdd(argc,argv);

 CUT_EXIT(argc,argv);

}

__host__ void runVecAdd(int argc,char **argv)

{//初始化host端內存數據

const unsigned int N = 8;//向量維數

const unsigned int memSize = sizeof(float)*N;//需要空間的字節數

float *h_A = (float*)malloc(memSize);

float *h_B = (float*)malloc(memSize);

float *h_C = (float*)malloc(memSize);

for (unsigned int i = 0; i < N; i++)

{h_A[i] = i;h_B[i] = i;}

//設備端顯存空間

float *d_A, *d_B, *d_C;

//初始化Device

CUT_DEVICE_INIT(argc,argv);

CUDA_SAFE_CALL(cudaMalloc((void**)&d_A, memSize));

CUDA_SAFE_CALL(cudaMalloc((void**)&d_B, memSize));

CUDA_SAFE_CALL(cudaMalloc((void**)&d_C, memSize));

CUDA_SAFE_CALL(cudaMemcpy(d_A, h_A, memSize, cudaMemcpyHostToDevice));

CUDA_SAFE_CALL(cudaMemcpy(d_B, h_B, memSize, cudaMemcpyHostToDevice));

VecAdd<<<1,N,memSize>>>(d_A, d_B, d_C);

CUT_CHECK_ERROR("Kernel execution failed");

CUDA_SAFE_CALL(cudaMemcpy(h_C, d_C, memSize, cudaMemcpyDeviceToHost));

for (unsigned int i = 0; i < N; i++)

{ printf("%.0f ",h_C[i]); }

free(h_A);free(h_B);free(h_C);

CUDA_SAFE_CALL(cudaFree(d_A));

CUDA_SAFE_CALL(cudaFree(d_B));

CUDA_SAFE_CALL(cudaFree(d_C));

}

__global__ void VecAdd(float *A, float *B, float *C)

{

//分配shared memory

extern __shared__ float s_A[];

extern __shared__ float s_B[];

extern __shared__ float s_C[];

//從global memory拷貝到shared memory

const unsigned int i = threadIdx.x;

s_A[i] = A[i];

s_B[i] = B[i];

//計算

s_C[i] = s_A[i] + s_B[i];

//拷貝到global memory

C[i] = s_C[i];

}

由于這里不是講CUDA編程的，關于它的編程模型已經超出了我要介紹的范圍，您可以閱讀《GPU高性能運算之CUDA》來獲得CUDA編程模型的知識。

編譯Vector項目，執行此項目后會得到圖1如下輸出：

圖1 Vector項目執行結果

2、CUDA C編寫DLL模塊

更多情況下的您的軟件可能只是使用CUDA來實現一段程序的加速，這種情況下我們可以使用CUDA C 編寫DLL來提供接口。下面我們就將例1編譯成DLL。

在剛才的CUDADemo解決方案目錄下添加一個新的CUDA項目（當然您也可以重新建立一個解決方案）。項目名為VecAdd_dynamic。Application Type選為DLL，Additional Options選擇Empty Project。

第一步，添加頭文件，文件名最好與工程名同名，這樣便于您的維護工作。這里我向項目中添加了VecAdd_dynamic.h，在此頭文件中添加如下代碼

    #ifndef _VECADD_DYNAMIC_H_

#define _VECADD_DYNAMIC_H_

//并行計算N維向量的加法

__declspec(dllexport) void VecAdd(float* h_A, float* h_B, float* h_C, int N);

#endif

第二步，添加cpp文件，文件名為VecAdd_dynamic.cpp，在此文件中添加如下代碼

#include

#include "VecAdd_dynamic.h"

#ifdef _MANAGED

#pragma managed(push, off)

#endif

BOOL APIENTRY DllMain(HMODULE hModule,DWORD ul_reason_for_call,LPVOID lpReserved)

{

return TRUE;

}

#ifdef _MANAGED

#pragma managed(pop)

#endif

第三步，添加def文件，此文件的功能就是確保其它廠商的編譯器能夠調用此DLL里的函數。這一點非常關鍵，因為您的程序可能用到多個廠家的編譯器。文件名為VecAdd_dynamic.def。向該文件中添加：

    EXPORTS

VecAdd

第四步，添加cu文件，文件名為VecAdd_dynamic.cu。注意此文件最好直接添加到項目目錄下，不要添加到源文件選項卡或其它已有的選項卡下。如圖2所示

圖2 VecAdd_dynamic項目文件組織

在cu文件里添加如下代碼，實現要導出的函數。

    #include

#include

#include

#if __DEVICE_EMULATION__

bool InitCUDA(void)

{ return true;}

#else

bool InitCUDA(void)

{

int count = 0;

int i = 0;

cudaGetDeviceCount(&count);

if(count == 0)

{

fprintf(stderr, "There is no device./n");

return false;

}

for(i = 0; i < count; i++)

{

cudaDeviceProp prop;

if(cudaGetDeviceProperties(&prop, i) == cudaSuccess)

{

if(prop.major >= 1)

{ break; }

}

}

if(i == count)

{

fprintf(stderr, "There is no device supporting CUDA./n");

return false;

}

cudaSetDevice(i);

printf("CUDA initialized./n");

return true;

}

#endif

__global__ void D_VecAdd(float *g_A, float *g_B, float *g_C, int N)

{

unsigned int i = threadIdx.x;

if (i < N)

{ g_C[i] = g_A[i] + g_B[i]; }

}

void VecAdd(float* h_A, float* h_B, float* h_C, int N)

{

if(!InitCUDA())

{ return; }

float *g_A, *g_B, *g_C;

unsigned int size = N * sizeof(float);

CUDA_SAFE_CALL(cudaMalloc((void**)&g_A, size));

CUDA_SAFE_CALL(cudaMalloc((void**)&g_B, size));

CUDA_SAFE_CALL(cudaMalloc((void**)&g_C, size));

CUDA_SAFE_CALL(cudaMemcpy(g_A, h_A, size, cudaMemcpyHostToDevice));

CUDA_SAFE_CALL(cudaMemcpy(g_B, h_B, size, cudaMemcpyHostToDevice));

D_VecAdd<<<1,N>>>(g_A, g_B, g_C, N);

CUDA_SAFE_CALL(cudaMemcpy(h_C, g_C, size, cudaMemcpyDeviceToHost));

cudaFree(g_A);cudaFree(g_B);cudaFree(g_C);

}

第五步，如果您已經正確完成了以上四步，那么剩下的就只有編譯，只要您用過VS，這一步就不需要我介紹了吧。成功之后，在您的解決方案文件目錄下的Debug文件夾下會有一個VecAdd_dynamic.dll文件。

3、在 .NET 中使用CUDA C編寫的DLL

下面介紹在托管程序中如何使用VecAdd_dynamic.dll。

第一步，在上面的解決方案CUDADemo下添加一個C++/CLR的Windows窗體應用程序，工程名為NETDemo（當然您也可以重新建一個解決方案，工程名也是隨意的）。

第二步，在窗體上添加一個按鈕，名字隨意，我將它的現實文本改為“調用CUDA_DLL”，給這個按鈕添加click事件。我們的代碼將在這個事件里添加調用VecAdd()的程序。在窗體上添加一個文本框用來顯示調用輸出的結果。

第三步，代碼實現。為工程NETDemo添加一個頭文件，我將它命名為Win32.h，這個文件中主要是實現VecAdd()函數的導入。在此文件中添加如下代碼

    #pragma once

namespace Win32

{

using namespace System::Runtime::InteropServices;

[DllImport("VecAdd_dynamic.dll",EntryPoint="VecAdd",CharSet=CharSet::Auto)]

extern "C" void VecAdd(float* h_A, float* h_B, float* h_C, int N);

}

在Form1.h中，#pragma once 之后 namespace NETDemo 之前添加以下代碼。

    #include "Win32.h"

#include

在button1_Click()中添加如下代碼

    int N = 8;

float* h_A = (float*)malloc(N*sizeof(float));

float* h_B = (float*)malloc(N*sizeof(float));

float* h_C = (float*)malloc(N*sizeof(float));

for (int i = 0; i < N; i++)

{h_A[i] = i;h_B[i] = i;}

Win32::VecAdd(h_A, h_B, h_C,N);

String ^reslut;

for (int i = 0; i < N; i++)

{reslut += Convert::ToString(h_C[i]) + ", ";}

this->textBox1->Text = Convert::ToString(reslut);

free(h_A);free(h_B);free(h_C);

第四步、執行NETDemo項目。點擊“調用CUDA_DLL”，您會看到圖3所示的結果

圖3 NETDemo運行結果

到現在為止您已經完全可以正確使用CUDA了。

參考

[1]Jeffrey Richter ， Christophe Nasarre . Windows 核心編程（第五版） [M]. 北京：清華大學出版社， 2008.

[2] 張舒，褶艷利 . GPU 高性能運算之 CUDA [M]. 北京：中國水利水電出版社， 2009.

CUDA C編程探索

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

摘要：本文論述了使用CUDA C編寫Windows Console Application、動態鏈接庫(DLL)、在 .NET 中使用CUDA C編寫的DLL的基本方法。

1、 CUDA C編寫Windows Console Application

2、CUDA C編寫DLL模塊

3、 在 .NET 中使用CUDA C編寫的DLL

參考

摘要：本文論述了使用CUDA C編寫Windows Console Application、動態鏈接庫(DLL)、在 .NET 中使用CUDA C編寫的DLL的基本方法。

1、 CUDA C編寫Windows Console Application

2、CUDA C編寫DLL模塊

3、在 .NET 中使用CUDA C編寫的DLL