MEMPERPANJANG OPENSHMEM UNTUK KOMPUTING GPU

Unit Pemrosesan Grafis (GPU) menjadi bagian integral dari arsitektur superkomputer modern karena kepadatan komputasi yang tinggi dan kinerja per watt. Untuk memaksimalkan pemanfaatan, sangat penting bahwa aplikasi yang berjalan pada kluster ini memiliki sinkronisasi rendah dan overhead komunikasi. Model Ruang Alamat Global Partisi (PGAS) memberikan pendekatan yang menarik untuk mengembangkan aplikasi ilmiah paralel. Model semacam itu menyederhanakan pemrograman melalui abstraksi ruang alamat memori bersama sementara komunikasi primitif satu sisi memungkinkan implementasi aplikasi yang efisien dengan sinkronisasi minimum. OpenSHMEM adalah model pemrograman berbasis perpustakaan yang mulai populer. Namun, standar OpenSHMEM saat ini tidak mendukung komunikasi langsung dari buffer perangkat GPU. Ini membutuhkan data untuk disalin ke memori host sebelum panggilan OpenSHMEM dapat dibuat. Demikian pula, data harus dipindahkan ke GPU secara eksplisit oleh proses jarak jauh. Ini sangat membatasi kemampuan program dan kinerja aplikasi GPU. Dalam makalah ini kami menyediakan ekstensi untuk model OpenSHMEM yang memungkinkan panggilan komunikasi dilakukan secara langsung pada memori GPU. Ekstensi yang diusulkan dapat dioperasikan dengan dua kerangka kerja pemrograman GPU paling populer: CUDA dan OpenCL. Kami menyajikan desain untuk runtime OpenSHMEM yang efisien yang secara transparan menyediakan komunikasi kinerja tinggi antara GPU dalam konfigurasi antar-simpul dan intra-simpul yang berbeda. Sejauh pengetahuan kami, ini adalah pekerjaan pertama yang memungkinkan komunikasi GPU-GPU menggunakan model OpenSHMEM untuk kerangka kerja komputasi CUDA dan OpenCL. Perpanjangan yang diusulkan untuk OpenSHMEM, ditambah dengan runtime kinerja tinggi, meningkatkan latensi operasi getmem GPU-GPU sebesar 90%, 40% dan 17%, untuk intra-IOH (I / O Hub), antar-IOH dan antar konfigurasi -node. Ini meningkatkan kinerja atom OpenSHMEM hingga 55% dan 52%, untuk konfigurasi GPU intra-IOH dan antar-simpul. Peningkatan yang diusulkan meningkatkan kinerja kernel Stencil2D sebesar 65% pada sekelompok 192 GPU dan kinerja kernel BFS sebesar 12% pada sekelompok 96 GPU.
unit pemrosesan grafis, runtime, konteks, pemodelan komputasi, pengemasan elektronik, pemrograman, kernel
https://ieeexplore.ieee.org/document/6569880/
Sains dan Teknologi


Dokumen yang berkaitan.

AUTOLEADGUITAR: GENERASI OTOMATIS FITUR GITAR SOLO DI RUANG TABLATUR
Kami menghadirkan AutoLeadGuitar, sebuah sistem untuk secara otomatis menghasilkan tablatures solo gitar dari chord input dan urutan tombol. Sistem kami menghasilkan solo dalam frasa musik yang berbeda, dan dilatih menggunakan tablatures digital yang ada yang bersumber dari web. Saat membuat solo, A.....
GPU PASCAL KINERJA ULTRA DAN NVLINK INTERCONNECT
Artikel ini memperkenalkan GPU Pascal berkinerja tinggi Nvidia. GP100 menghadirkan memori bandwidth tinggi dalam paket, dukungan untuk operasi FP16 yang efisien, memori terpadu, dan preemption instruksi, dan menggabungkan NVLink I / O Nvidia untuk koneksi bandwidth tinggi antara GPU dan antara GPU d.....
VIRTUALISASI GPU SCALABLE DENGAN PEMBAGIAN DINAMIK GRAFIK MEMORY SPACE
Dengan meningkatnya beban kerja intensif-GPU yang diterapkan di cloud, penyedia layanan cloud mencari solusi virtualisasi GPU yang praktis dan efisien. Namun, teknik virtualisasi GPU mutakhir seperti gVirt masih mengalami pembatasan skalabilitas, yang membatasi jumlah instance GPU virtual tamu. Maka.....
SUPERVECTOR GMM ACCELERATED GPU UNTUK SPEAKER DAN PENGAKUAN BAHASA
Komputasi supervektor dari banyak vektor fitur ucapan diiris sebagai input untuk mendukung mesin vektor digunakan dalam banyak sistem canggih untuk pengeras suara dan pengenalan bahasa. Metode rekombinasi fitur ini dapat mencapai hasil pengenalan yang sangat baik, tetapi juga sangat memakan waktu. D.....
IMPLEMENTASI PARALLEL PADA GPU ALGORITMA DETEKSI DAN PELACAKAN OLEH SUBTRAKSI LATAR BELAKANG DASAR
GPU, memiliki struktur yang sangat paralel sehingga efektif untuk berbagai tugas grafis tetapi juga untuk memproses tugas. Kami ingin memanfaatkan struktur GPU yang sangat paralel untuk meningkatkan kinerja komputasi kami untuk algoritme deteksi dan pelacakan dengan pengurangan latar belakang dengan.....
MENUJU OTOMATIS DOMPOSISI DATA MULTI-DIMENSIONAL UNTUK MELAKSANAKAN KODE SATU-GPU PADA SISTEM MULTI-GPU
Dalam makalah ini, kami menyajikan metode dekomposisi data untuk data multi-dimensi, yang bertujuan untuk mewujudkan akselerasi unit pemrosesan multi grafis (GPU) dari kode arsitektur perangkat terpadu (CUDA) yang ditulis untuk satu GPU. Metode multi-dimensi kami memperluas metode sebelumnya yang be.....
OVERDISTENSI DAN DERECRUITMENT INTRATIDAL DI PARU LUKA: STUDI SIMULASI
Tujuan: Pasien berventilasi dengan sindrom gangguan pernapasan akut (ARDS) cenderung mengalami overdistensi dan derecruitment parenkim siklik, yang dapat memperburuk cedera yang ada. Kami berhipotesis bahwa variasi intratidal dalam mekanika global, sebagaimana dinilai pada pembukaan jalan nafas, aka.....
PEMETAAN KOMUNIKASI-SADAR GRAF STREAM UNTUK PLATFORMS MULTI-GPU
Grafik aliran dapat memberikan cara alami untuk mewakili banyak aplikasi dalam multimedia dan domain DSP. Meskipun paralelisme yang terbuka dari grafik aliran membuatnya relatif mudah untuk memetakannya ke GP (General Purpose) -GPUs, grafik aliran yang sangat besar serta bagaimana cara terbaik menge.....
STIMULASI MUSLIM POLA WAKTU WAVEFORM UNTUK KELOMPOK OTOT YANG MENDUKUNG DAN LEBIH RENDAH UNTUK MENINGKATKAN KETAHANAN MUSCULER DALAM PEDALING STIMULASI LISTRIK FUNGSIONAL MENGGUNAKAN MODEL DINAMIK FORWARD
Stimulasi listrik fungsional (FES) dari mengayuh menyediakan sarana di mana individu dengan cedera tulang belakang dapat memperoleh latihan kardiorespirasi. Namun, awal kelelahan otot adalah faktor pembatas dalam latihan kardiorespirasi yang diperoleh saat mengayuh ergometer FES. Salah satu tujuan d.....
KOMPRESI LOSSLESS DENGAN PARALLEL DECODER UNTUK MENINGKATKAN KINERJA BEAMFORMER BERBASIS GPU
Beamformer berbasis waktu nyata menderita dari kebutuhan bandwidth transmisi besar untuk mentransfer data USG besar dari ujung depan perangkat keras ke sistem ujung belakang perangkat lunak dan waktu pemrosesan yang lama dari salinan memori dari CPU ke GPU. Kompresi data dengan dekoder berurutan dap.....
PENCITRAAN STRAIN KAROTID LAGRANGIAN CEPAT DENGAN KOMPUTING GPU
Lagrangian carotid strain imaging (LCSI) melibatkan estimasi deformasi pada arteri karotid karena variasi tekanan darah di bawah denyut jantung. Ketegangan lokal selama siklus jantung dilacak, yang intensif secara komputasi. Kami mengeluarkan waktu pemrosesan luring yang lama untuk LCSI yang menjadi.....
STUDI TENTANG KONEKTIVITAS FUNGSIONAL ANTARA LAPANGAN MATA DEPAN DAN CORTEX OTAK LAINNYA DALAM PENGOLAHAN VISUAL
Para ilmuwan telah melakukan banyak penelitian tentang penglihatan manusia, mereka percaya bahwa model komputasi dari penglihatan manusia dapat menginspirasi visi komputer. FEF (Frontal Eye Field) adalah salah satu korteks penting manusia yang memainkan peran sentral dalam produksi gerakan mata yang.....
GEM5-GPU: SIMULATOR CPU-GPU LEBIH HETEROGEN
gem5-gpu adalah simulator baru yang memodelkan sistem CPU-GPU terintegrasi kuat. Ini dibangun di atas gem5, simulator CPU sistem penuh modular, dan GPGPUSim, simulator GPGPU terperinci. gem5-gpu merutekan sebagian besar akses memori melalui Ruby, yang merupakan sistem memori yang sangat dapat dikonf.....
MENGINTEGRASIKANNYA KE DALAM KURIKULUM ILMU KESEHATAN SELATAN AFRIKA
Kami menjelaskan pengenalan kurikulum TI untuk mendukung kurikulum ilmu kesehatan baru yang diperkenalkan oleh Fakultas Ilmu Kesehatan di Universitas Cape Town (UCT). Dengan menggabungkan penelitian internasional dan lokal dengan kesadaran akan konteks Afrika Selatan, masalah infrastruktur, kebutuha.....
PEMODELAN INTERPLAY ANTARA TUMOR VOLUME REGRESI DAN OKSIGENASI DALAM KANKER UERINE CERVICAL SELAMA PENGOBATAN RADIOTHERAPY
Makalah ini menjelaskan model matematika khusus pasien untuk memprediksi evolusi tumor serviks uterus pada skala makroskopis, selama radioterapi eksternal terfraksionasi. Model ini memberikan perkiraan pertumbuhan kembali tumor dan reabsorpsi sel mati, menggabungkan interaksi antara tingkat regresi .....
GCMR: KERANGKA KERJA MAPREDUCE BERBASIS CLUSTER GPU UNTUK PENGOLAHAN DATA SKALA BESAR
MapReduce adalah model pemrograman yang sangat populer untuk mendukung pemrosesan data skala besar yang paralel dan didistribusikan. Ada banyak upaya untuk mengimplementasikan model ini pada sistem berbasis komoditas GPU. Namun, sebagian besar implementasi ini hanya dapat bekerja pada satu GPU. Dan .....
KINERJA TINGGI DAN AKELERASI MULTI-GPU UNTUK TOMOGRAFI OPTIS DIFFUSE
Diffuse Optical Tomography (DOT) adalah modalitas pencitraan diagnostik, di mana parameter optik seperti penyerapan dan distribusi koefisien hamburan di dalam jaringan hidup dipulihkan untuk memahami variasi struktural dan fungsional dalam jaringan yang diteliti. Metode numerik rekonstruksi gambar D.....
PERAN WANITA DALAM SEJARAH KOMPUTASI
Jauh sebelum era komputasi elektronik, wanita sudah menjadi bagian dari industri pemrosesan informasi. Selama lima puluh tahun pertama pemrosesan informasi, wanita memiliki peran penting untuk dimainkan - dari operator entri data wanita pada awal 1900-an hingga ke enam programmer wanita ENIAC pada t.....
MENGEMBANGKAN SISTEM EMBEDDED CPU-GPU MENGGUNAKAN KOMPONEN AGNOSTIK PLATFORM
Saat ini, ada banyak sistem tertanam dengan arsitektur berbeda yang telah memasukkan GPU. Namun, sulit untuk mengembangkan sistem tertanam CPU-GPU menggunakan pengembangan berbasis komponen (CBD), karena pendekatan CBD yang ada tidak memiliki dukungan untuk pengembangan GPU. Dalam konteks ini, ketik.....
PEMODELAN FISIK OTOMATIS DARI RANGKAIAN AUDIO NONLINEAR UNTUK EFEK AUDIO NYA-WAKTU — BAGIAN II: CONTOH-CONTOH BJT DAN VAKUM TABUNG VAKUM
Ini adalah bagian kedua dari makalah dua bagian yang menyajikan pendekatan prosedural untuk mendapatkan filter nonlinier dari skema rangkaian audio untuk tujuan meniru sirkuit efek musik secara digital dalam waktu nyata. Karya ini menyajikan hasil penerapan teknik berbasis fisika ini ke dua sirkuit .....
Cari atau Lihat dokumen yang lain..