Возможно ли высокопроизводительные вычисления от Golang и CUDA?

Некоторое время я искал googled, и единственная полезная информация:

  • github.com/barnex/cuda5
  • mumax.github.io/

К сожалению, последний Arch Linux предоставляет только пакет CUDA 7.5, поэтому проект barnex может не поддерживаться.

Арне Ванстинкисте рекомендует параллелизм, а не чистый Голанг или Голанг плюс CUDA. Что еще, там кто-то говорит ту же идею, что "Не было бы здорово запустить goroutine на GPU и общаться с ним через каналы?". Я думаю, что обе эти идеи прекрасны, так как я хотел бы как можно меньше изменить существующий код, а не рефакторинг всей программы. Возможна ли эта идея или есть некоторые документы, которые подробно излагают эту тему?

Обновить

Кажется, что две привязки к HPC в Голанге:

  • CUDA (<6.0): github.com/barnex/cuda5
  • OpenCL: github.com/rainliu/gocl

Оба они менее документированы, в настоящее время я получил только ответ Macro13, очень полезный, но больше о java. Поэтому, пожалуйста, помогите мне в некоторых подробных материалах в Голанге. Благодарю!