x-jeff blog

Make progress every day.

【CUDA编程】【24】【4.Hardware Implementation】

SIMT Architecture,Hardware Multithreading

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Hardware Implementation NVIDIA GPU架构围绕可扩展的多线程SM构建。GPU会将线程块动态分配到具有可用执行能力的SM上。一个SM可以同时处理一个或多个线程块内的线程,...

【论文阅读】MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications

MobileNet,Depthwise Separable Convolution

本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Introduction 本文提出了一个高效的网络框架和两个超参数,用于构建非常小且低延迟的模型,这些模型可以轻松匹配移动端和嵌入式视觉应用的设计需求。 2.Prior Work 不再详述。 3.MobileNet Architecture 3.1.Depthwise Separable Convoluti...

【C++并发编程】【4】【Hello, world of concurrency in C++!】Getting started

thread,std::thread,join()

【C++并发编程】系列博客为参考《C++ Concurrency IN ACTION (SECOND EDITION)》一书,自己所做的读书笔记。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Getting started 一个多线程C++程序和其他普通C++程序唯一的区别在于,有些函数可能会并发运行,因此我们需要确保共享数据在并发访问时是安全的。 2.Hel...

【机器学习基础】第五十五课:[计算学习理论]稳定性

算法稳定性

【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.稳定性 无论是基于VC维还是Rademacher复杂度来推导泛化误差界,所得到的结果均与具体学习算法无关,对所有学习算法都适用。这使得人们能够脱离具体学习算法的设计来考虑学习问题本身的性质,但在另一方面,若希望获得与算法有关的分析结果,则...

【论文阅读】EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks

EfficientNet

本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Introduction 源码地址:EfficientNet。 扩展(scaling up)卷积神经网络被广泛用于提高模型性能。最常见的扩展方法是增加卷积神经网络的深度和宽度。还有一种少见但日益流行的方法是通过提高图像分辨率来扩展模型。在以往的研究中,通常只采用3种扩展方法中的一种即可,同时使用多种扩展方法反...

【CUDA编程】【23】【3.Programming Interface】【3.6.Tesla Compute Cluster Mode for Windows】

TCC mode

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Tesla Compute Cluster Mode for Windows 使用nvidia-smi,可以将Windows设备驱动程序设置为TCC(Tesla Compute Cluster)模式...

【CUDA编程】【22】【3.Programming Interface】【3.5.Mode Switches】

Mode Switches,primary surface

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Mode Switches 具有显示输出的GPU会为所谓的primary surface分配一些DRAM内存,这个primary surface用于刷新显示设备的输出内容。当用户使用NVIDIA控制...

【CUDA编程】【21】【3.Programming Interface】【3.4.Compute Modes】

Default compute mode,Exclusive-process compute mode,Prohibited compute mode

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Compute Modes 在Windows Server 2008(及更高版本)或Linux上,可以通过nvidia-smi(NVIDIA’s System Management Interfac...

【CUDA编程】【20】【3.Programming Interface】【3.3.Versioning and Compatibility】

Versioning and Compatibility

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Versioning and Compatibility 在开发CUDA应用程序时,开发人员需要关注两个版本号:1)device的计算能力(见:Compute Capability);2)CUDA驱...

【CUDA编程】【19】【3.Programming Interface】【3.2.CUDA Runtime】【3.2.16.External Resource Interoperability】

Vulkan Interoperability,OpenGL Interoperability,Direct3D 12 Interoperability,Direct3D 11 Interoperability,NVIDIA Software Communication Interface Interoperability (NVSCI)

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.External Resource Interoperability 外部资源互操作性允许CUDA导入由其他API显式导出的特定资源。这些对象通常通过操作系统的原生句柄由其他API导出,例如Linu...