welcome to x-jeff blog

【CUDA编程】【29】【6.C++ Language Extensions】【Part4】

Address Space Conversion Functions，Alloca Function，Compiler Optimization Hint Functions，Warp Vote Functions，Warp Match Functions

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide（v12.6）”。本文为原创文章，未经本人允许，禁止转载。转载请注明出处。 1.Address Space Conversion Functions 本部分都是用于地址空间转换的函数。一些预备知识点： CUDA编程中，通用地址是一种抽象的地址形式，可能指向device内...

Posted by x-jeff on January 23, 2025

【CUDA编程】【28】【6.C++ Language Extensions】【Part3】

Load Functions Using Cache Hints，Store Functions Using Cache Hints，Time Function，Atomic Functions，Address Space Predicate Functions

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide（v12.6）”。本文为原创文章，未经本人允许，禁止转载。转载请注明出处。 1.Load Functions Using Cache Hints 这些加载函数仅支持计算能力在5.0及以上的device。 1 2 3 4 5 T __ldcg(const T* address)...

Posted by x-jeff on January 17, 2025

【CUDA编程】【27】【6.C++ Language Extensions】【Part2】

Synchronization Functions，Texture Functions，Surface Functions，Read-Only Data Cache Load Function

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide（v12.6）”。本文为原创文章，未经本人允许，禁止转载。转载请注明出处。 1.Synchronization Functions 1 void __syncthreads(); __syncthreads()会等待线程块中的所有线程到达这个同步点。__syncthread...

Posted by x-jeff on January 16, 2025

【CUDA编程】【26】【6.C++ Language Extensions】【Part1】

Function Execution Space Specifiers，Variable Memory Space Specifiers，Built-in Vector Types，Built-in Variables，Memory Fence Functions

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide（v12.6）”。本文为原创文章，未经本人允许，禁止转载。转载请注明出处。 1.Function Execution Space Specifiers 函数执行空间限定符用于定义一个函数是运行在host上还是device上，以及是否可以从host或device调用。 1.1....

Posted by x-jeff on January 14, 2025

【论文阅读】MobileNetV2：Inverted Residuals and Linear Bottlenecks

MobileNetV2，Linear Bottlenecks，Inverted residuals

本文为原创文章，未经本人允许，禁止转载。转载请注明出处。 1.Introduction 本文提出了一种专为移动端和资源受限环境设计的新型神经网络架构。 2.Related Work 我们的网络设计基于MobileNetV1，保留了其简单性，无需特殊算子，同时显著提升了精度，并在多个移动端的图像分类和检测任务中达到了SOTA的水平。 3.Preliminaries, disc...

Posted by x-jeff on January 11, 2025

【CUDA编程】【25】【5.Performance Guidelines】

Overall Performance Optimization Strategies，Maximize Utilization，Maximize Memory Throughput，Maximize Instruction Throughput，Minimize Memory Thrashing

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide（v12.6）”。本文为原创文章，未经本人允许，禁止转载。转载请注明出处。 1.Overall Performance Optimization Strategies 性能优化围绕四个基本策略展开：最大化并行执行以实现最大利用率。优化内存使用以实现最大内存吞吐量...

Posted by x-jeff on January 9, 2025

【C++并发编程】【5】【Managing threads】Basic thread management

join()，detach()，joinable()

【C++并发编程】系列博客为参考《C++ Concurrency IN ACTION (SECOND EDITION)》一书，自己所做的读书笔记。本文为原创文章，未经本人允许，禁止转载。转载请注明出处。 1.Basic thread management 每个C++程序至少有一个线程：即运行main()的线程。我们的程序随后可以启动其他线程，这些线程以另一个函数作为入口点。所有...

Posted by x-jeff on January 1, 2025

【机器学习基础】第五十六课：[半监督学习]未标记样本

主动学习，纯半监督学习，直推学习

【机器学习基础】系列博客为参考周志华老师的《机器学习》一书，自己所做的读书笔记。本文为原创文章，未经本人允许，禁止转载。转载请注明出处。 1.未标记样本我们有训练样本集$D_l = \{ (\mathbf{x}_1,y_1), (\mathbf{x}_2,y_2),…,(\mathbf{x}_l,y_l) \}$，这$l$个样本的类别标记（即是否好瓜）已知，称为“有标记”（l...

Posted by x-jeff on December 28, 2024

【CUDA编程】【24】【4.Hardware Implementation】

SIMT Architecture，Hardware Multithreading

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide（v12.6）”。本文为原创文章，未经本人允许，禁止转载。转载请注明出处。 1.Hardware Implementation NVIDIA GPU架构围绕可扩展的多线程SM构建。GPU会将线程块动态分配到具有可用执行能力的SM上。一个SM可以同时处理一个或多个线程块内的线程，...

Posted by x-jeff on December 26, 2024

【论文阅读】MobileNets：Efficient Convolutional Neural Networks for Mobile Vision Applications

MobileNet，Depthwise Separable Convolution

本文为原创文章，未经本人允许，禁止转载。转载请注明出处。 1.Introduction 本文提出了一个高效的网络框架和两个超参数，用于构建非常小且低延迟的模型，这些模型可以轻松匹配移动端和嵌入式视觉应用的设计需求。 2.Prior Work 不再详述。 3.MobileNet Architecture 3.1.Depthwise Separable Convoluti...

Posted by x-jeff on December 25, 2024

x-jeff blog