x-jeff blog

Make progress every day.

【CUDA编程】【28】【6.C++ Language Extensions】【Part3】

Load Functions Using Cache Hints,Store Functions Using Cache Hints,Time Function,Atomic Functions,Address Space Predicate Functions

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Load Functions Using Cache Hints 这些加载函数仅支持计算能力在5.0及以上的device。 1 2 3 4 5 T __ldcg(const T* address)...

【CUDA编程】【27】【6.C++ Language Extensions】【Part2】

Synchronization Functions,Texture Functions,Surface Functions,Read-Only Data Cache Load Function

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Synchronization Functions 1 void __syncthreads(); __syncthreads()会等待线程块中的所有线程到达这个同步点。__syncthread...

【CUDA编程】【26】【6.C++ Language Extensions】【Part1】

Function Execution Space Specifiers,Variable Memory Space Specifiers,Built-in Vector Types,Built-in Variables,Memory Fence Functions

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Function Execution Space Specifiers 函数执行空间限定符用于定义一个函数是运行在host上还是device上,以及是否可以从host或device调用。 1.1....

【CUDA编程】【25】【5.Performance Guidelines】

Overall Performance Optimization Strategies,Maximize Utilization,Maximize Memory Throughput,Maximize Instruction Throughput,Minimize Memory Thrashing

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Overall Performance Optimization Strategies 性能优化围绕四个基本策略展开: 最大化并行执行以实现最大利用率。 优化内存使用以实现最大内存吞吐量...

【C++并发编程】【5】【Managing threads】Basic thread management

join(),detach(),joinable()

【C++并发编程】系列博客为参考《C++ Concurrency IN ACTION (SECOND EDITION)》一书,自己所做的读书笔记。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Basic thread management 每个C++程序至少有一个线程:即运行main()的线程。我们的程序随后可以启动其他线程,这些线程以另一个函数作为入口点。所有...

【机器学习基础】第五十六课:[半监督学习]未标记样本

主动学习,纯半监督学习,直推学习

【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.未标记样本 我们有训练样本集$D_l = \{ (\mathbf{x}_1,y_1), (\mathbf{x}_2,y_2),…,(\mathbf{x}_l,y_l) \}$,这$l$个样本的类别标记(即是否好瓜)已知,称为“有标记”(l...

【CUDA编程】【24】【4.Hardware Implementation】

SIMT Architecture,Hardware Multithreading

【CUDA编程】系列博客参考NVIDIA官方文档“CUDA C++ Programming Guide(v12.6)”。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Hardware Implementation NVIDIA GPU架构围绕可扩展的多线程SM构建。GPU会将线程块动态分配到具有可用执行能力的SM上。一个SM可以同时处理一个或多个线程块内的线程,...

【论文阅读】MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications

MobileNet,Depthwise Separable Convolution

本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Introduction 本文提出了一个高效的网络框架和两个超参数,用于构建非常小且低延迟的模型,这些模型可以轻松匹配移动端和嵌入式视觉应用的设计需求。 2.Prior Work 不再详述。 3.MobileNet Architecture 3.1.Depthwise Separable Convoluti...

【C++并发编程】【4】【Hello, world of concurrency in C++!】Getting started

thread,std::thread,join()

【C++并发编程】系列博客为参考《C++ Concurrency IN ACTION (SECOND EDITION)》一书,自己所做的读书笔记。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.Getting started 一个多线程C++程序和其他普通C++程序唯一的区别在于,有些函数可能会并发运行,因此我们需要确保共享数据在并发访问时是安全的。 2.Hel...

【机器学习基础】第五十五课:[计算学习理论]稳定性

算法稳定性

【机器学习基础】系列博客为参考周志华老师的《机器学习》一书,自己所做的读书笔记。 本文为原创文章,未经本人允许,禁止转载。转载请注明出处。 1.稳定性 无论是基于VC维还是Rademacher复杂度来推导泛化误差界,所得到的结果均与具体学习算法无关,对所有学习算法都适用。这使得人们能够脱离具体学习算法的设计来考虑学习问题本身的性质,但在另一方面,若希望获得与算法有关的分析结果,则...