南极Python

发表于2024-12-07|深度学习笔记

扩散模型问世至今，因其训练过程的稳定性和生成样本的多样性，受到了广泛的关注和应用，相应的开源社区贡献的工具链也趋向于更易用，HuggingFace的diffusers库便是其中之一。 diffusers提供了非常简洁和直观的API接口，能够让研究人员和开发者快速实现扩散模型的训练和推理。即便是对扩散模型不太熟悉的用户，也能通过少量的代码实现高效的图像生成任务。本文基于diffusers，包含如下内容： 1.通过一个简易demo来直观感受使用diffusers中的快速生图的方法 2.使用smithsonian_butterflies_subset数据集，通过diffusers来搭建一个完整的图像生成小项目，包括数据集准备、模型训练、模型推理等步骤 3.介绍如何基于已有的预训练权重，通过微调和引导技术，来控制生成图片整体的细节走向，如颜色偏好，内容偏好等 4.介绍火出圈的StableDiffusion 5.介绍DDIM反转，用于控制图像的局部区域生成细节走向，该技术极大地提高了扩散模型的可玩性零. 准备工具函数首先，导入常用的库，并编写后续将被重复使用的工具函数，用于图像可视化。 12 ...

使用原生TensortRT-API加速推理

发表于2024-10-27|深度学习笔记

Polygraphy 是构建在 TensorRT API 之上的高级工具，简化了一些常见的操作，特别是模型转换、性能分析和调试。Polygraphy 提供了更高层次的抽象，使得许多复杂的操作更加简便和自动化。在上一篇文章中，我们已经基于Polygraphy实现了对于PyTorch模型–>TensorRT的推理加速。然而，原生的TensorRT API提供了更低层的 API，允许用户对引擎的每一步（包括构建、优化、推理）进行更细致的控制。因此，本文将使用原生的TensorRT API，重新梳理将PyTorch模型转换为TensorRT的详细步骤。本文目标基于官方的demo，将FC-ResNet101的PyTorch模型转换为TensorRT 的engine，演示如何使用原生TensorRT API而非Polygraphy实现PyTorch模型的推理加速。操作步骤step1. 环境搭建在上一篇环境搭建的基础上，需要额外安装pycuda工具包： 1pip install pycuda step2. 执行转换step2.1 定义模型123456789101112131415161 ...

PyTorch转TensorRT-engine保姆级教程

发表于2024-10-25|深度学习笔记

torch2onnx2trt使用指南-详细版本在模型训练完成后，所得到的权重往往存在一定的冗余，在基于该权重进行推理时，会消耗一部分时间来执行这些冗余部分的前向传播过程。通过一些技术手段来减少这些冗余，往往可以在保证推理结果准确性的基础上获得一定程度的推理效率提升。 TensorRT 是 NVIDIA 开发的高性能深度学习推理优化器，专为加速神经网络推理而设计。使用TensorRT ，能够将模型权重转换为高效的推理引擎，显著提升推理速度和降低延迟，适用于各种深度学习应用。以下是我在RTX3060显卡上使用TensorRT前后测试的单模型推理时间结果：模型格式前向推理时间(单位：s) PyTorch 51s ONNX 44s TensorRT Engine(FP32) 35s TensorRT Engine(FP16) 15s 可以看到，借助TensorRT，在保持模型全精度(FP32)的前提下，前向推理时间降低为原来的32%，加速比为145%；如果进一步开启半精度(FP16)，前向推理时间可以降低为原来的70%，加速比达到了340%。本文目标将训练 ...

如何监控模型推理时的系统状态信息

发表于2024-09-03|深度学习笔记

在使用训练好的深度学习模型进行推理时，为了了解推理过程中所使用的系统资源信息，如CPU利用率、GPU利用率等，往往需要一个监控工具。对于CPU利用率，可以使用psutil库获取： 1psutil.cpu_percent(interval=1, percpu=False) 封装成函数： 12345678def get_cpu_utilization(): try: cpu_utilization = psutil.cpu_percent(interval=1, percpu=False) return cpu_utilization except Exception as e: print(f"Error while fetching CPU utilization: {e}") return [] 对于GPU利用率，可以使用命令行工具 nvidia-smi获取，封装成函数： 12345678910def get_gpu_utilization(): try: ...

Transformer的Decoder在训练和推理阶段的异同点总结

发表于2024-06-01|深度学习笔记

在训练阶段，decoder的输入是(seq_length,)的目标序列，也就是训练数据集中的GT，经过OutputEmbedding层和PositionalEmbedding层得到(seq_length,model_dim)的序列。接下来这个序列会经过一个MHA层，对应的q、k和v都是刚才得到的序列本身，此时如果直接计算注意力，那么序列中每一个词既能看到它前面的词的信息，又能看到它后面的词的信息，这样容易导致模型就不学习了，因为在推理阶段，模型是一个词一个词的采用一种自回归方式进行预测的，如果训练时模型已经看到了其所在序列位置后面的词的信息，那么直接读取这些词就好了，无需学习。因此，需要对q和k计算得到的attention map添加一个mask操作，以保证序列中的每一个词只能看到位于其前面的词的信息。在走完第一个MHA层之后，还有第二个MHA层，只不过，这里的k和v来自encoder的输出，q来自decoder刚刚上一个MHA层的输出，而计算attention map是q和k的事，k又是一个全局的encoder的输出，q序列的每一个位置的token都可以访问它，不需要担心未来 ...

Python-Flask快速上手

发表于2024-05-04|神奇的Python

在训练好深度学习模型后，可以使用Python的Flask框架快速搭建一个服务，用于模型效果的展示最近遇到了这个需求，于是在网络上找到了一些资料(主要参考了台大-彭老师的视频)，对Flask的基础内容进行了整理总结成此文下面正文开始 1. URL的组成与运作方式组成通讯协议：//主机名称:端口号/路径?要求字串比如： https：//www.google.com/search?q=test 其中的“要求字串”允许省略，上述例子中的“端口号”省略不写，实际上使用的是默认值通讯协议：通过后端以及网络环境决定使用http或https 主机名称：购买域名，设定dns记录，应用AWS云端服务决定主机名称端口号：通过后端程序或设定档决定路径：通过后端程序或设定档决定要求字串：通过后端程序决定运作方式浏览器前端根据通讯协议，主机名称、端口号连接到网络上的服务器，服务器根据路径，要求字串决定要采取的动作，并回传给前端 2. 路由基础基本路由决定后端程序要支援的路径比如 123@app.route("/data"):def getDa ...

图像配准小结

发表于2024-01-07|深度学习笔记

更好的阅读体验，请移步微信公众号： https://mp.weixin.qq.com/s?__biz=MzU0NzQwMzU1Mw==&mid=2247488765&idx=1&sn=0e7010528fad44ea9fb8cf11493e99da&chksm=fb4fb6b3cc383fa56479dae2e495e80237295356fdd53f16b412d223051bab09e91b394a369f&token=654252831&lang=zh_CN#rd 前置基础：三种图像变换刚体变换刚体变换包括平移和旋转操作，而不会产生形变。假设某个像素点坐标为$(x,y)$，将其分别在x和y方向上平移了$t_x$和$t_y$，并且绕原点逆时针旋转了$\theta$度，变换后的像素点坐标记作$(x’,y’)$，对应的刚体变换可以用矩阵表示如下：$$p’=M p$$ 其中，[p=\begin{bmatrix} x \ y \ 1\end{bmatrix}] [p’=\begin{bmat ...

将SAM编码器迁移到自定义分割子任务中

发表于2023-10-25|深度学习笔记

Segment Anything Model(SAM)是META在今年发布的通用分割大模型。鉴于ChatGPT可以将自然语言等形式的信息作为提示(prompt)输入到模型中，SAM将这一思想应用到了计算机视觉领域的语义分割任务中。具体来说，在以前的语义分割方法中，网络的输入通常是待分割的图像，因而网络通常是一个由图像编码器和图像解码器组成的Encoder-Decoder架构，而在SAM中，多了一个提示编码器，可以将额外的提示信息也输入到网络中，同时依托强大的数据引擎生成大量数据集进行训练，使得网络能够对任一图像中可能的目标进行分割。既然SAM是在海量数据上训练得到的，那么根据以往的迁移学习思路，我们可以将其预训练权重迁移到自己的任务中。首先看一下SAM的网络结构：其中： image encoder: 一个图像编码器，用于提取输入图像的特征，SAM中使用的是ViT； prompt encoder: 一个提示编码器，用于将输入的提示信息进行编码，这里的提示有多种形式，可以是文字(text)，可以是边界框(boxes)，可以是点(points)，还可以是masks，当然也可以同 ...

ViT预训练权重迁移-实现任意尺寸输入

发表于2023-09-27|深度学习笔记

在将基于transformer的视觉模型(比如 ViT, Swin Transformer等)迁移到自己的数据集上进行微调时，往往需要使得自己的数据集中图像尺寸和这些模型的输入图像尺寸一致，这些模型常见的输入尺寸为224x224,284x284,768x768等。然而，如果自己的数据集中图像尺寸比较大，比如1024x1024，直接resize为224x224等低分辨率图像会造成信息损失。能不能在迁移预训练权重的同时，使得模型能够适应任意尺寸的输入呢？可以。接下来以ViT为例，首先通过实验探究一下出现这种限制的原因，然后给出解决方案。 ViT模型定义如下: 12345678model=VisionTransformer( image_size=[224,224],# 预训练模型的输入图像尺寸 patch_size=16, n_layers=1, d_model=768,# token 维度 d_ff=2, n_heads=8, n_cls=99,).cuda() 假设这个ViT已经在大规模数据集上完成了训练，并且训练时的输入图像尺寸为224 ...

如何将PyTorch权重转换成TensorRT的engine

发表于2023-09-02|深度学习笔记

假设你已经训练好了一个基于PyTorch的神经网络模型MyModel，本文将一步一步演示如何将其转换到TensorRT的engine格式，实现高性能模型推理。代码复制可用，建议收藏~ 1. 加载模型权重直接加载训练好的PyTorch权重即可： 12model=MyModel(in_channel=3,out_channel=1)model.load_state_dict(torch.load('my_model.pth')) 2. PyTorch权重转换到ONNXPyTorch本身已经提供了转换接口torch.onnx.export，所以转换起来也很容易： 12345model.cuda()model.eval()dummy_input = torch.randn(1,3, 512,512).cuda()torch.onnx.export(model, dummy_input, "onnx.onnx", opset_version=11,input_names = ['input'],output_names = [&#x ...