读论文,手写笔记
(及时更新……)
论文笔记,万丈高楼平地起,研一下开始至今重点知识、部分论文精度笔记!
开始准备写这个的时候,是由于从小习惯了手写笔记对看pdf时做电子标注笔记还是不太习惯,所以还是将pdf打印下来用手写笔记,方便保存便将其电子档存在markdown上随时浏览。
ResNet到底解决了一个什么问题?
评价指标
1.dice系数
2.什么是TP、FP、TN、FN和IOU
3.几种像素精确度的相关计算公式如下图所示:
Ablation study消融研究
Unet
参考一篇博文,很详细
Unet详解
经典网络结构图:
1.主干特征提取网络:主干网络
Unet的主干特征提取部分由卷积+最大池化组成,整体结构与VGG类似。
本文所采用的主干特征提取网络为VGG16,这样也方便使用imagnet上的预训练权重。
VGG是由Simonyan 和Zisserman在文献《Very Deep Convolutional Networks for Large Scale Image Recognition》中提出卷积神经网络模型,其名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)的缩写。
该模型参加2014年的 ImageNet图像分类与定位挑战赛,取得了优异成绩:在分类任务上排名第二,在定位任务上排名第一。
它的结构如下图所示:
2.加强特征提取网络:加强特征提取结构
3.预测网络:利用特征获得预测结果
Attention Augmented Convolutional Networks
注意力增强卷积网络,是将注意力机制引入卷积神经网络中的一次尝试。
Embrace Transformer in CV
reasons for embrace transformer link
由于开始写的时候正好才推开vision transformer的大门,所以要想了解transformer,不得不从他的开山之作也就是大名鼎鼎的attention is all you need看起。
Attention is all you need(transformer)
关于注意力计算可以参考这个博文
台达李宏毅教授讲transformer,个人觉得很详细
下面用一张图来详细描述下 Multi-Head Attention 的整个过程
ViT(vision transformer的开山之作)
an_image_is_worth_16x16_words_transformers_for_image_recognition_at_scale
1.补充
这里补充后面看到一篇推文,讲述了VIT和resnet处理图像的原理是否一致,个人认为看完挺豁然开朗的,值得拜读,如果想了解更深入的,值得下载原文
VIT和ResNet处理图像的原理是否一致?
论文链接:Do Vision Transformers See Like Convolutional Neural Networks?
2.正文
Swin-Transformer
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Swin-Unet
Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation
UTNet
UTNet: A Hybrid Transformer Architecture for
Medical Image Segmentation
Conformer
做目标检测和实体分割
Conformer Local Features Coupling Global Representations for Visual Recognition
Medical Transformer
Medical Transformer: Gated Axial-Attention for Medical Image Segmentation