图像检索技术是一种通过对比和搜索相似图像,以找到特定图像的技术。这项技术在许多领域都有着重要的应用价值,在大量图像数据中快速准确地找到所需信息,能够节省人力和时间。图像检索在安全监控、方位识别、在线购物平台、医疗辅助影响、教育和科研、社交媒体、搜索引擎等领域中都有所涉及。图像检索技术正在越来越多地被应用于我们日常生活中,并且随着AI及深度学习等先进科技的发展, 它将会有更广泛而深远的影响。
定义
图像检索可以定义为,输入一张查询(query)图像,在图像数据库中,搜索相似内容的图像。基于查询方式的不同,目前可分为两种不同的检索策略,一是基于文本的图像检索(Text Based Image , TBIR),二是基于内容的图像检索( Based Image , CBIR)。
TBIR主要在早期的图像检索比较流行,通过对每张图像生成关键词,再利用关键词对对应图像生成标签,在具体搜索过程中,用户通过查询关键词来搜索图像,这就有点像我们平时在需要找一些图像的时候,打开百度输入关键词后,会出现关键词对应的图像。TBIR的优点在于易于实现,一对多,缺点在于标注不方便、费时费力,同时由于某些主观因素(如标注者精神状况、知识水平、言语使用等)可能出现标注不完整或标错等情况。
CBIR是近些年流行的方法,简单来说就是以图搜图。查询图像经过预处理后,将图像进行特征提取和融合,在数据库中搜索相似的特征,得到对应的结果图。如下图所示,核心在于特征提取融合和相似性搜索两个部分。
在CBIR的特征提取部分,可以采用传统底层特征或机器学习的高级语义特征。特征可以进一步细分,如下所示。
- 传统底层特征
- 全局特征
- 颜色特征
- 纹理特征
- 指纹特征
- 形状特征
- 空间信息特征
- 局部特征
- 关键点
- 角点
- 二进制字符串特征描述子
- 机器学习提取高级语义特征
评价方法
召回率(R)、精确率(P)、综合评价(F-score)和均值平均精度(mAP)是图像检索常用的评价方法,其中召回R公式如下:
其中T表示返回正确检索图像的样本数量,V表示未返回与检索图像相关的样本数量。
精确率公式如下:
其中,U表示检索返回与查询样本不相关的图像。
F-score公式如下:
其中,β未调整参数,一般β取1,表示P和R同等重要,β越大,代表召回越重要,否则代表精确率越重要。
当给定一个查询q和top-K检索到数据的情况下,AP公式如下:
其中,k表示检索返回的第k个数据,P(k)表示返回前k个检索数据时的精确率,N表示数据库中当前查询图像q的相关图像数量。若第k个检索返回的数据与查询q相关,则α(k) =1,否则α(k)=0。
mAP是所有查询数据的AP的平均值,计算如下:
其中,Q表示查询样本总数。相较于上述各种评价指标,mAP在衡量算法的检索能力时能反映全局性能。
常见图像检索数据集
数据集名称 | 年份 | 类别数 | 图像数量 | 介绍 | 应用场景 |
CIFAR-10 | 2009 | 10 | 60000 | 图片分类数据集 | 综合 |
| 2009 | 21 | 269648 | 多标签分类数据集 | 综合 |
MS-COCO | 2014 | 80 | 123287 | 目标检测数据集 | 多模态检索 |
Flickr30k | 2014 | - | 31783 | 图像标注数据集 | 多模态检索 |
Caltech256 | 2007 | 256 | 30607 | 物体识别数据集 | 综合 |
Google Landmarks v2 | 2019 | 203 094 | 5000000 | 地标性数据集 | 综合 |
XMarke | 2021 | 5471 | 180094 | 电商产品数据集 | 类别级检索 |
CUB200-2011 | 2011 | 200 | 11788 | 鸟类细粒度数据集 | 类别级/细粒度检索 |
Aircraft | 2013 | 102 | 10200 | 飞机细粒度数据集 | 细粒度检索 |
Paris-6k | 2008 | 12 | 6412 | 地标建筑数据集 | 实例级检索 |
Oxford5k | 2007 | 11 | 5062 | 地标建筑数据集 | 实例级检索 |
UKBench | 2006 | 2550 | 10200 | 目标对象数据集 | 实例级检索 |
Holidays | 2008 | 500 | 1491 | 自然图像数据集 | 实例级检索 |
Sketchy | 2016 | 125 | 87971 | 草图图像数据集 | 草图检索 |
| 2019 | 3 | 77683 | 交互式数据集 | 交互式检索 |
方法
01
传统低层特征
一般可分为全局特征和局部特征, 全局特征和局部特征的区别主要在于提取特征的范围和粒度不一 。全局特征是将 整个图像 作为一个整体来提取特征,通常包括图像的颜色、纹理、形状等信息。全局特征的优点是提取速度快,适用于大规模图像检索。常见的全局特征包括颜色、纹理、指纹、形状、空间信息特征等。局部特征是将 图像分成若干个局部区域 ,针对每个局部区域提取特征,然后将所有局部特征组合成一个特征向量。局部特征的优点是具有较好的比例、旋转不变性和鲁棒性,可以有效地描述图像的局部纹理和形状信息。常见的局部特征包括SIFT特征、SURF特征、ORB特征等。
全局特征
在早期CBIR研究中,使用全局特征能带来良好的准确性,但该特征容易受到光照、旋转、噪声、遮挡等环境干扰,影响全局特征提取准确率,并且各特征计算量较大。
- ⭐颜色特征
可根据颜色空间计算颜色特征,常用的颜色空间包括RGB、HSV、YCbCr、LAB和YUV,这些颜色空间可以使用颜色直方图、颜色集、颜色矩、颜色聚合向量、颜色相关图等描述符表示。颜色特征的优势在于其不受平移旋转的影响,对归一化有较高鲁棒性,能够更好表征特征。
- ⭐纹理特征
纹理特征是图像的关键特征之一。纹理用于识别图像中感兴趣区域或物体,可根据灰度空间相关性计算纹理特征,基于纹理的图像检索缺点在于计算复杂度高、噪声敏感较高。经典方法包括:图像统计特征提取方法提取灰度共生矩阵( ,GLCM),Gabor滤波器、、棋盘格特征法、结构法、马尔可夫随机场( field,MRF)模型法、边缘直方图描述符(EHD)、离散小波变换(DWT)等
- ⭐指纹特征
指纹特征通常使用局部二值模式(Local Binary Pattern,LBP)算法来提取,LBP算法将每个像素与其周围的像素进行比较,根据比较结果生成一个二进制编码,用于描述该像素的纹理特征。然后,将所有像素的LBP编码组合成一个特征向量,作为图像的指纹特征。指纹特征具有以下特点:1. 不受图像旋转、缩放和平移的影响,具有较好的不变性。2. 可以有效地描述图像的纹理特征,适用于图像检索和匹配任务。3. 提取速度较快,适用于大规模图像检索。指纹特征在图像检索和匹配中得到了广泛的应用,例如在安全监控、图像搜索和生物识别等领域。
- ⭐形状特征
形状是标识图像的低层特征之一,基于形状特征的检索方法可有效 利用图像感兴趣的目标 进行检索。一般情况下形状描述符会随图像比例与平移发生变化,因此通常与其他描述符合并使用来提高图像检索准确性。其中,典型的形状特征描述方法包括 边界特征法、傅里叶形状描述符法、几何参数法和形状不变矩法 等。
- ⭐空间信息特征
空间关系可加强图像内容的描述区分能力,但对旋转、尺度变化等较为敏感,因此通常与其他描述符合并使用来提高图像检索准确性。可采用空间金字塔匹配、局部视觉直方图和全局视觉直方图连接等方法。
局部特征
局部特征只需要计算图像的局部特征,相比全局特征具有计算效率高、鲁棒性强、可扩展性好、对更复杂场景更优的特点。
⭐SIFT (Scale-Invariant Feature Tranform), 尺度不变特征变换。
SIFT是一种可以在图像中检测关键点的局部描述子。其具有平移、选择、缩放、光照等不变性,但高度依赖局部像素梯度,如果区域的选择不适,则很容易出现检索出错的问题,同时其还具有高维特征的特点,内存占用较高(可考虑聚类PCA降维等)。
⭐SURF ( Up ),加速鲁棒特征
SURF是一种计算机视觉中常用的局部特征提取算法,由Herbert Bay等人于2006年提出。SURF特征是一种基于尺度不变性的特征,可以在不同尺度、旋转、平移、光照等变换下保持不变性,克服了SIFT 的高维限制,计算、比较速度相较于SIFT更快。
⭐Harris特征
Harris特征是一种计算机视觉中常用的局部特征提取算法,由Chris Harris和Mike Stephens于1988年提出。Harris特征是一种基于角点检测的特征,可以在不同尺度、旋转、平移等变换下保持不变性,主要依靠梯度、滑动窗进行角点特征的提取,但成本较高。
⭐FAST特征
FAST( from Test)特征是一种计算机视觉中常用的局部特征提取算法,由 和Tom 于2006年提出。FAST特征是一种基于角点检测的特征,可以在不同尺度、旋转、平移等变换下保持不变性,在计算成本上低于特征。
⭐二进制特征描述子
二进制特征描述子是对特征进行二值码处理后的描述,通过使用汉明距离计算距离的方式来进行特征匹配,BRIEF是对SIFT特征二值码处理的方法、BRISK(Binary Robust Invariant Scalable Keypoints)是对关键点检测描述二值码处理的方法、ORB(Oriented FAST Rotated and BRIEF )是对FAST特征二值码处理的方法、FREAK(Fast Retina Key‐Point)是一种快速视网膜检测的方法。
02
机器学习方法
无监督学习
在CBIR系统中,常用的无监督方法是聚类(例如)和降维(例如主成分分析PCA),聚类是按照相似度将不同图像描述符聚类成相同几组,算法的局限性在于需要指定初始聚类数量,并且初始质心选择也会影响聚类算法性能,此外,无法处理离群点和噪声数据。降维是将高维特征降维为低维特征,保留有效特征,提高计算效率。等提出一种基于PCA特征降维技术的CBIR系统,以计算成本换取检索精度,实验表明在允许平均精度值减少5%的情况下可实现特征向量维数减少80%,但继续增加特征向量维数减少百分比会导致检索结果变差。
监督学习
相比无监督学习,监督学习自有图像的标签信息,学习模型最优参数。常见的监督学习方法包括有支持向量机SVM( )、人工神经网络ANN( )等。
深度学习
深度学习是机器学习技术中的一种,包含监督和无监督学习方法,其可以用在图像识别、机器翻译、语音识别等领域。目前在图像检索领域,存在AlexNet、VGG、GoogleNet、ResNet、MobileNet、EfficientNet等网络。
基于深度学习的特征提取主要是从各深度网络模型的全连接层或卷积层中进行,既可提取全连接层的全局特征,也可提取卷积层的局部特征,还可两种方式相互结合。具体的,特征的融合方式包括层级别和模型级别。
在特征选择上,可以选择卷积提取的局部细节特征和全连接提取的全局特征,一般的操作,是将全连接提取后的特征,使用PCA降维和标准化后,进行图像间的相似性度量。但全连接层特征会影响检索的精度,其包含图像的不相关信息、缺乏局部不变性,相关研究者后面又从卷积特征入手,发现卷积特征得到的细节特征检索效果要比全连接层的全局特征更优。标准的卷积神经网络,使用平均池化、最大池化方法来聚合特征,此外也可以使用R-MAC、SPoC、CroW、SCDA和GeM等池化方法。
在特征融合上,可以结合不同特征的优势,形成优势互补。可以融合不同层的CNN特征、融合不同层的全局特征、拼接不同模型特征、融合深度和浅层特征等方法。
依据不同数据集图像的应用领域,在基于深度学习的图像检索应用中,从不同检索类型进行以下总结:
总结
数据是生产力的根本,针对特定检索任务需要特定领域数据集进行训练,对于各类型数据集的引入便成为研究者们的迫切需求。现阶段CBIR方法侧重于静态数据集,无法适用于增量场景。随着新数据增加,如何对训练好的系统进行改动以学习新数据中蕴含的知识是一个值得考虑的问题。
参考论文
杨慧,施水才.基于内容的图像检索技术研究综述[J].软件导刊,2023,22(04):229-244.
作者: 徐源
来源:微信公众号: 好未来技术
出处:https://mp..qq.com/s/fA