发帖时间:2015-09-28 12:12 作者:数学论文网
?
在医学图像检索领域,医学图像的语义标注常常利用已有的先验医学知识完成的。现有的研究也都是针对某一特定的身体部位或器官进行的,使用的医学知识也仅仅是与这一部位或器官相关的,这样建立起的语义映射机制具有极大的局限性。从一个实用性来看,更加希望能够最大效率地利用已有的知识和先验信息,克服这种只针对某一领域数据有效的局限性,要在有限的知识和先验信息中挖掘出更多的可以利用的信息,提高学习效率。因此,本文将迁移学习理论引入到医学图像的语义映射。
迁移学习源于 20 世纪 90 年代,是指在不同任务或领域知识间进行迁移和转化的能力。确切地说,迁移学习是指一种学习对另一种学习的影响,或一种学习的经验对完成其他任务的影响。迁移学习的概念提出后受到学者们的关注,并且有些研究成果已经应用到了实际问题中,如文本分类、文本数据挖掘和命名实体识别等。
移学习可根据具体实现方法分为以下 4 类:实例迁移、特征迁移、参数迁移以及知识迁移。本文主要涉及实例迁移和特征迁移 2 种。融合实例迁移和特征迁移学习各自的优点,提出一种混合迁移学习方法,具体地,将实例迁移引入到多任务稀疏特征学习方法中,并将其应用到医学图像检索和语义标注中。
1 迁移学习原理
1.1 实例迁移学习实例迁移的研究重点是如何在源领域中实现数据的加权选择,把选出的优秀数据应用于目标任务的学习中。将样本的特征 x与其标签 y之间的关系看作满足某种联合分布 P( x, y) ,设源领域数据分布为( , )SP X Y ,目标领域数据分布为 ( , )TP X Y ,则学习的任 务 就 是 利 用 领 域 中 的 l 个 样 本? ?1 1 2 2( , ) , ( , ) , , ( , )l lz ? x y x y ? x y( l 个样本独立同分布)在一系列函数中找到一个能最优的估计出特征 x与其标签 y之间的关系的函数, 使得下式风险泛函最权调整是能够得到较好的学习函数。但若标记样本
数量过少,那么,( , )( , )TSP x yP x y估计的准确性将会降低。
1.2 特征迁移学习特征迁移侧重于研究找出源领域和目标领域特征的隐含的共同表示方式。特征迁移能够避免实例迁移中对( , )( , )TSP x yP x y进行估计的问题。其主要思想是变换样本 x的特征空间 X,实现边缘分布 P( X) 和条件 分 布 P( X | Y)的 改 变 , 使 得 最 终 满 足( , ) ( , )S TP X Y ? P X Y。定义特征变换h为:X ?W ,对观察样本的表示做出变换 w ? h( x ) ?W 。 P(W ,Y ) 是变换后数据分布 情 况 。 则 , 若 有 合 适 变 换 h :X W ,使( , ) ( , )S TP W Y ? P W Y,这样便能够避免实例迁移中估计问题[Lsl01.2.1稀疏非负矩阵分解 稀疏特征学习是一种典型的特征迁移学习方法,但该稀疏性是不被控制的,而非负稀疏矩阵分解(sparse non-negative matrix factorization, SNMF)则可通过定义稀疏因子控制基矩阵或系数矩阵的稀疏性[W,充分表现局部表征整体的优势,其中特征矩阵W和系数矩阵日可以是同时稀疏的,也可以只有一个是稀疏的。 SNMF算法的目标函数为
1.2.2多任务学习下非负稀疏特征迁移学习
多任务的稀疏特征学习,涉及到对2个数据源的共享子空间以及其他2个独立子空间进行学习。通过数据源的特征标注矩阵Xi和X:可对3个不同的子空间进行学习,令}a ER’0`k为共享子空间,四E }’}`(}一 k)和玛E1\ (r2一 k)分别为2个独立的子空间,k为共享子空间的维度,此时,通过W12 E }`k这座桥梁就可以实现2个矩阵间知识的迁移。2个源数据划分得到的子空间结构如图1所示。
2混合迁移学习方法
针对第1节对2种迁移学习方法讨论,本文提出了一种混合迁移学习方法,以基于多任务稀疏非负特征学习为基础,同时引入实例迁移学习,这样既综合了实例迁移和特征迁移的优点,又充分考虑并利用了平衡迁移过程中分类器的适应性和推广性的特点。
2.1混合迁移学习总体思想
将实例迁移引入多任务稀疏特征学习,其具体思想如下: 1)取Xs和凡中具有相同标记的数据,建立特征空间子集戈:,其中,Xs为标记的源领域的训练数据集,XIT为少量的目标领域数据集的标注样本; 2)采用谱聚类的方法对特征空间子集X1:中的样本数据进行聚类; 3)剔除聚类后孤立的样本数据,建立新的特征子空间; 4)采用多任务学习下稀疏非负矩阵的分解算法,实现迁移学习。
2.2基于谱聚类的实例迁移学习
从1.2.2的算法中可知矩阵X1和长的共享基子空间四:在矩阵分解和迁移学习中起到了重要作用。但算法中四:的选取却并未经过任何筛选,只是直接采用了2个领域中具有相同标记的一些数据,容易受到噪声点的影响。
因此,本文将采用谱聚类算法筛选学习样本,以引入实例迁移学习[yob。利用数据集构建出一张图,将数据的划分转化为图的划分问题。利用图中的顶点表示样本点,边则反映出的是各样本点间的关系。一般地,谱聚类算法中用来衡量数据间关系的度量标准是数据间的相似性,依此可构建出包含聚类过程所需信息的邻接矩阵,完成对样本的最优划分,达到不同类样本间的相似性较低,而同类样本具有较高的相似性的效果。
谱聚类的具体运算过程如下: 1)本文采用欧式空间的距离进行相似性度量,构造数据点集的相似性矩阵; 2)计算Laplacian矩阵L= D-W; 3)求解矩阵L的特征向量和特征值; 4)利用多个特征向量确定低维空间,并将数据J点映射到这个低维空间中; 5)在低维空间中实现划分数据点的划分,这样就完成实例迁移的引入。
2.3多任务学习下稀疏特征学习目标函数的求解
针对1.2.2节的多任务学习下稀疏特征学习算法对目标函数进行求解。采用变量交替的更新的办法进行逐一变量的迭代计算。首先进行各个待更新变量目标函数的推导。在保证其他变量不变的条件
第3步采用了随机初始化参数四2,四,玛,日i,日:,为了减少随机初始化引起的不确定性,故后续采用多次实验的平均值作为实验结果。 第4步采用了ANLS进行日。,Wit, V}, ZE仁斗等量交替更新。此时,收敛条件有2个:1)通过设置l}}值£来判断,当连续多次矩阵的更新迭代不再发生变化时,认为算法达到了收敛;2)在算法中设置了最大迭代次数MAX用以限制算法的迭代次数。当收敛达到以上2个条件中的任意一个便停止迭代。
最后,在矩阵X1和X:的共享基子空间叫:以及独立的基子空间四和w2的基础上,通过不断地迭代更新共享基子空间四2这个桥梁,促使2个数据源相互迁移利用,实现2个数据源知识的迁移学习。
2.4基于混合迁移方法的医学图像语义标注 根据本文提出混合迁移方法,下面给出应用于医学图像语义标注的方案。 输入:2个数据集上分别构建的矩阵X1和X:,2个数据集上的图片在标签特征空间上的表达T和T,待标记图片I; 输出:需要返回的语义T; 1)利用本文的算法,对矩阵Xi和X2进行分解得到3基于混合迁移学习的医学图像检索
利用2.4节中给出的流程进行医学图像语义标注并进行检索。本文将采用200幅肺部病变图像作为源领域数据口,100幅具有胸膜病变的图像作为而目标领域数据D2,在此,可以通过口数据集上的相关图片形成的70个有效的视觉单词M,把它看做特征集合Si(此处特征空间即视觉单词的特征空间)。与此类似,利用D2数据集上的部分图片形成的70个视觉单词亿可以看成是特征集合凡。Si和S2的交集与并集为S}和凡} SJ对应的基数为m}凡对应的基数为m}}。易得到m} = ml +mz -m} o此时,m} = 20,进一步推出}} -70+70-20=120 0得到视觉单词的特征空间(维度为120)。以此,在后续的分析中使用B of的方法在得到100幅图像的表达得到30幅图像的表达。采用2.4节的语义标注算法对中未标注的70幅图像进行标注。表1给出了部分图像的语义标注结果。
4结束语
分析了传统机器学习存在的不能够借鉴相似领域中知识,每次学习都从零开始的问题,并针对这一问题,以医学图像语义标注为例,开展了研究。
通过对实例迁移和特征迁移进行分析发现,前者侧重于挑选源领域中与目标领域数据分布相似且对目标领域训练任务有帮助的那些数据。而后者通过挖掘隐含在数据间的相似特征从而搭建起领域间相互联系的桥梁,更好地实现领域间知识的迁移,因此本文综合了2种迁移学习的优点,使其互相补充,从而达到对医学图像语义准确标注的目的。
上一篇:探讨基于精准医学的抗肿瘤靶向药物敏感性预测及其研发应用
下一篇:没有了
随机阅读
热门排行
© 2014 数学论文网 Powered by http://www.006208.com 版权所有