1要点
方法:提出用于WSI分类的因果多示例学习 (MIL) 框架CaMIL,其利用因果推断处理MIL中的虚假关联问题:
- 将实例编码为实例级特征,并聚合为包级特征 (基操);
- 引入交叉注意力,将聚类级特征与包级特征融合,增强了全局信息集成;
- 实验数据集:Camelyon16和TCGA-NSCLC;
背景:
- WSI是自动病理分析中的关键组成,其挑战在于WSI的高分辨率和缺乏实例级标签;
- 已有的方法通过配备出色的特征提取器和聚合器来训练模型,但容易受虚假关联的影响;
2 方法
2.1 一些定义
令 S i = { ( p i , 1 , y i , 1 ) , … , ( p i , n , y i , n ) } S_i=\{ (p_{i,1},y_{i,1}),\dots,(p_{i,n},y_{i,n}) \} Si={(pi,1,yi,1),…,(pi,n,yi,n)}表示包,其中 y i , j ∈ { 0 , 1 } y_{i,j}\in\{ 0,1 \} yi,j∈{
0,1}是实例 p i , j p_{i,j} pi,j的标签。我们只有访问包标签的权力,其被定义为:
Y i = { 0 , i f f ∑ j y i , j = 0 , 1 , o t h e r w i s e . (1) \tag{1} Y_i=\left\{ \begin{aligned} 0,&\qquad iff\sum_jy_{i,j}=0,\\ 1,&\qquad otherwise. \end{aligned} \right. Yi=⎩
⎨
⎧0,1,iffj∑yi,j=0,otherwise.(1)
传统MIL的过程如图2上,其可以被表示为:
Y ^ i = h ( g ( x i , 1 , … , x i , j , … , x i , n ) ) , x i , j = f ( p i , j ) , (2) \tag{2} \hat{Y}_i=h(g(x_{i,1},\dots,x_{i,j},\dots,x_{i,n})),\quad x_{i,j}=f(p_{i,j}), Y^i=h(g(xi,1,…,xi,j,…,xi,n)),xi,j=f(pi,j),(2)其中 f ( ⋅ ) f(\cdot) f(⋅)表示实例级特征提取器、 g ( ⋅ ) g(\cdot) g(⋅)表示聚合器,以及 h ( ⋅ ) h(\cdot) h(⋅)表示分类器。
图2:CaMIL总体架构。图的上半部分表示传统MIL,下半部分表示CaMIL的关键部分:实例级特征被聚类为簇,并池化为相应的特征。接下来,交叉注意力被用于融合这些特征和包级别特征 Z Z Z,以获取更好的包表征和因果建模。注意实例级特征将会不断更新
2.2 CaMIL
CaMIL因果建模的过程如图3:
- 计算 X → Z X\to Z X→Z的因果效应:
P ( z ∣ d o ( x ) ) = P ( z ∣ x ) , (3) \tag{3} P(z|do(x))=P(z|x), P(z∣do(x))=P(z∣x),(3)其中 d o ( ⋅ ) do(\cdot) do(⋅)表示因果推断; - 计算 Z → Y Z\to Y Z→Y的因果效应:
P ( y ∣ d o ( z ) ) = ∑ x P ( y ∣ z , x ) P ( x ) (4) \tag{4} P(y|do(z))=\sum_x P(y|z,x)P(x) P(y∣do(z))=x∑P(y∣z,x)P(x)(4) - 计算 X → Y X\to Y X→Y的因果效应:
P ( y ∣ d o ( x ) ) = ∑ z P ( z ∣ x ) ∑ x ′ P ( y ∣ z , x ′ ) P ( x ′ ) . (5) \tag{5} P(y|do(x))=\sum_zP(z|x)\sum_{x'}P(y|z,x')P(x'). P(y∣do(x))=z∑P(z∣x)x′∑P(y∣z,x′)P(x′).(5)注意这里只是示意因果建模过程,算法的详情可以参见图2和下一章节; x ′ x' x′是实例特征的聚类表示
图3:用于解释MIL的因果图:(a) X → Z X\to Z X→Z的因果效应,黑色点划表示闭锁路径;(b) Z → Y Z\to Y Z→Y的因果效应,红色链接表示后门路径; X → Y X\to Y X→Y的因果效应
2.3 框架
包中实例编码后的实例级特征为 { x i , 1 , … , x i , j , … , x i , n } \{x_{i,1},\dots,x_{i,j},\dots,x_{i,n}\} {
xi,1,…,xi,j,…,xi,n}。通过结合聚合器 g ( ⋅ ) g(\cdot) g(⋅),可以将实例级特征转换为包级特征 z = g ( x ) z=g(x) z=g(x),其对应公式5中的 P ( z ∣ x ) P(z|x) P(z∣x)。此时,公式5可以被重写为:
P ( y ∣ d o ( x ) ) = ∑ x ′ P ( y ∣ z = g ( x ) , x ′ ) P ( x ′ ) = E x ′ [ P ( y ∣ z , x ′ ) ] . (6) \tag{6} \begin{aligned} P(y|do(x))&=\sum_{x'}P(y|z=g(x),x')P(x')\\ &=\mathbb{E}_{x'}[P(y|z,x')]. \end{aligned} P(y∣do(x))=x′∑P(y∣z=g(x),x′)P(x′)=Ex′[P(y∣z,x′)].(6)目前的问题在于,如何解决 ∑ x ′ P ( y ∣ z , x ′ ) P ( x ′ ) \sum_{x'}P(y|z,x')P(x') ∑x′P(y∣z,x′)P(x′)。
接下来,引入实例缓存来存储所有实例级特征,但是这样将耗费巨大的计算资源。一种合理的做法是使用 K K K-means将它们划分为 k k k簇。由于每个簇代表着共享相同信息的实例的子集,因此其捕捉了用于包分类的本质信息。通过平均每一个簇,获得所有簇的池化表示 x ′ = [ x 1 ′ , x 2 ′ , … , x K ′ ] x'=[x'_1,x'_2,\dots,x_K'] x′=[x1′,x2′,…,xK′]。
接下来,交叉注意力被用于融合 Z Z Z和 x ′ x' x′:
ϕ ( z , x ′ ) = [ P ( x ′ ) ⋅ S o f t m a x ( ( W q z ) ⊤ ( W k x ′ ) d ) ] ( W v x ′ ) , (7) \tag{7} \phi(z,x')=\left[ P(x') \cdot Softmax\left( \frac{(W_qz)^\top(W_kx')}{\sqrt{d}} \right) \right](W_v x'), ϕ(z,x′)=[P(x′)⋅Softmax(d(Wqz)⊤(Wkx′))](Wvx′),(7)其中 W W W是线性映射, d d d是特征维度。这里设置 P ( x ′ ) = 1 / K P(x')=1/K P(x′)=1/K,表示等同看待每个簇。随后,拼接包级特征和融合特征,再使用NWGM来近似期望并完成因果建模:
P ( y ∣ d o ( x ) ) ≈ P ( y ∣ z ⊕ ϕ ( z , x ′ ) ) 。 (8) \tag{8} P(y|do(x))\approx P(y|z\oplus \phi(z,x'))。 P(y∣do(x))≈P(y∣z⊕ϕ(z,x′))。(8)在本文中, f ( ⋅ ) f(\cdot) f(⋅)可以选用ResNet等预处理器、 g ( ⋅ ) g(\cdot) g(⋅)是注意力网络等,以及 h ( ⋅ ) h(\cdot) h(⋅)是多层感知机。
文章评论