论文阅读报告:Taxonomy-aware feature engineering for microbiome classification,Mai Oudah and Andreas Hen

2022-07-29,,,,

文章目录

  • 1. HFE
    • 1.1. Feature engineering phase
    • 1.2. Correlation-based filtering phase
    • 1.3. Information Gain (

      I

      G

      IG

      IG) based filtering phase

    • 1.4.

      I

      G

      IG

      IG-based leaf filtering phase

  • 2. DOI

1. HFE

Hierarchical Feature Engineering,简写 HFE,包含四个阶段,分别是:

  • 特征工程阶段(Feature engineering phase)
  • 基于相关性的过滤阶段(Correlation-based filtering phase)
  • 基于信息增益的过滤阶段(Information Gain based filtering phase)
  • 基于信息增益的叶过滤阶段(IG-based leaf filtering phase)

1.1. Feature engineering phase

上图中,树结构共有 8 层。前七层是生物学的分类:界(Kingdom)、门(Phylum),纲(Class),目(Order)、科(Family)、属(Genus)和种(Species)。论文中额外在最底层增加了一层:OTU 层。

数据集中原有的特征向量表示为:

(

o

j

i

)

n

×

m

=

[

o

1

1

o

2

1

o

m

1

o

1

2

o

2

2

o

m

2

o

1

n

o

2

n

o

m

n

]

,

i

[

1

,

2

,

,

n

]

,

j

[

1

,

2

,

,

m

]

.

(o^i_j)_{n \times m}= \begin{bmatrix} o^1_1 & o^1_2 & \dots & o^1_m \\ o^2_1 & o^2_2 & \dots & o^2_m \\ \dots & \dots & \dots & \dots \\ o^n_1 & o^n_2 & \dots & o^n_m \\ \end{bmatrix}, i \in [1, 2, \dots, n], j \in [1, 2, \dots, m].

(oji)n×m=o11o12o1no21o22o2nom1om2omn,i[1,2,,n],j[1,2,,m].

将较高分类单元

i

k

i_k

ik 视为潜在特征,其相对丰度是自下而上的树遍历中各自孩子

C

C

C 的相对丰度的累加和:

o

i

k

=

c

C

(

i

k

)

o

c

.

o_{i_k} = \sum_{c \in C(i_k)} o_c.

oik=cC(ik)oc.

树结构中的某个非叶子节点,是一个具有较高层次的潜在特征,我们将其记为

i

k

i_k

ik,它的孩子节点的集合记为

C

(

i

k

)

C(i_k)

C(ik),则按照公式计算

i

k

i_k

ik 的相对丰度

o

i

k

o_{i_k}

oik

o

i

k

=

[

o

i

k

1

o

i

k

2

o

i

k

n

]

=

[

c

C

(

i

k

)

o

c

1

c

C

(

i

k

)

o

c

2

c

C

(

i

k

)

o

c

n

]

.

o_{i_k} = \begin{bmatrix} o^1_{i_k} \\ o^2_{i_k} \\ \dots \\ o^n_{i_k} \\ \end{bmatrix} = \begin{bmatrix} \sum_{c \in C(i_k)} o^1_c \\ \sum_{c \in C(i_k)} o^2_c \\ \dots \\ \sum_{c \in C(i_k)} o^n_c \\ \end{bmatrix}.

oik=oik1oik2oikn=cC(ik)oc1cC(ik)oc2cC(ik)ocn.

所有较高层次的潜在特征,组成一个内部节点的特征集合,表示如下:

[

o

i

1

1

o

i

2

1

o

i

m

1

o

i

1

2

o

i

2

2

o

i

m

2

o

i

1

n

o

i

2

n

o

i

m

n

]

\begin{bmatrix} o^1_{i_1} & o^1_{i_2} & \dots & o^1_{i_{\overline{m}}} \\ o^2_{i_1} & o^2_{i_2} & \dots & o^2_{i_{\overline{m}}} \\ \dots & \dots & \dots & \dots \\ o^n_{i_1} & o^n_{i_2} & \dots & o^n_{i_{\overline{m}}} \\ \end{bmatrix}

oi11oi12oi1noi21oi22oi2noim1oim2oimn

原始特征和内部节点衍生出来的特征,共同构成扩展特征向量,其表示形式如下所示:

F

=

[

o

1

1

o

2

1

o

m

1

o

i

1

1

o

i

2

1

o

i

m

1

o

1

2

o

2

2

o

m

2

o

i

1

2

o

i

2

2

o

i

m

2

o

1

n

o

2

n

o

m

n

o

i

1

n

o

i

2

n

o

i

m

n

]

F = \begin{bmatrix} o^1_1 & o^1_2 & \dots & o^1_m & o^1_{i_1} & o^1_{i_2} & \dots & o^1_{i_{\overline{m}}} \\ o^2_1 & o^2_2 & \dots & o^2_m & o^2_{i_1} & o^2_{i_2} & \dots & o^2_{i_{\overline{m}}} \\ \dots & \dots & \dots & \dots & \dots & \dots & \dots & \dots \\ o^n_1 & o^n_2 & \dots & o^n_m & o^n_{i_1} & o^n_{i_2} & \dots & o^n_{i_{\overline{m}}} \\ \end{bmatrix}

F=o11o12o1no21o22o2nom1om2omnoi11oi12oi1noi21oi22oi2noim1oim2oimn

1.2. Correlation-based filtering phase

对于层级中每对 “父亲-孩子”,皮尔逊相关系数(Pearson correlation coefficient)

ρ

\rho

ρ 是父亲节点和孩子节点的一组向量计算出来的。
如果

ρ

\rho

ρ 比预定义的阈值

θ

p

\theta_{p}

θp 大,那么移除孩子节点;否则保留孩子节点作为层级结构的一部分。

operation

=

{

remove

,

 if 

ρ

>

θ

p

;

retain

,

 otherwise.

\text{operation} = \begin{cases} \text{remove}, \text{ if } \rho > \theta_{p}; \\ \text{retain}, \text{ otherwise.} \end{cases}

operation={remove, if ρ>θp;retain, otherwise.

对于任意的非叶子节点

i

k

i_k

ik,它的孩子节点集合是

C

(

i

k

)

C(i_k)

C(ik),则

i

k

,

c

C

(

i

k

)

\forall i_k, c \in C(i_k)

ik,cC(ik),

operation 

=

{

remove 

c

,

 if 

ρ

(

i

k

,

c

)

>

θ

p

;

retain 

c

,

 otherwise.

\text{operation } = \begin{cases} \text{remove } c, \text{ if } \rho(i_k, c) > \theta_{p}; \\ \text{retain } c, \text{ otherwise.} \end{cases}

operation ={remove c, if ρ(ik,c)>θp;retain c, otherwise.

1.3. Information Gain (

I

G

IG

IG) based filtering phase

根据上一阶段保留的节点,从叶子到根(即每个 OTU 的世系)构建所有路径。

对每条路径而言,计算路径上每个节点关于标签/类别

L

L

L

I

G

IG

IG

平均

I

G

IG

IG 作为阈值

θ

\theta

θ,用于丢弃具有较小

I

G

IG

IG 值或者零值的节点。

需要注意的是,具有不完整路径上的叶子节点不参与这一步,这些叶子节点将在 1.4. 中处理。

公式表示如下:

θ

i

g

=

p

P

I

G

(

o

p

,

L

)

P

\theta_{ig} = \frac{\sum_{p \in P} IG(o_p, L)}{\left| P \right|}

θig=PpPIG(op,L)

c

 in a complete leaf-root path 

P

 in 

T

\forall c \text{ in a complete leaf-root path } P \text{ in } T

c in a complete leaf-root path P in T,

operation 

=

{

 remove 

c

,

 if 

I

G

(

o

c

,

L

)

<

θ

i

g

;

 retain 

c

,

 otherwise.

\text{operation } = \begin{cases} \text{ remove } c, \text{ if } IG(o_c, L) < \theta_{ig}; \\ \text{ retain } c, \text{ otherwise.} \end{cases}

operation ={ remove c, if IG(oc,L)<θig; retain c, otherwise.

1.4.

I

G

IG

IG-based leaf filtering phase

为了处理 OTUs 中完整的分类信息,

对于那些具有不完整分类信息的 OTU(路径不完整: incomplete paths),如果它的

I

G

IG

IG 大于 1.3. 中完整路径中所有节点的全局平均

I

G

IG

IG 值,那么保留该节点;否则,丢弃该节点。

用公式表示:

θ

t

=

c

T

I

G

(

o

c

,

L

)

T

.

\theta_{t} = \frac{\sum_{c \in T} IG(o_c, L)}{\left| T \right|}.

θt=TcTIG(oc,L).

operation 

=

{

 remove 

c

,

 if 

I

G

(

o

i

,

L

)

<

θ

t

;

 retain 

c

,

 otherwise.

\text{operation } = \begin{cases} \text{ remove } c, \text{ if } IG(o_i, L) < \theta_{t}; \\ \text{ retain } c, \text{ otherwise.} \end{cases}

operation ={ remove c, if IG(oi,L)<θt; retain c, otherwise.

2. DOI

  1. https://doi.org/10.1186/s12859-018-2205-3

本文地址:https://blog.csdn.net/PursueLuo/article/details/108754772

《论文阅读报告:Taxonomy-aware feature engineering for microbiome classification,Mai Oudah and Andreas Hen.doc》

下载本文的Word格式文档,以方便收藏与打印。