文章目录
- 1. HFE
-
- 1.1. Feature engineering phase
- 1.2. Correlation-based filtering phase
- 1.3. Information Gain (
I
G
IG
- 1.4.
I
G
IG
- 2. DOI
1. HFE
Hierarchical Feature Engineering,简写 HFE,包含四个阶段,分别是:
- 特征工程阶段(Feature engineering phase)
- 基于相关性的过滤阶段(Correlation-based filtering phase)
- 基于信息增益的过滤阶段(Information Gain based filtering phase)
- 基于信息增益的叶过滤阶段(IG-based leaf filtering phase)
1.1. Feature engineering phase
上图中,树结构共有 8 层。前七层是生物学的分类:界(Kingdom)、门(Phylum),纲(Class),目(Order)、科(Family)、属(Genus)和种(Species)。论文中额外在最底层增加了一层:OTU 层。
数据集中原有的特征向量表示为:
(
o
j
i
)
n
×
m
=
[
o
1
1
o
2
1
…
o
m
1
o
1
2
o
2
2
…
o
m
2
…
…
…
…
o
1
n
o
2
n
…
o
m
n
]
,
i
∈
[
1
,
2
,
…
,
n
]
,
j
∈
[
1
,
2
,
…
,
m
]
.
(o^i_j)_{n \times m}= \begin{bmatrix} o^1_1 & o^1_2 & \dots & o^1_m \\ o^2_1 & o^2_2 & \dots & o^2_m \\ \dots & \dots & \dots & \dots \\ o^n_1 & o^n_2 & \dots & o^n_m \\ \end{bmatrix}, i \in [1, 2, \dots, n], j \in [1, 2, \dots, m].
(oji)n×m=⎣⎢⎢⎡o11o12…o1no21o22…o2n…………om1om2…omn⎦⎥⎥⎤,i∈[1,2,…,n],j∈[1,2,…,m].
将较高分类单元
i
k
i_k
ik 视为潜在特征,其相对丰度是自下而上的树遍历中各自孩子
C
C
C 的相对丰度的累加和:
o
i
k
=
∑
c
∈
C
(
i
k
)
o
c
.
o_{i_k} = \sum_{c \in C(i_k)} o_c.
oik=c∈C(ik)∑oc.
树结构中的某个非叶子节点,是一个具有较高层次的潜在特征,我们将其记为
i
k
i_k
ik,它的孩子节点的集合记为
C
(
i
k
)
C(i_k)
C(ik),则按照公式计算
i
k
i_k
ik 的相对丰度
o
i
k
o_{i_k}
oik:
o
i
k
=
[
o
i
k
1
o
i
k
2
…
o
i
k
n
]
=
[
∑
c
∈
C
(
i
k
)
o
c
1
∑
c
∈
C
(
i
k
)
o
c
2
…
∑
c
∈
C
(
i
k
)
o
c
n
]
.
o_{i_k} = \begin{bmatrix} o^1_{i_k} \\ o^2_{i_k} \\ \dots \\ o^n_{i_k} \\ \end{bmatrix} = \begin{bmatrix} \sum_{c \in C(i_k)} o^1_c \\ \sum_{c \in C(i_k)} o^2_c \\ \dots \\ \sum_{c \in C(i_k)} o^n_c \\ \end{bmatrix}.
oik=⎣⎢⎢⎡oik1oik2…oikn⎦⎥⎥⎤=⎣⎢⎢⎡∑c∈C(ik)oc1∑c∈C(ik)oc2…∑c∈C(ik)ocn⎦⎥⎥⎤.
所有较高层次的潜在特征,组成一个内部节点的特征集合,表示如下:
[
o
i
1
1
o
i
2
1
…
o
i
m
‾
1
o
i
1
2
o
i
2
2
…
o
i
m
‾
2
…
…
…
…
o
i
1
n
o
i
2
n
…
o
i
m
‾
n
]
\begin{bmatrix} o^1_{i_1} & o^1_{i_2} & \dots & o^1_{i_{\overline{m}}} \\ o^2_{i_1} & o^2_{i_2} & \dots & o^2_{i_{\overline{m}}} \\ \dots & \dots & \dots & \dots \\ o^n_{i_1} & o^n_{i_2} & \dots & o^n_{i_{\overline{m}}} \\ \end{bmatrix}
⎣⎢⎢⎡oi11oi12…oi1noi21oi22…oi2n…………oim1oim2…oimn⎦⎥⎥⎤
原始特征和内部节点衍生出来的特征,共同构成扩展特征向量,其表示形式如下所示:
F
=
[
o
1
1
o
2
1
…
o
m
1
o
i
1
1
o
i
2
1
…
o
i
m
‾
1
o
1
2
o
2
2
…
o
m
2
o
i
1
2
o
i
2
2
…
o
i
m
‾
2
…
…
…
…
…
…
…
…
o
1
n
o
2
n
…
o
m
n
o
i
1
n
o
i
2
n
…
o
i
m
‾
n
]
F = \begin{bmatrix} o^1_1 & o^1_2 & \dots & o^1_m & o^1_{i_1} & o^1_{i_2} & \dots & o^1_{i_{\overline{m}}} \\ o^2_1 & o^2_2 & \dots & o^2_m & o^2_{i_1} & o^2_{i_2} & \dots & o^2_{i_{\overline{m}}} \\ \dots & \dots & \dots & \dots & \dots & \dots & \dots & \dots \\ o^n_1 & o^n_2 & \dots & o^n_m & o^n_{i_1} & o^n_{i_2} & \dots & o^n_{i_{\overline{m}}} \\ \end{bmatrix}
F=⎣⎢⎢⎡o11o12…o1no21o22…o2n…………om1om2…omnoi11oi12…oi1noi21oi22…oi2n…………oim1oim2…oimn⎦⎥⎥⎤
1.2. Correlation-based filtering phase
对于层级中每对 “父亲-孩子”,皮尔逊相关系数(Pearson correlation coefficient)
ρ
\rho
ρ 是父亲节点和孩子节点的一组向量计算出来的。
如果
ρ
\rho
ρ 比预定义的阈值
θ
p
\theta_{p}
θp 大,那么移除孩子节点;否则保留孩子节点作为层级结构的一部分。
operation
=
{
remove
,
if
ρ
>
θ
p
;
retain
,
otherwise.
\text{operation} = \begin{cases} \text{remove}, \text{ if } \rho > \theta_{p}; \\ \text{retain}, \text{ otherwise.} \end{cases}
operation={remove, if ρ>θp;retain, otherwise.
对于任意的非叶子节点
i
k
i_k
ik,它的孩子节点集合是
C
(
i
k
)
C(i_k)
C(ik),则
∀
i
k
,
c
∈
C
(
i
k
)
\forall i_k, c \in C(i_k)
∀ik,c∈C(ik),
operation
=
{
remove
c
,
if
ρ
(
i
k
,
c
)
>
θ
p
;
retain
c
,
otherwise.
\text{operation } = \begin{cases} \text{remove } c, \text{ if } \rho(i_k, c) > \theta_{p}; \\ \text{retain } c, \text{ otherwise.} \end{cases}
operation ={remove c, if ρ(ik,c)>θp;retain c, otherwise.
1.3. Information Gain (
I
G
IG
IG) based filtering phase
根据上一阶段保留的节点,从叶子到根(即每个 OTU 的世系)构建所有路径。
对每条路径而言,计算路径上每个节点关于标签/类别
L
L
L 的
I
G
IG
IG。
平均
I
G
IG
IG 作为阈值
θ
\theta
θ,用于丢弃具有较小
I
G
IG
IG 值或者零值的节点。
需要注意的是,具有不完整路径上的叶子节点不参与这一步,这些叶子节点将在 1.4. 中处理。
公式表示如下:
θ
i
g
=
∑
p
∈
P
I
G
(
o
p
,
L
)
∣
P
∣
\theta_{ig} = \frac{\sum_{p \in P} IG(o_p, L)}{\left| P \right|}
θig=∣P∣∑p∈PIG(op,L)
∀
c
in a complete leaf-root path
P
in
T
\forall c \text{ in a complete leaf-root path } P \text{ in } T
∀c in a complete leaf-root path P in T,
operation
=
{
remove
c
,
if
I
G
(
o
c
,
L
)
<
θ
i
g
;
retain
c
,
otherwise.
\text{operation } = \begin{cases} \text{ remove } c, \text{ if } IG(o_c, L) < \theta_{ig}; \\ \text{ retain } c, \text{ otherwise.} \end{cases}
operation ={ remove c, if IG(oc,L)<θig; retain c, otherwise.
1.4.
I
G
IG
IG-based leaf filtering phase
为了处理 OTUs 中完整的分类信息,
对于那些具有不完整分类信息的 OTU(路径不完整: incomplete paths),如果它的
I
G
IG
IG 大于 1.3. 中完整路径中所有节点的全局平均
I
G
IG
IG 值,那么保留该节点;否则,丢弃该节点。
用公式表示:
θ
t
=
∑
c
∈
T
I
G
(
o
c
,
L
)
∣
T
∣
.
\theta_{t} = \frac{\sum_{c \in T} IG(o_c, L)}{\left| T \right|}.
θt=∣T∣∑c∈TIG(oc,L).
operation
=
{
remove
c
,
if
I
G
(
o
i
,
L
)
<
θ
t
;
retain
c
,
otherwise.
\text{operation } = \begin{cases} \text{ remove } c, \text{ if } IG(o_i, L) < \theta_{t}; \\ \text{ retain } c, \text{ otherwise.} \end{cases}
operation ={ remove c, if IG(oi,L)<θt; retain c, otherwise.
2. DOI
- https://doi.org/10.1186/s12859-018-2205-3
本文地址:https://blog.csdn.net/PursueLuo/article/details/108754772