图1 DFDTI模型的框架
扫 描 看 全 文
引用本文
阅读全文PDF
识别药物靶标相互作用(DTI)是药物发现的一项关键任务,在虚拟筛选、药物重定位和识别药物副作用等领域都发挥了至关重要的作用。通过传统的生物实验方法识别DTI通常昂贵且耗时,随着深度学习在自然语言处理等领域取得的巨大成功,已有许多研究利用深度学习预测潜在的DTI。然而,先前的许多研究仅利用药物和蛋白的单视角特征预测DTI,忽视了多源描述符的潜在价值。该文提出了一种融合多源描述符的药物靶标相互作用预测框架(DFDTI),充分利用药物和蛋白不同视角的结构信息。首先,通过全连接(FC)层为多源描述符生成低维表示;然后,考虑到不同类型的描述符对DTI预测的贡献度不同,利用通道注意力机制给予不同的描述符权重;此外,使用单层Transformer编码器增强描述符的特征表示;最后,拼接药物和蛋白的增强特征表示,并输入到深度神经网络(DNN)中以预测DTI。实验结果表明,DFDTI能够有效融合不同类型的描述符,在3类评价指标上均优于该文中所有的基线方法。
Identifying drug-target interactions (DTIs) is a key task in drug discovery, and it plays an important role in the fields of virtual screening, drug repurposing and identification of potential drug side effects. Traditional biological experimental methods of identifying DTIs are often expensive and time-consuming. With the great success of deep learning in natural language processing and other fields, many studies have used deep learning to predict DTIs. However, many previous studies only utilized single-view features of drugs and proteins to predict DTIs, ignoring the potential value of multi-source descriptors. A drug-target interaction prediction framework with multi-source descriptors fusion (DFDTI) is proposed in this paper to make full use of the structural information of drugs and proteins from different view. First, low dimensional representations are generated for the multi-source descriptors through fully connected (FC) layers. Then, considering the different contribution of different types of descriptors, the channel attention mechanism is used to give weights to descriptors. In addition, one layer Transformer encoder is used to enhance the feature representation of descriptors. Finally, the enhanced features representations of drugs and proteins are concatenated and input into the deep neural network (DNN) to predict DTIs. Experimental results show that the DFDTI can effectively fuse different types of descriptors and outperform all baseline methods in this paper on all three types of evaluation metrics.
药物的发现和开发过程漫长而复杂[
在药物发现和开发过程中,药物靶标相互作用(drug-target interaction, DTI)的识别非常关键[
基于结构的方法即分子对接模拟,该方法主要利用蛋白质的三维结构信息来预测DTI。由于该方法非常耗时且需要蛋白的三维结构,因此其性能受到了限制。基于配体的方法利用相似的配体往往具有相似的生物学特性的理论,将靶标蛋白的结合配体与候选药物进行比对和评分,从而为靶标蛋白推荐候选药物。然而,该方法非常依赖靶标蛋白的结合配体信息,当所选靶标蛋白只有少量已知结合配体时,效果不佳[
为了探索更高效的计算方法,近年来许多研究致力于利用机器学习预测DTI。基于机器学习的方法通常将预测DTI的问题视为二分类任务或回归任务,每个药物蛋白对都有一个标签来指示药物与蛋白之间是否存在相互作用关系。具体地,基于机器学习的方法大致可以分为基于相似性的方法、基于网络的方法和基于特征的方法。
基于相似性的方法需要预先计算药物或蛋白的多种相似性,然后将这些相似性值输入到各种机器学习方法中。Perlman等人计算了5种药物相似性与3种蛋白相似性,并利用逻辑回归分类器自动组合这些特征以产生最终的关联得分[
基于网络的方法通常会构建一个包括药物与蛋白的网络,通过构建的网络来挖掘药物与蛋白之间的潜在关联信息。Luo等人构建了一个包含药物、蛋白、疾病以及副作用的异构网络,通过重启随机游走算法和扩散分量分析相结合来整合异构网络中的各种信息并生成低维特征表示,最后,利用矩阵完成算法预测DTI[
相比基于相似性的方法和基于网络的方法,基于特征的方法因通常仅需要药物的结构信息以及蛋白的序列信息,因此适用范围更广。这类方法通常分别对药物和蛋白进行编码,然后将药物与蛋白的特征组合作为最终特征输入到机器学习方法中。随着深度学习在多个领域中的成功应用,许多研究致力于利用深度学习预测潜在的DTI[
鉴于注意力机制[
虽然上述基于特征的方法取得了不错的预测性能,然而,大多仅使用单个描述符作为特征或从原始的药物SMILES字符串和蛋白序列中自动提取特征,忽略了含有具体意义的多源药物结构描述符以及蛋白结构描述符的潜在价值。为了有效融合来自不同视角的多源描述符以预测DTI,本文提出了一个名为DFDTI的预测模型。首先,DFDTI利用嵌入层计算药物和蛋白描述符的低维表示;然后,利用通道注意力机制给予不同描述符类型以不同的权重;其次,利用Transformer编码器融合药物和蛋白相关的多种类型的描述符的特征表示;最后,拼接药物和蛋白的特征,并通过深度神经网络(deep neural networks, DNN)预测DTI得分。实验结果表明,DFDTI在3类评价指标上均优于所有的基线方法,证明了融合多源描述符以预测DTI的潜在价值以及DFDTI的优越性。
本文提出了一个基于描述符融合的深度学习模型DFDTI预测潜在的DTI,模型的框架如
图1 DFDTI模型的框架
Fig. 1 The framework of the DFDTI model
研究中所用的药物蛋白相互作用数据是从DrugBank数据库[
在本节中,计算了多种描述符作为药物与蛋白的初始特征,并将其作为DFDTI的输入。使用的药物描述符共包含5种药物分子指纹,蛋白描述符共包含5种蛋白序列描述符。
1.2.1 药物描述符
分子指纹是编码分子结构特征的一种方式,在虚拟筛选、基于相似性的化合物搜索、靶标分子排名以及其他药物发现过程中都发挥着重要作用[
1)基于子结构的指纹MACCS[
2)基于拓扑的指纹RDKit[
3)圆形指纹ECFP4以及直径为4的功能基指纹(functional-class fingerprints with a diameter of 4,FCFP4)[
指纹MACCS、RDKit、ECFP4和FCFP4由开源化学信息Python包RDKit[
1.2.2 蛋白描述符
基于序列的分析和预测是基本的生物信息学任务,有助于理解蛋白的结构功能[
1)三肽组成(tripeptides composition, TPC)[
2)k间隔氨基酸对组成(composition of k-spaced amino acid pairs, CKSAAP)[
3)k间隔联合三元组(k-spaced conjoint triad, KSCTriad)[
4)伪氨基酸组成(pseudo-amino acid composition, PAAC)[
5)组成、转化和分布(composition, transition, and distribution, CTD)[
所有类型的蛋白序列描述符均由开源平台iLearnPlus[
由于描述符向量初始维度高,且不同类型的描述符向量维度相差较大,因此,首先通过多个结构相同但大小不同的嵌入层为每种类型的药物描述符和蛋白质描述符生成对应的维度相同的低维表示。对于任意类型的药物描述符s∈{MACCS, PubChem, RDKit, ECFP4, FCFP4},通过一层FC层生成其低维表示。
(1) 和
表示类型为s的药物描述符的嵌入层的可训练权重和偏差;
表示类型为s的药物描述符向量;σ是非线性激活函数Relu。
类似地,对于任意类型的蛋白描述符t∈{TPC, CKSAAP, KSCTriad, PAAC, CTD},其低维表示生成过程为
(2) 和
表示类型为t的蛋白描述符的嵌入层的可训练权重和偏差;
表示类型为t的蛋白描述符向量;σ是非线性激活函数Relu。
由于不同类型的描述符对DTI预测的贡献度是不同的,因此,需要对不同类型的描述符加权以区分其贡献度,使更重要的描述符发挥更大的作用。而在输入到预测模型之前,其贡献度是未知的,因此,受Hu等人[
图2 基于通道注意力的特征加权框架
Fig. 2 The framework of feature weighting based on channel attention
该模块通过将不同类型的特征视为特征中不同的通道,然后,利用通道注意力给与特征不同的权重。以药物为例,在获得药物多种描述符的低维表示后,将各个描述符的低维表示视为不同通道,将综合特征视为药物特征 。然后分别对其进行全局平均池化和全局最大池化,获取其不同视角下的全局特征,计算公式如下,
(3)
(4)
(5)
(6)
(7)
此时,通过该通道注意力权重adr可以区分不同描述符特征的贡献度,使得对最终DTI预测贡献更大的特征获得更大的权重值。在得到药物不同通道的注意力得分后,将其与原特征相乘得到加权后的药物特征表示,
(8)
同理,通过上述过程,可以得到加权后的蛋白特征表示 。
虽然不同描述符之间是相互独立的,但是同一药物的不同描述符或同一蛋白的不同描述符之间可能存在相关性。受Transformer能够适应多模态数据以挖掘多类型特征之间的相关性及互补性的启发,本文将药物与蛋白的不同类型的描述符看作药物与蛋白的多模态数据,利用单层Transformer编码器增强药物与蛋白的特征表示。
由于使用的特征之间没有序列关联,本节中的Transformer编码器去除了位置编码模块,由单头自注意力层、残差连接和层归一化、前馈层3部分组成,模块框架如
图3 基于Transformer编码器的特征增强框架
Fig. 3 The framework of feature enhancement based on Transformer encoder
1)单头自注意力层。自注意力层是Transformer中的关键技术,可以捕捉不同特征向量之间的相关性。具体地,对于每种类型的特征输入,自注意力层为每个输入生成3个不同的向量,分别命名为查询Q、键K和值V。给定Q,自注意力层会计算该Q与每个K的注意力得分,然后,将该注意力得分乘以每个K相应的V。注意力得分的具体计算过程如下,
(9)
2)残差连接和层归一化。残差连接用于改善信息流,避免因网络过度深化而导致梯度消失和退化的问题。残差连接表示将一层的输出添加到前一层的输出。层归一化旨在一定程度上避免过拟合,即对样本中特定类型特征的特征向量进行归一化。
3)前馈层。前馈层由2层FC层组成,目的是将自注意力层得到的向量投影到一个空间中,以便更容易地提取所需的信息。
在获得所有类型的增强特征后,将药物和蛋白质的所有增强特征拼接作为药物蛋白对的最终特征表示hdr-p,然后,将hdr-p输入到DNN中,预测药物蛋白相互作用。DNN可以表示为
(10)
本节中构建的DNN共由3个隐藏层和1个输出层组成。DNN中第l层隐藏层更新特征的过程可表示为
(11) 和
代表第l层隐藏层的可训练权重和偏差;y(l-1)代表第l-1层隐藏层的输出;BN代表用于防止过拟合的批次归一化;σ是非线性激活函数Relu。DNN中的输出层可以表示为
(12)
损失函数定义为药物蛋白对的真实标签y与预测得分y′之间的二分类交叉熵损失函数。对于包含N个样本的批次数据,损失函数可以表示为
(13)
学习率是神经网络训练时的重要参数,如果过大则会导致不收敛,过小则会导致收敛速度太慢。因此,本文使用动态学习率衰减策略优化模型的训练过程。当验证集的AUC连续20次迭代均没有升高时,说明此时模型的学习遇到了瓶颈,学习率降低为当前学习率的一半。
本文所提方法DFDTI的平台配置为:Inter®Core™i7-9750H@2.60 GHz,内存32 GiB,GPU类型为NVIDIA GeForce RTX 2060,操作系统为Windows 10,开发环境为Python 3.8+CUDA 10.2+cuDNN 7.6.5+PyTorch 1.10.0。
DFDTI的超参数设置如
超参数 | 取值 |
---|---|
学习率 | 0.000 1 |
权值衰减 | 0.000 1 |
批次大小 | 64 |
迭代次数 | 200 |
DNN隐藏层神经元个数 | 256、128、64 |
DNN输出层神经元个数 | 1 |
低维表示大小 | 128 |
Transformer编码器前馈层神经元个数 | 128 |
Transformer编码器Dropout概率 | 0.1 |
优化器 | Adam |
由于DTI预测为分类任务,因此,使用准确率(accuracy rate,ACC,式中简记RACC)作为衡量模型的评价指标之一,分类阈值设为0.5。
(14)
考虑到人工设定分类阈值可能难以准确衡量不同方法的预测性能,为了避免阈值选择的主观性,本文还使用接收机工作特性(receiver operating characteristic, ROC)曲线下面积(area under curve, AUC)和精确召回率(precision recall, PR)曲线下面积(area under precision recall curve, AUPR)作为衡量模型性能的主要指标。ROC曲线绘制了不同阈值下的真阳性率(true positive rate, TPR,式中简记RTP)与假阳性率(false positive rate,FPR,式中简记RFP),PR曲线绘制了不同阈值下的精准率(precision,式中简记Rpre)与召回率(recall,式中简记Rrec)。TPR和FPR的定义为
(15)
(16)
精准率和召回率定义为
(17)
(18)
在研究中,已知的药物蛋白相互作用被视为正样本,未知关联的药物蛋白对被视为负样本。由于未知药物蛋白对的数量远远大于已知药物蛋白相互作用的数量,随机从未标记药物蛋白对中选择一定数量的药物蛋白对作为负样本。本文构建了两类数据集:均衡数据集和非均衡数据集。
1)均衡数据集。从未标记药物蛋白对中随机选择与正样本数量相等的药物蛋白对作为负样本,最终数据集中共包含8 020个正样本和8 020个负样本。考虑到手动选择不同负样本时实验结果不同,为了在一定程度上避免单次随机选择负样本时可能带来的实验误差,并公平比较不同的DTI预测方法,从未标记的药物蛋白对中随机选取3次负样本,并将其构成的数据集分别命名为DTI-1、DTI-2与DTI-3。
2)非均衡数据集。考虑到实际情况中负样本的数量大于正样本的数量,构建了2个负样本多于正样本的数据集,以验证模型的预测性能。分别从未标记药物蛋白对中随机选择数量为正样本数量3倍和5倍的药物蛋白对作为负样本构建数据集(即24 060个负样本和40 100个负样本),并将这2个数据集分别命名为DTI-3fold和DTI-5fold。
为了公平验证预测方法的性能,所有数据集中的训练集、验证集和测试集按8∶1∶1的比例随机划分5次,并以5次实验的平均结果作为最终结果。为了保证所有方法使用相同的训练集、验证集和测试集,数据集的划分在输入预测方法之前完成。
为了证明模型性能的优越性,将DFDTI的性能与6个先进的基于深度学习的DTI预测方法进行了比较。
1)DeepDTA[
2)DeepConv-DTI[
3)GraphDTA[
4)DeepCPI[
5)TransformerCPI[
6)HyperAttentionDTI[
各基线方法的框架如
方法 | 药物输入 | 蛋白输入 | 药物特征提取 | 蛋白特征提取 | DTI预测 |
---|---|---|---|---|---|
DeepDTA | SMILES | 氨基酸序列 | CNN | CNN | DNN |
DeepConv-DTI | ECFP4 | 氨基酸序列 | FC | CNN | DNN |
GraphDTA | SMILES | 氨基酸序列 | GNN | CNN | DNN |
DeepCPI | 低维表示(ECFP2+潜在语义分析) | 低维表示(Word2vec) | FC | FC | DNN |
TransformerCPI | SMILES | 低维表示(Word2vec) | GCN+Transformer解码器 | 修改的Transformer编码器 | FC |
HyperAttentionDTI | SMILES | 氨基酸序列 | CNN+注意力机制 | CNN+注意力机制 | DNN |
为了证明模型DFDTI的优越性,在3个数据集上将DFDTI与基线方法进行了比较,实验结果如
方法 | ACC | AUC | AUPR | ||||||
---|---|---|---|---|---|---|---|---|---|
DTI-1 | DTI-2 | DTI-3 | DTI-1 | DTI-2 | DTI-3 | DTI-1 | DTI-2 | DTI-3 | |
DeepDTA | 0.872 3 | 0.869 8 | 0.867 8 | 0.939 4 | 0.936 8 | 0.938 9 | 0.935 9 | 0.931 6 | 0.937 2 |
DeepConv-DTI | 0.854 0 | 0.849 1 | 0.860 4 | 0.926 7 | 0.924 1 | 0.929 6 | 0.921 7 | 0.913 7 | 0.927 9 |
GraphDTA | 0.846 0 | 0.807 5 | 0.808 9 | 0.906 1 | 0.865 1 | 0.872 2 | 0.905 2 | 0.862 7 | 0.881 4 |
DeepCPI | 0.841 5 | 0.836 0 | 0.844 3 | 0.917 1 | 0.914 6 | 0.919 7 | 0.913 5 | 0.909 0 | 0.919 5 |
TransformerCPI | 0.816 5 | 0.813 3 | 0.824 0 | 0.893 5 | 0.888 4 | 0.897 6 | 0.889 9 | 0.882 2 | 0.893 1 |
HyperAttentionDTI | 0.874 6 | 0.873 9 | 0.871 3 | 0.941 3 | 0.941 4 | 0.941 9 | 0.939 3 | 0.940 1 | 0.940 8 |
DFDTI | 0.891 2 | 0.887 8 | 0.894 0 | 0.953 0 | 0.948 6 | 0.953 4 | 0.953 8 | 0.948 1 | 0.953 7 |
从均衡数据集上的AUC来看,所有方法的预测结果从高到低分别是DFDTI、HyperAttentionDTI、DeepDTA、DeepConv-DTI、DeepCPI、TransformerCPI和GraphDTA。其中,所有基线方法均是从某个视角出发计算药物与蛋白的特征,然后,通过单视角特征预测DTI,而DFDTI融合了多个视角下的描述符特征,因此,DFDTI可以提取更全面的结构信息。此外,排名靠后的GraphDTA和TransformerCPI均利用了GNN从分子图中提取药物的结构信息,这样的方法虽然可以从复杂的分子图中提取更详细的信息,但是由于数据集大小有限,无法完全学习到复杂的分子图中的拓扑特征,甚至不如与其特征提取过程类似的ECFP指纹。
从
为了进一步证明模型DFDTI的优越性,在2个非均衡数据集上与基线方法进行了比较,实验结果如
方法 | ACC | AUC | AUPR | |||
---|---|---|---|---|---|---|
DTI-3fold | DTI-5fold | DTI-3fold | DTI-5fold | DTI-3fold | DTI-5fold | |
DeepDTA | 0.914 8 | 0.935 3 | 0.954 1 | 0.952 9 | 0.901 4 | 0.864 2 |
DeepConv-DTI | 0.911 8 | 0.935 5 | 0.948 1 | 0.949 7 | 0.893 9 | 0.863 3 |
GraphDTA | 0.885 0 | 0.911 4 | 0.893 2 | 0.897 1 | 0.815 8 | 0.765 5 |
DeepCPI | 0.888 7 | 0.892 4 | 0.950 9 | 0.953 8 | 0.891 3 | 0.851 5 |
TransformerCPI | 0.875 6 | 0.904 4 | 0.919 7 | 0.920 1 | 0.823 7 | 0.769 6 |
HyperAttentionDTI | 0.915 8 | 0.935 2 | 0.955 8 | 0.957 0 | 0.908 0 | 0.875 1 |
DFDTI | 0.927 6 | 0.942 3 | 0.956 9 | 0.957 2 | 0.920 1 | 0.885 0 |
结合
从
1)输入。HyperAttentionDTI直接以药物的SMILES字符串和蛋白的氨基酸序列作为输入,而DFDTI以药物的5种分子指纹和5种蛋白序列描述符作为输入。HyperAttentionDTI通过one-hot编码对SMILES字符串的64种字符和氨基酸序列的20种氨基酸进行编码,并通过设定最大长度将变长数据转换成定长数据(若小于最大长度则用0补齐,超过最大长度则截断,药物字符串和蛋白字符串的最大长度设为100个字符)。显然,这样的处理方法不适用于处理长度特别长或特别短的药物字符串和蛋白序列。DFDTI的输入为定长的描述符,描述符中每一位都代表了某种特定的含义。
2)嵌入层。HyperAttentionDTI利用嵌入层将稀疏的one-hot编码向量转化为密集向量,输出为二维向量。DFDTI利用嵌入层将不同长度的描述符向量转化为统一大小的密集特征,每个嵌入层的输出为一维向量。
3)特征提取算法。HyperAttentionDTI利用3层CNN提取药物与蛋白的结构特征,并利用基于特征的注意力机制为每一个原子和每一个氨基酸训练了一个注意力向量,以突出部分原子或氨基酸。DFDTI利用通道注意力机制对不同类型的描述符特征进行加权,然后,利用Transformer编码器增强药物与蛋白的特征表示。
4)预测算法。HyperAttentionDTI和DFDTI均在拼接药物与蛋白的特征后使用DNN进行DTI预测,不同点在于HyperAttentionDTI使用Dropout增强泛化性能,DFDTI通过批次归一化增强泛化性能。
5)复杂度。相比于HyperAttentionDTI,DFDTI嵌入层的输出向量维度更低,模型的参数量更少,训练时间也更短。
为了证明特征融合的有效性,即特征融合后的结果优于任意单一描述符作为特征的结果,本节在DTI-1数据集上,将所有类型的单一药物描述符与单一蛋白描述符两两交叉输入到DFDTI中的DNN模块中预测DTI。不同组合的描述符作为特征的AUC结果如
图4 单一描述符特征的AUC结果
Fig. 4 The AUC results of single descriptor feature
从
此外,当药物特征为ECFP4时,不同蛋白描述符作为特征时的AUC结果从高到低为KSCTriad、PAAC、CTD、CKSAAP和TPC。当蛋白特征为KSCTriad时,不同药物分子指纹作为特征时的AUC结果从高到低为ECFP4、PubChem、RDKit、FCFP4和MACCS。
为了证明DFDTI模型中不同组成部分的有效性,即所提特征融合方法的有效性,在多种设置下进行了实验与DFDTI比较,包括:①DFDTI中去除所有的注意力模块,仅保留描述符嵌入模块以及基于DNN的DTI预测模块(Only-DNN);②DFDTI中去除Transformer编码器模块,即注意力模块中仅保留基于通道注意力的特征加权模块(Only-Channel);③DFDTI中去除通道注意力模块,注意力模块中仅保留基于Transformer编码器的特征增强模块(Only-Transformer)。
不同设置下的实验在DTI-1数据集上的AUC结果如
图5 DFDTI中不同组件的影响
Fig. 5 The effect of different components in DFDTI
从
此外,相比于Only-Channel和Only-Transformer, DFDTI的AUC分别高出了0.005 5和0.004 1,证明了将基于通道注意力的特征加权模块与基于Transformer编码器的特征增强模块进行组合预测DTI的有效性。综上所述,这2个模块不仅可以独立地发挥作用,组合在一起更可以增强DTI预测的性能。
本文提出了一种基于深度学习的药物-靶标相互作用预测模型DFDTI。考虑到单一的描述符仅能代表某个角度下的特征,设计了一种基于特征融合的DTI预测框架,以融合来源于不同视角的药物描述符和蛋白描述符。为了证明模型的优越性,将DFDTI与6种最新的基线方法进行了比较。实验结果表明,与基线方法相比,DFDTI在ACC、AUC和AUPR这3种评价指标中均获得了最优结果。此外,进行了一系列实验证明了DFDTI融合描述符特征模块的有效性。
后续将从2个方面继续进行研究以提升模型的预测性能。①加入更多类型的描述符并采用特征选择方法选择最优的描述符组合;②药物特征与蛋白特征之间采用更合理、更具可解释性的交互方法取代拼接操作。
VAMATHEVAN J, CLARK D, CZODROWSKI P, et al. Applications of machine learning in drug discovery and development[J]. Nature Reviews Drug Discovery, 2019, 18(6): 463-477. [百度学术]
LUO H M, LI M, YANG M Y, et al. Biomedical data and computational models for drug repositioning: A comprehensive review[J]. Briefings in Bioinformatics, 2021, 22(2): 1604-1619. [百度学术]
ZHAO Q C, YANG M Y, CHENG Z J, et al. Biomedical data and deep learning computational models for predicting compound-protein relations[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2022, 19(4): 2092-2110. [百度学术]
ZHENG S J, LI Y J, CHEN S, et al. Predicting drugprotein interaction using quasi-visual question answering system[J]. Nature Machine Intelligence, 2020, 2(2): 134-140. [百度学术]
FORLI S, HUEY R, PIQUE M E, et al. Computational proteinligand docking and virtual drug screening with the AutoDock suite[J]. Nature Protocols, 2016, 11(5): 905-919. [百度学术]
KEISER M J, ROTH B L, ARMBRUSTER B N, et al. Relating protein pharmacology by ligand chemistry[J]. Nature Biotechnology, 2007, 25(2): 197-206. [百度学术]
刘皓淼, 杨志伟, 王力卓, 等. 基于机器学习的药物-靶标相互作用预测[J]. 中国生物工程杂志, 2022, 42(4): 40-48. [百度学术]
LIU H M, YANG Z Y, WANG L Z, et al. Research progress of drug target interaction prediction based on machine learning[J]. China Biotechnology, 2022, 42(4): 40-48. [百度学术]
ZITNIK M, NGUYEN F, WANG B, et al. Machine learning for integrating data in biology and medicine: Principles, practice, and opportunities[J]. Information Fusion, 2019, 50: 71-91. [百度学术]
PERMAN L, GOTTLIEB A, ATIAS N, et al. Combining drug and gene similarity measures for drug-target elucidation[J]. Journal of Computional Biology, 2011, 18(2): 133-145. [百度学术]
OLAYAN R S, ASHOOR H, BAJIC V B. DDR: Efficient computational method to predict drugtarget interactions using graph mining and machine learning approaches[J]. Bioinformatics, 2018, 34(7): 1164-1173. [百度学术]
LUO Y N, ZHAO X B, ZHOU J T, et al. A network integration approach for drug-target interaction prediction and computational drug repositioning from heterogeneous information[J]. Nature Communications, 2017, 8: 573. [百度学术]
WAN F P, HONG L X, XIAO A, et al. NeoDTI: Neural integration of neighbor information from a heterogeneous network for discovering new drugtarget interactions[J]. Bioinformatics, 2019, 35(1): 104-111. [百度学术]
戴青青, 余俊霖, 李国菠. 深度学习辅助药物发现的研究进展[J]. 药学进展, 2022, 46(1): 60-70. [百度学术]
DAI Q Q, YU J L, LI G B. Recent advances in deep learning aided drug discovery[J]. Progress in Pharmaceutical Sciences, 2022, 46(1): 60-70. [百度学术]
ÖZTÜRK H, ÖZGÜR A, OZKIRIMLI E. DeepDTA: Deep drug-target binding affinity prediction[J]. Bioinformatics, 2018, 34(17): i821-i829. [百度学术]
王波, 高映新, 袁煦. SMILES 编码技术在化学物质数据库中的应用[J]. 中国石油和化工, 2010 (9): 41-42. [百度学术]
LEE I, KEUM J, NAM H. DeepConv-DTI: Prediction of drug-target interactions via deep learning with convolution on protein sequences[J]. PLoS Computational Biology, 2019, 15(6): e1007129. [百度学术]
ROGERS D, HAHN M. Extended-connectivity fingerprints[J]. Journal of Chemical Information and Modeling, 2010, 50(5): 742-54. [百度学术]
NGUYEN T, LE H, QUINN T P, et al. GraphDTA: Predicting drugtarget binding affinity with graph neural networks[J]. Bioinformatics, 2021, 37(8): 1140-7. [百度学术]
WAN F, ZHU Y, HU H, et al. DeepCPI: A deep iearning-based framework for large-scale in silico drug screening[J]. Genomics, Proteomics & Bioinformatics, 2019, 17(5): 478-95. [百度学术]
任欢, 王旭光. 注意力机制综述[J]. 计算机应用, 2021, 41(S1): 1-6. [百度学术]
REN H, WANG X G. Review of attention mechanism[J]. Journal of Computer Applications, 2021, 41(S1): 1-6. [百度学术]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You need[EB/OL]. (2017-06-12)[2022-08-20]. https://arxiv.org/abs/1706.03762. [百度学术]
CHEN L F, TAN X Q, WANG D Y, et al. TransformerCPI: Improving compound—protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments[J]. Bioinformatics, 2020, 36(16): 4406-4414. [百度学术]
ZHAO Q C, ZHAO H C, ZHENG K, et al. HyperAttentionDTI: Improving drugprotein interaction prediction by sequence-based deep learning with attention mechanism[J]. Bioinformatics, 2022, 38(3): 655-662. [百度学术]
WISHART D S, FEUNANG Y D, GUO A C, et al. DrugBank 5.0: A major update to the DrugBank database for 2018[J]. Nucleic Acids Research, 2018, 46(D1): D1074-D1082. [百度学术]
CONSORTIUM T U, BATEMAN A, MARTIN M J, et al. UniProt: The universal protein knowledgebase in 2021[J]. Nucleic Acids Research, 2021, 49(D1): D480-D489. [百度学术]
GAO K F, NGUYEN D D, SRESHT V, et al. Are 2D fingerprints still valuable for drug discovery?[J]. Physical Chemistry Chemical Physics: PCCP, 2020, 22(16): 8373-8390. [百度学术]
DURANT J L, LELAND B A, HENRY D R, et al. Reoptimization of MDL keys for use in drug discovery[J]. Journal of Chemical Information and Computer Sciences, 2002, 42(6): 1273-1280. [百度学术]
KIM S, CHEN J, CHENG T J, et al. PubChem in 2021: New data content and improved web interfaces[J]. Nucleic Acids Research, 2020, 49(D1): D1388-D1395. [百度学术]
LANDRUM G. RDKit: Open-source cheminformatics[EB/OL]. (2021-09-13)[2022-09-01]. https://www.rdkit.org. [百度学术]
ROGERS D, BROWN R D, HAHN M. Using extended-connectivity fingerprints with laplacian-modified Bayesian analysis in high-throughput screening follow-up[J]. SLAS Discovery, 2005, 10(7): 682-686. [百度学术]
GUHA R. Chemical informatics functionality in R[J]. Journal of Statistical Software, 2007, 18(5): 1-16. [百度学术]
CHEN Z, ZHAO P, LI C, et al. iLearnPlus: A comprehensive and automated machine-learning platform for nucleic acid and protein sequence analysis, prediction and visualization[J]. Nucleic Acids Research, 2021, 49(10): e60. [百度学术]
LUAI B, JIANG J B, ZENG Q G, et al. Predicting apoptosis protein subcellular location with PseAAC by incorporating tripeptide composition[J]. Protein & Peptide Letters, 2011, 18(11): 1086-1092. [百度学术]
CHEN K, KURGAN L A, RUAN J S. Prediction of flexible/rigid regions from protein sequences using k-spaced amino acid pairs[J]. BMC Structural Biology, 2007, 7: 25. [百度学术]
SHEN J W, ZHANG J, LUO X M, et al. Predicting protein-protein interactions based only on sequences information[J]. Proceedings of the National Academy of Sciences of the United States of America, 2007, 104(11): 4337-4341. [百度学术]
CHOU K C. Prediction of protein cellular attributes using pseudo-amino acid composition[J]. Proteins: Structure, Function, and Bioinformatics, 2001, 43(3): 246-255. [百度学术]
DUBCHAK I, MUCHNIK I, HOLBROOK S R, et al. Prediction of protein folding class using global description of amino acid sequence[J]. Proceedings of the National Academy of Sciences of the United States of America, 1995, 92(19): 8700-8704. [百度学术]
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City: IEEE, 2018: 7132-7141. [百度学术]
55
浏览量
239
下载量
0
CSCD
相关文章
相关作者
相关机构