模块1: 化学信息学导论
演示分子相似性原理和Lipinski规则验证
SMILES快速参考
📝 SMILES符号含义快速说明(点击展开/折叠)
基本书写规则
- 原子符号:大写字母表示碳,小写字母表示其他原子(如C=碳,O=氧,N=氮,S=硫,P=磷)
- 单键:默认隐式表示,不需要特殊符号
- 双键:使用
=表示(如C=C) - 三键:使用
#表示(如C#N) - 支链:使用括号
()表示(如CC(C)C表示异丁烷)
环结构表示
- 环:使用数字表示环的连接点(如
C1CCCC1表示环戊烷) - 芳香环:小写字母表示芳香碳(如
c1ccccc1表示苯) - 环编号:相同数字的两个原子形成闭环
常见基团示例
C = 甲烷 (CH₄)
CC = 乙烷 (C₂H₆)
C=C = 乙烯 (C₂H₄)
C#C = 乙炔 (C₂H₂)
C1CCCC1 = 环戊烷
c1ccccc1 = 苯
CCO = 乙醇 (CH₃CH₂OH)
CC(=O)O = 乙酸
CCN(CC)CC = 三乙胺
CC(C)C = 异丁烷
特殊符号
- [ ]:方括号用于表示带电荷或特殊杂化的原子(如
[Na+]、[NH4+]) - .:点号表示离子或分离的片段(如
[Na+].[Cl-]) - @ 和 @@:表示手性中心(@ = S构型,@@ = R构型)
- / 和 \:表示立体化学中的顺反异构
氢原子处理
- 隐式氢:大多数情况下氢原子不需要显式写出,系统会自动补全
- 显式氢:当需要时使用
[H]表示(如[H][H]= H₂)
分子相似性原理(基于Tanimoto系数)
📊 什么是Tanimoto系数?(点击展开/折叠)
Tanimoto系数(也称为Jaccard系数)是衡量两个分子相似程度的数学指标,广泛应用于化学信息学和药物发现领域。
工作原理:
- 将分子转换为分子指纹(bit向量),表示分子的结构特征
- 计算两个指纹的交集(共同特征)和并集(所有特征)
- 相似度 = 交集大小 / 并集大小
🔬 分子指纹如何计算?(点击展开)
什么是分子指纹?
分子指纹是一个固定长度的二进制向量(通常1024、2048或4096位),每一位(bit)代表分子的某个结构特征是否存在(1=存在,0=不存在)。
常用的指纹类型:
- Morgan指纹(Extended-Connectivity Fingerprints, ECFP):最常用的指纹类型
- MACCS密钥:166位固定长度的预定义结构特征
- RDKit指纹:基于路径的指纹
- 拓扑扭转指纹(Topological Torsion):基于分子中的扭转角度
Morgan指纹计算过程(以ECFP4为例):
- 从每个原子开始:将分子中的每个原子作为起点,分配初始标识符(通常基于原子类型、连接度等)
-
迭代扩展(半径=2,即ECFP4):
- 迭代0:考虑原子本身
- 迭代1:考虑原子及其直接连接的原子
- 迭代2:考虑原子及其2键距离内的所有原子
- 生成子结构模式:对每个原子周围的子结构(半径内的邻居)生成唯一的标识符
- 哈希到指纹位:将每个子结构标识符通过哈希函数映射到指纹的某个位位置,将该位置设置为1
- 形成最终指纹:所有被设置为1的位组成最终的分子指纹向量
示例:计算苯的指纹
分子:苯 (c1ccccc1) - 6个碳原子组成的芳香环
过程:
- 从每个碳原子开始
- 识别特征:C(芳香)、C=C(双键)、环结构等
- 扩展到2键半径:识别苯环、芳香体系等模式
- 哈希到指纹位:例如,芳香环模式 → 位123为1,双键模式 → 位456为1
- 最终得到包含多个1的二进制向量
指纹参数说明:
- 半径(Radius):控制子结构的大小。半径越大,考虑的范围越广(ECFP2, ECFP4, ECFP6)
- 长度(Length):指纹向量的总位数。通常为1024、2048或4096位
- 哈希函数:将子结构标识符映射到位位置的数学函数
💡 为什么使用指纹?
- 高效比较:两个分子的比较只需要计算二进制向量的交集和并集,计算速度极快
- 固定长度:无论分子大小,指纹长度都相同,便于存储和索引
- 结构特征:能够捕捉分子的关键结构特征,如官能团、环系统等
- 相似性度量:指纹中共同的位越多,分子越相似
计算公式:
Tanimoto = |A ∩ B| / |A ∪ B|
其中 A 和 B 分别是两个分子的指纹集合(即指纹中值为1的位的集合)
取值范围与含义:
- 0.0:完全不相似(无共同特征)
- 0.0 - 0.5:低相似度
- 0.5 - 0.8:中等相似度
- 0.8 - 1.0:高度相似
- 1.0:完全相同
💡 应用场景:
在药物发现中,Tanimoto系数帮助研究者:
- 寻找与已知活性化合物相似的候选分子
- 预测化合物的生物活性
- 进行虚拟筛选和化合物库搜索
- 分析构效关系(SAR)
Lipinski规则五验证
🔬 什么是Lipinski规则?(点击展开/折叠)
Lipinski规则(也称为"五规则"或"Rule of Five")是由Christopher Lipinski在1997年提出的经验规则,用于评估化合物是否具有良好口服生物利用度的潜力。
五个判断标准:
- 分子量(MW)< 500 Da:小分子更容易被吸收
- 脂水分配系数(LogP)< 5:适度的脂溶性有助于跨膜运输
- 氢键供体数(HBD)≤ 5:过多的氢键供体会降低膜通透性
- 氢键受体数(HBA)≤ 10:过多的氢键受体会影响吸收
注:最初称为"五规则"是因为这些规则都与数字5相关,但实际是4个标准。
判定标准:
- 如果化合物违反2项或以上规则 → 可能口服吸收不良
- 如果违反少于2项规则 → 有较好口服生物利用度潜力
⚠️ 重要提示:
Lipinski规则是一个经验性指导原则,并非绝对定律:
- 符合规则的化合物不一定具有良好的生物活性
- 违反规则的化合物也可能成为有效的药物(如天然产物、生物制剂等)
- 规则主要适用于口服小分子药物,不适用于其他给药途径或大分子药物
💡 应用价值:
- 在药物研发早期阶段筛选候选化合物
- 预测化合物的ADMET(吸收、分布、代谢、排泄、毒性)性质
- 优化先导化合物的结构,提高成药性
- 减少后期开发中的失败风险
模块2: 化学结构计算机表示
SMILES/InChI转换、MOL文件解析
标识符转换
MOL文件解析
快速示例:
模块3: 化学数据表示
光谱数据可视化、属性数据管理
光谱数据可视化
快速示例:
模块4: 公共化学数据库
PubChem/ChEMBL/ChEBI数据库对比查询
数据库查询
模块5: PubChem文本搜索
标识符转换、Entrez索引筛选
文本搜索
模块6: PubChem结构搜索
身份/子结构/相似性搜索
结构搜索
模块7: 数据库编程访问(PUG-REST)
PUG-REST请求生成器