模块1: 化学信息学导论

演示分子相似性原理和Lipinski规则验证

SMILES快速参考

📝 SMILES符号含义快速说明(点击展开/折叠)

基本书写规则

  • 原子符号:大写字母表示碳,小写字母表示其他原子(如C=碳,O=氧,N=氮,S=硫,P=磷)
  • 单键:默认隐式表示,不需要特殊符号
  • 双键:使用 = 表示(如 C=C
  • 三键:使用 # 表示(如 C#N
  • 支链:使用括号 () 表示(如 CC(C)C 表示异丁烷)

环结构表示

  • 环:使用数字表示环的连接点(如 C1CCCC1 表示环戊烷)
  • 芳香环:小写字母表示芳香碳(如 c1ccccc1 表示苯)
  • 环编号:相同数字的两个原子形成闭环

常见基团示例

C = 甲烷 (CH₄)
CC = 乙烷 (C₂H₆)
C=C = 乙烯 (C₂H₄)
C#C = 乙炔 (C₂H₂)
C1CCCC1 = 环戊烷
c1ccccc1 = 苯
CCO = 乙醇 (CH₃CH₂OH)
CC(=O)O = 乙酸
CCN(CC)CC = 三乙胺
CC(C)C = 异丁烷

特殊符号

  • [ ]:方括号用于表示带电荷或特殊杂化的原子(如 [Na+][NH4+]
  • .:点号表示离子或分离的片段(如 [Na+].[Cl-]
  • @ 和 @@:表示手性中心(@ = S构型,@@ = R构型)
  • / 和 \:表示立体化学中的顺反异构

氢原子处理

  • 隐式氢:大多数情况下氢原子不需要显式写出,系统会自动补全
  • 显式氢:当需要时使用 [H] 表示(如 [H][H] = H₂)

分子相似性原理(基于Tanimoto系数)

📊 什么是Tanimoto系数?(点击展开/折叠)

Tanimoto系数(也称为Jaccard系数)是衡量两个分子相似程度的数学指标,广泛应用于化学信息学和药物发现领域。

工作原理:
  • 将分子转换为分子指纹(bit向量),表示分子的结构特征
  • 计算两个指纹的交集(共同特征)和并集(所有特征)
  • 相似度 = 交集大小 / 并集大小
🔬 分子指纹如何计算?(点击展开)
什么是分子指纹?

分子指纹是一个固定长度的二进制向量(通常1024、2048或4096位),每一位(bit)代表分子的某个结构特征是否存在(1=存在,0=不存在)。

常用的指纹类型:
  • Morgan指纹(Extended-Connectivity Fingerprints, ECFP):最常用的指纹类型
  • MACCS密钥:166位固定长度的预定义结构特征
  • RDKit指纹:基于路径的指纹
  • 拓扑扭转指纹(Topological Torsion):基于分子中的扭转角度
Morgan指纹计算过程(以ECFP4为例):
  1. 从每个原子开始:将分子中的每个原子作为起点,分配初始标识符(通常基于原子类型、连接度等)
  2. 迭代扩展(半径=2,即ECFP4):
    • 迭代0:考虑原子本身
    • 迭代1:考虑原子及其直接连接的原子
    • 迭代2:考虑原子及其2键距离内的所有原子
  3. 生成子结构模式:对每个原子周围的子结构(半径内的邻居)生成唯一的标识符
  4. 哈希到指纹位:将每个子结构标识符通过哈希函数映射到指纹的某个位位置,将该位置设置为1
  5. 形成最终指纹:所有被设置为1的位组成最终的分子指纹向量
示例:计算苯的指纹

分子:苯 (c1ccccc1) - 6个碳原子组成的芳香环

过程:

  • 从每个碳原子开始
  • 识别特征:C(芳香)、C=C(双键)、环结构等
  • 扩展到2键半径:识别苯环、芳香体系等模式
  • 哈希到指纹位:例如,芳香环模式 → 位123为1,双键模式 → 位456为1
  • 最终得到包含多个1的二进制向量
指纹参数说明:
  • 半径(Radius):控制子结构的大小。半径越大,考虑的范围越广(ECFP2, ECFP4, ECFP6)
  • 长度(Length):指纹向量的总位数。通常为1024、2048或4096位
  • 哈希函数:将子结构标识符映射到位位置的数学函数
💡 为什么使用指纹?
  • 高效比较:两个分子的比较只需要计算二进制向量的交集和并集,计算速度极快
  • 固定长度:无论分子大小,指纹长度都相同,便于存储和索引
  • 结构特征:能够捕捉分子的关键结构特征,如官能团、环系统等
  • 相似性度量:指纹中共同的位越多,分子越相似
计算公式: Tanimoto = |A ∩ B| / |A ∪ B|

其中 A 和 B 分别是两个分子的指纹集合(即指纹中值为1的位的集合)

取值范围与含义:
  • 0.0:完全不相似(无共同特征)
  • 0.0 - 0.5:低相似度
  • 0.5 - 0.8:中等相似度
  • 0.8 - 1.0:高度相似
  • 1.0:完全相同
💡 应用场景:

在药物发现中,Tanimoto系数帮助研究者:

  • 寻找与已知活性化合物相似的候选分子
  • 预测化合物的生物活性
  • 进行虚拟筛选和化合物库搜索
  • 分析构效关系(SAR)

Lipinski规则五验证

🔬 什么是Lipinski规则?(点击展开/折叠)

Lipinski规则(也称为"五规则"或"Rule of Five")是由Christopher Lipinski在1997年提出的经验规则,用于评估化合物是否具有良好口服生物利用度的潜力。

五个判断标准:
  • 分子量(MW)< 500 Da:小分子更容易被吸收
  • 脂水分配系数(LogP)< 5:适度的脂溶性有助于跨膜运输
  • 氢键供体数(HBD)≤ 5:过多的氢键供体会降低膜通透性
  • 氢键受体数(HBA)≤ 10:过多的氢键受体会影响吸收

注:最初称为"五规则"是因为这些规则都与数字5相关,但实际是4个标准。

判定标准:
  • 如果化合物违反2项或以上规则 → 可能口服吸收不良
  • 如果违反少于2项规则 → 有较好口服生物利用度潜力
⚠️ 重要提示:

Lipinski规则是一个经验性指导原则,并非绝对定律:

  • 符合规则的化合物不一定具有良好的生物活性
  • 违反规则的化合物也可能成为有效的药物(如天然产物、生物制剂等)
  • 规则主要适用于口服小分子药物,不适用于其他给药途径或大分子药物
💡 应用价值:
  • 在药物研发早期阶段筛选候选化合物
  • 预测化合物的ADMET(吸收、分布、代谢、排泄、毒性)性质
  • 优化先导化合物的结构,提高成药性
  • 减少后期开发中的失败风险

模块2: 化学结构计算机表示

SMILES/InChI转换、MOL文件解析

标识符转换

MOL文件解析

快速示例:

模块3: 化学数据表示

光谱数据可视化、属性数据管理

光谱数据可视化

快速示例:

模块4: 公共化学数据库

PubChem/ChEMBL/ChEBI数据库对比查询

数据库查询

模块5: PubChem文本搜索

标识符转换、Entrez索引筛选

文本搜索

模块6: PubChem结构搜索

身份/子结构/相似性搜索

结构搜索

模块7: 数据库编程访问(PUG-REST)

PUG-REST请求生成器

PUG-REST请求生成器