模块1: 化学信息学导论

演示分子相似性原理和Lipinski规则验证

SMILES快速参考

📝 SMILES符号含义快速说明（点击展开/折叠）

基本书写规则

原子符号：大写字母表示碳，小写字母表示其他原子（如C=碳，O=氧，N=氮，S=硫，P=磷）
单键：默认隐式表示，不需要特殊符号
双键：使用 = 表示（如 C=C）
三键：使用 # 表示（如 C#N）
支链：使用括号 () 表示（如 CC(C)C 表示异丁烷）

环结构表示

环：使用数字表示环的连接点（如 C1CCCC1 表示环戊烷）
芳香环：小写字母表示芳香碳（如 c1ccccc1 表示苯）
环编号：相同数字的两个原子形成闭环

常见基团示例

C = 甲烷 (CH₄)

CC = 乙烷 (C₂H₆)

C=C = 乙烯 (C₂H₄)

C#C = 乙炔 (C₂H₂)

C1CCCC1 = 环戊烷

c1ccccc1 = 苯

CCO = 乙醇 (CH₃CH₂OH)

CC(=O)O = 乙酸

CCN(CC)CC = 三乙胺

CC(C)C = 异丁烷

特殊符号

[ ]：方括号用于表示带电荷或特殊杂化的原子（如 [Na+]、[NH4+]）
.：点号表示离子或分离的片段（如 [Na+].[Cl-]）
@ 和 @@：表示手性中心（@ = S构型，@@ = R构型）
/ 和 \：表示立体化学中的顺反异构

氢原子处理

隐式氢：大多数情况下氢原子不需要显式写出，系统会自动补全
显式氢：当需要时使用 [H] 表示（如 [H][H] = H₂）

分子相似性原理（基于Tanimoto系数）

📊 什么是Tanimoto系数？（点击展开/折叠）

Tanimoto系数（也称为Jaccard系数）是衡量两个分子相似程度的数学指标，广泛应用于化学信息学和药物发现领域。

工作原理：

将分子转换为分子指纹（bit向量），表示分子的结构特征
计算两个指纹的交集（共同特征）和并集（所有特征）
相似度 = 交集大小 / 并集大小

🔬 分子指纹如何计算？（点击展开）

什么是分子指纹？

分子指纹是一个固定长度的二进制向量（通常1024、2048或4096位），每一位（bit）代表分子的某个结构特征是否存在（1=存在，0=不存在）。

常用的指纹类型：

Morgan指纹（Extended-Connectivity Fingerprints, ECFP）：最常用的指纹类型
MACCS密钥：166位固定长度的预定义结构特征
RDKit指纹：基于路径的指纹
拓扑扭转指纹（Topological Torsion）：基于分子中的扭转角度

Morgan指纹计算过程（以ECFP4为例）：

从每个原子开始：将分子中的每个原子作为起点，分配初始标识符（通常基于原子类型、连接度等）
迭代扩展（半径=2，即ECFP4）：
- 迭代0：考虑原子本身
- 迭代1：考虑原子及其直接连接的原子
- 迭代2：考虑原子及其2键距离内的所有原子
生成子结构模式：对每个原子周围的子结构（半径内的邻居）生成唯一的标识符
哈希到指纹位：将每个子结构标识符通过哈希函数映射到指纹的某个位位置，将该位置设置为1
形成最终指纹：所有被设置为1的位组成最终的分子指纹向量

示例：计算苯的指纹

分子：苯 (c1ccccc1) - 6个碳原子组成的芳香环

过程：

从每个碳原子开始
识别特征：C(芳香)、C=C(双键)、环结构等
扩展到2键半径：识别苯环、芳香体系等模式
哈希到指纹位：例如，芳香环模式 → 位123为1，双键模式 → 位456为1
最终得到包含多个1的二进制向量

指纹参数说明：

半径（Radius）：控制子结构的大小。半径越大，考虑的范围越广（ECFP2, ECFP4, ECFP6）
长度（Length）：指纹向量的总位数。通常为1024、2048或4096位
哈希函数：将子结构标识符映射到位位置的数学函数

💡 为什么使用指纹？

高效比较：两个分子的比较只需要计算二进制向量的交集和并集，计算速度极快
固定长度：无论分子大小，指纹长度都相同，便于存储和索引
结构特征：能够捕捉分子的关键结构特征，如官能团、环系统等
相似性度量：指纹中共同的位越多，分子越相似

计算公式：


                                    Tanimoto = |A ∩ B| / |A ∪ B|

其中 A 和 B 分别是两个分子的指纹集合（即指纹中值为1的位的集合）

取值范围与含义：

0.0：完全不相似（无共同特征）
0.0 - 0.5：低相似度
0.5 - 0.8：中等相似度
0.8 - 1.0：高度相似
1.0：完全相同

💡 应用场景：

在药物发现中，Tanimoto系数帮助研究者：

寻找与已知活性化合物相似的候选分子
预测化合物的生物活性
进行虚拟筛选和化合物库搜索
分析构效关系（SAR）

输入分子1（SMILES）：

输入分子2（SMILES）：

Lipinski规则五验证

🔬 什么是Lipinski规则？（点击展开/折叠）

Lipinski规则（也称为"五规则"或"Rule of Five"）是由Christopher Lipinski在1997年提出的经验规则，用于评估化合物是否具有良好口服生物利用度的潜力。

五个判断标准：

分子量（MW）< 500 Da：小分子更容易被吸收
脂水分配系数（LogP）< 5：适度的脂溶性有助于跨膜运输
氢键供体数（HBD）≤ 5：过多的氢键供体会降低膜通透性
氢键受体数（HBA）≤ 10：过多的氢键受体会影响吸收

注：最初称为"五规则"是因为这些规则都与数字5相关，但实际是4个标准。

判定标准：

如果化合物违反2项或以上规则 → 可能口服吸收不良
如果违反少于2项规则 → 有较好口服生物利用度潜力

⚠️ 重要提示：

Lipinski规则是一个经验性指导原则，并非绝对定律：

符合规则的化合物不一定具有良好的生物活性
违反规则的化合物也可能成为有效的药物（如天然产物、生物制剂等）
规则主要适用于口服小分子药物，不适用于其他给药途径或大分子药物

💡 应用价值：

在药物研发早期阶段筛选候选化合物
预测化合物的ADMET（吸收、分布、代谢、排泄、毒性）性质
优化先导化合物的结构，提高成药性
减少后期开发中的失败风险

输入化合物SMILES：

模块2: 化学结构计算机表示

SMILES/InChI转换、MOL文件解析

标识符转换

输入类型：

输出类型：

MOL文件解析

粘贴MOL文件内容：

快速示例：

模块3: 化学数据表示

光谱数据可视化、属性数据管理

光谱数据可视化

输入JCAMP-DX数据或CID：

快速示例：

模块4: 公共化学数据库

PubChem/ChEMBL/ChEBI数据库对比查询

数据库查询

选择数据库：

模块5: PubChem文本搜索

标识符转换、Entrez索引筛选

文本搜索

搜索关键词：

模块6: PubChem结构搜索

身份/子结构/相似性搜索

结构搜索

搜索类型：

模块7: 数据库编程访问（PUG-REST）

PUG-REST请求生成器

输入类型：

操作类型：

选择属性：

输出格式：

PUG-REST URL：