0. 实验动机
在单细胞转录组建模中,我的长期目标是理解:
微观分子层面的扰动(如基因调控变化)是如何通过非线性网络传导,最终引发宏观表型变化的。
但在进入“扰动 → 表型”建模之前,一个更基础、也更危险的问题必须先被验证:
无监督表示学习(embedding)是否会系统性地编码实验上下文(batch / chip),从而形成 shortcut,干扰后续的生物因果建模?
这就是我当前假设 H2 的核心。
1. 数据与实验设置
1.1 数据集
- 数据集:GSE273656(单细胞 RNA-seq)
- 物种:Mus musculus
- 细胞数:2418
- 基因数:18683
1.2 数据结构
从原始 R 对象中提取并导出为三文件(R → Python 桥接):
X.mtx:表达矩阵(cells × genes)meta.csv:细胞级元数据genes.tsv:基因名列表
在本实验中,元数据中使用的关键列为:
Group:{chip1, chip2} —— 实验上下文(batch / chip)Sample:{27, 30, 34, 36} —— 生物实验条件 / 状态编号
2. 实验问题(H2-Experiment-1)
本实验不试图预测任何生物表型,只验证一个更基础的问题:
在不使用上下文标签进行训练的情况下,学到的 embedding 中是否仍然包含可被线性模型读出的上下文信息?
如果答案是“是”,那么说明:
- embedding 已经被上下文主导
- 后续任何“扰动 → 表型”的映射都有被 shortcut 误导的风险
3. 方法
3.1 表示学习(无监督)
使用两种常见方法学习低维 embedding(latent dim = 16):
- PCA(线性基线)
- AutoEncoder(AE)
- 结构:18683 → 512 → 64 → 16 → 64 → 512 → 18683
- Loss:MSE
- Optimizer:Adam
- Epochs:30
训练过程中 不使用 Group / Sample 信息。
3.2 泄露测试(Linear Probe)
对每种 embedding,训练一个线性分类器(Logistic Regression):
- 输入:embedding
z - 目标:
Group(chip1 vs chip2) - 指标:Accuracy / ROC-AUC / F1
3.3 两种数据划分协议
为了区分“同分布拟合”和“跨条件泛化”,采用两种 split:
-
Random split
- 80/20
- 按 Group 分层
-
Holdout Sample split
- 留出
Sample = 36的所有细胞作为测试集 - 训练集中完全不包含该 Sample
- 留出
第二种 split 用于验证:
上下文信息是否可以跨生物条件泛化。
4. 实验结果
4.1 PCA Embedding
| Split | Accuracy | ROC-AUC |
|---|---|---|
| Random | 0.973 | 0.9966 |
| Holdout Sample=36 | 0.961 | 0.9948 |
观察:
- PCA embedding 几乎可以完美预测 chip
- 即使在完全未见过的 Sample 上,性能几乎不下降
4.2 AutoEncoder Embedding
| Split | Accuracy | ROC-AUC |
|---|---|---|
| Random | 0.839 | 0.876 |
| Holdout Sample=36 | 0.823 | 0.895 |
观察:
- AE 相比 PCA 有一定缓解,但泄露仍然显著
- 上下文信息依然可跨 Sample 泛化
5. 结果解读
5.1 核心发现
-
上下文泄露非常强
- PCA + 线性探针几乎完全恢复 chip 信息(AUC ≈ 0.995)
-
泄露不是偶然或过拟合
- 在 holdout Sample 条件下依然成立
-
非线性模型并不能自动解决问题
- AE 仍然倾向于将上下文作为“捷径特征”
5.2 对研究主线的意义
这意味着:
如果不对表示学习过程施加约束,模型更可能学习“实验是在哪个 chip 上做的”,而不是“生物系统本身的变化”。
在这种情况下,任何后续的:
- 扰动效应建模
- 动态轨迹推断
- 微观 → 宏观映射
都存在被上下文主导的风险。
6. 阶段性结论(H2)
本实验为假设 H2 提供了直接实验证据:
无监督表示学习会系统性地将实验上下文编码进 embedding,且这种编码具有跨条件泛化能力。
这一步不是提出解决方案,而是确认问题真实存在且足够严重。
7. 下一步计划
下一阶段将不再讨论“是否存在泄露”,而是聚焦于:
- 如何缓解上下文泄露
- 在压制上下文信息的同时,尽量保留生物信号
候选方向包括:
- 对抗去上下文(Domain-Adversarial AE)
- 不变性正则(HSIC / MMD / Mutual Information)
- 上下文–生物子空间显式分解
8. 备注
本实验是一个最小可行验证(MVP),其价值在于:
- 明确问题
- 定量现象
- 为方法设计提供可比较的 baseline
而不是给出最终模型。