0. 实验动机

在单细胞转录组建模中,我的长期目标是理解:

微观分子层面的扰动(如基因调控变化)是如何通过非线性网络传导,最终引发宏观表型变化的。

但在进入“扰动 → 表型”建模之前,一个更基础、也更危险的问题必须先被验证:

无监督表示学习(embedding)是否会系统性地编码实验上下文(batch / chip),从而形成 shortcut,干扰后续的生物因果建模?

这就是我当前假设 H2 的核心。


1. 数据与实验设置

1.1 数据集

  • 数据集:GSE273656(单细胞 RNA-seq)
  • 物种:Mus musculus
  • 细胞数:2418
  • 基因数:18683

1.2 数据结构

从原始 R 对象中提取并导出为三文件(R → Python 桥接):

  • X.mtx:表达矩阵(cells × genes)
  • meta.csv:细胞级元数据
  • genes.tsv:基因名列表

在本实验中,元数据中使用的关键列为:

  • Group:{chip1, chip2} —— 实验上下文(batch / chip)
  • Sample:{27, 30, 34, 36} —— 生物实验条件 / 状态编号

2. 实验问题(H2-Experiment-1)

本实验不试图预测任何生物表型,只验证一个更基础的问题:

在不使用上下文标签进行训练的情况下,学到的 embedding 中是否仍然包含可被线性模型读出的上下文信息?

如果答案是“是”,那么说明:

  • embedding 已经被上下文主导
  • 后续任何“扰动 → 表型”的映射都有被 shortcut 误导的风险

3. 方法

3.1 表示学习(无监督)

使用两种常见方法学习低维 embedding(latent dim = 16):

  1. PCA(线性基线)
  2. AutoEncoder(AE)
    • 结构:18683 → 512 → 64 → 16 → 64 → 512 → 18683
    • Loss:MSE
    • Optimizer:Adam
    • Epochs:30

训练过程中 不使用 Group / Sample 信息


3.2 泄露测试(Linear Probe)

对每种 embedding,训练一个线性分类器(Logistic Regression):

  • 输入:embedding z
  • 目标Group(chip1 vs chip2)
  • 指标:Accuracy / ROC-AUC / F1

3.3 两种数据划分协议

为了区分“同分布拟合”和“跨条件泛化”,采用两种 split:

  1. Random split

    • 80/20
    • 按 Group 分层
  2. Holdout Sample split

    • 留出 Sample = 36 的所有细胞作为测试集
    • 训练集中完全不包含该 Sample

第二种 split 用于验证:
上下文信息是否可以跨生物条件泛化


4. 实验结果

4.1 PCA Embedding

Split Accuracy ROC-AUC
Random 0.973 0.9966
Holdout Sample=36 0.961 0.9948

观察

  • PCA embedding 几乎可以完美预测 chip
  • 即使在完全未见过的 Sample 上,性能几乎不下降

4.2 AutoEncoder Embedding

Split Accuracy ROC-AUC
Random 0.839 0.876
Holdout Sample=36 0.823 0.895

观察

  • AE 相比 PCA 有一定缓解,但泄露仍然显著
  • 上下文信息依然可跨 Sample 泛化

5. 结果解读

5.1 核心发现

  1. 上下文泄露非常强

    • PCA + 线性探针几乎完全恢复 chip 信息(AUC ≈ 0.995)
  2. 泄露不是偶然或过拟合

    • 在 holdout Sample 条件下依然成立
  3. 非线性模型并不能自动解决问题

    • AE 仍然倾向于将上下文作为“捷径特征”

5.2 对研究主线的意义

这意味着:

如果不对表示学习过程施加约束,模型更可能学习“实验是在哪个 chip 上做的”,而不是“生物系统本身的变化”。

在这种情况下,任何后续的:

  • 扰动效应建模
  • 动态轨迹推断
  • 微观 → 宏观映射

都存在被上下文主导的风险。


6. 阶段性结论(H2)

本实验为假设 H2 提供了直接实验证据:

无监督表示学习会系统性地将实验上下文编码进 embedding,且这种编码具有跨条件泛化能力。

这一步不是提出解决方案,而是确认问题真实存在且足够严重


7. 下一步计划

下一阶段将不再讨论“是否存在泄露”,而是聚焦于:

  • 如何缓解上下文泄露
  • 在压制上下文信息的同时,尽量保留生物信号

候选方向包括:

  • 对抗去上下文(Domain-Adversarial AE)
  • 不变性正则(HSIC / MMD / Mutual Information)
  • 上下文–生物子空间显式分解

8. 备注

本实验是一个最小可行验证(MVP),其价值在于:

  • 明确问题
  • 定量现象
  • 为方法设计提供可比较的 baseline

而不是给出最终模型。