H2 实验记录：无监督表示学习中的上下文泄露（Context Leakage）

0. 实验动机

在单细胞转录组建模中，我的长期目标是理解：

微观分子层面的扰动（如基因调控变化）是如何通过非线性网络传导，最终引发宏观表型变化的。

但在进入“扰动 → 表型”建模之前，一个更基础、也更危险的问题必须先被验证：

无监督表示学习（embedding）是否会系统性地编码实验上下文（batch / chip），从而形成 shortcut，干扰后续的生物因果建模？

这就是我当前假设 H2 的核心。

1. 数据与实验设置

1.1 数据集

数据集：GSE273656（单细胞 RNA-seq）
物种：Mus musculus
细胞数：2418
基因数：18683

1.2 数据结构

从原始 R 对象中提取并导出为三文件（R → Python 桥接）：

X.mtx：表达矩阵（cells × genes）
meta.csv：细胞级元数据
genes.tsv：基因名列表

在本实验中，元数据中使用的关键列为：

Group：{chip1, chip2} —— 实验上下文（batch / chip）
Sample：{27, 30, 34, 36} —— 生物实验条件 / 状态编号

2. 实验问题（H2-Experiment-1）

本实验不试图预测任何生物表型，只验证一个更基础的问题：

在不使用上下文标签进行训练的情况下，学到的 embedding 中是否仍然包含可被线性模型读出的上下文信息？

如果答案是“是”，那么说明：

embedding 已经被上下文主导
后续任何“扰动 → 表型”的映射都有被 shortcut 误导的风险

3. 方法

3.1 表示学习（无监督）

使用两种常见方法学习低维 embedding（latent dim = 16）：

PCA（线性基线）
AutoEncoder（AE）
- 结构：18683 → 512 → 64 → 16 → 64 → 512 → 18683
- Loss：MSE
- Optimizer：Adam
- Epochs：30

训练过程中 不使用 Group / Sample 信息。

3.2 泄露测试（Linear Probe）

对每种 embedding，训练一个线性分类器（Logistic Regression）：

输入：embedding z
目标：Group（chip1 vs chip2）
指标：Accuracy / ROC-AUC / F1

3.3 两种数据划分协议

为了区分“同分布拟合”和“跨条件泛化”，采用两种 split：

Random split
- 80/20
- 按 Group 分层
Holdout Sample split
- 留出 Sample = 36 的所有细胞作为测试集
- 训练集中完全不包含该 Sample

第二种 split 用于验证：
上下文信息是否可以跨生物条件泛化。

4. 实验结果

4.1 PCA Embedding

Split	Accuracy	ROC-AUC
Random	0.973	0.9966
Holdout Sample=36	0.961	0.9948

观察：

PCA embedding 几乎可以完美预测 chip
即使在完全未见过的 Sample 上，性能几乎不下降

4.2 AutoEncoder Embedding

Split	Accuracy	ROC-AUC
Random	0.839	0.876
Holdout Sample=36	0.823	0.895

观察：

AE 相比 PCA 有一定缓解，但泄露仍然显著
上下文信息依然可跨 Sample 泛化

5. 结果解读

5.1 核心发现

上下文泄露非常强
- PCA + 线性探针几乎完全恢复 chip 信息（AUC ≈ 0.995）
泄露不是偶然或过拟合
- 在 holdout Sample 条件下依然成立
非线性模型并不能自动解决问题
- AE 仍然倾向于将上下文作为“捷径特征”

5.2 对研究主线的意义

这意味着：

如果不对表示学习过程施加约束，模型更可能学习“实验是在哪个 chip 上做的”，而不是“生物系统本身的变化”。

在这种情况下，任何后续的：

扰动效应建模
动态轨迹推断
微观 → 宏观映射

都存在被上下文主导的风险。

6. 阶段性结论（H2）

本实验为假设 H2 提供了直接实验证据：

无监督表示学习会系统性地将实验上下文编码进 embedding，且这种编码具有跨条件泛化能力。

这一步不是提出解决方案，而是确认问题真实存在且足够严重。

7. 下一步计划

下一阶段将不再讨论“是否存在泄露”，而是聚焦于：

如何缓解上下文泄露
在压制上下文信息的同时，尽量保留生物信号

候选方向包括：

对抗去上下文（Domain-Adversarial AE）
不变性正则（HSIC / MMD / Mutual Information）
上下文–生物子空间显式分解

8. 备注

本实验是一个最小可行验证（MVP），其价值在于：

明确问题
定量现象
为方法设计提供可比较的 baseline

而不是给出最终模型。

0. 实验动机#

1. 数据与实验设置#

1.1 数据集#

1.2 数据结构#

2. 实验问题（H2-Experiment-1）#

3. 方法#

3.1 表示学习（无监督）#

3.2 泄露测试（Linear Probe）#

3.3 两种数据划分协议#

4. 实验结果#

4.1 PCA Embedding#

4.2 AutoEncoder Embedding#

5. 结果解读#

5.1 核心发现#

5.2 对研究主线的意义#

6. 阶段性结论（H2）#

7. 下一步计划#

8. 备注#