cryo-EM,特别是SPA,发展越来越成熟,从数据收集到处理,流程已经非常完善。3D refine仍然是最耗时的步骤:低SNR,ill-posed问题。
结构异质性(structural heterogeneity)问题,是结构生物学的一个重要问题,主要是生物大分子(例如蛋白质、核酸)并非处于一种构象,见Figure 1。
- 构象异质性(conformational heterogeneity)
- 组分异质性(compositional heterogeneity)
当前成熟的算法主要处理不含异质性,或者含有少量异质性的数据。主要方法是类似K-means的3D分类算法,能够处理的异质性为若干离散类的异质性。
- 关于异质性的探索通常需要依赖一定的正则,否则问题更加ill-posed。再加上低信噪比,有过多的参数容易过拟合。
- 现有3D分类方法(RELION、CryoSPARC、THUNDER)使用了一个spectral noise model来防止过拟合。
- 3D分类将颗粒拆分为离散的类别,但是SNR和颗粒数量呈线性关系,这使得颗粒数不足的数据很难使用3D分类获得好结果。
- 3D分类需要人工监督、手动调整参数,反复重跑试错。
本文综述其他结构异质性建模方法,这些方法会给每个颗粒赋予一个结构异质性参数,该参数决定了该颗粒对应的构象。如前所述,这会导致参数过多容易过拟合。因此对于结构异质性的建模需要一定的正则。作者认为这些方法,特别是深度学习,很难估计误差和过拟合程度。
模型:
- 算法(\mathcal{F}),将每个颗粒映射到结构异质性参数;
- 算法(\mathcal{G}),将每个构象异质性参数映射到构象;
- 某种形式的正则。
Eg. 线性模型,例如3D分类,3DVA: [\min\left|\frac{1}{\sigma^2}\left[y-\mathcal{C}\mathcal{P}\left(\sum_{i=1}^K z_iV_i\right)\right]\right|^2]
Eg. 非线性模型,例如VAE: [z=\mathcal{F}(y)] [\min\left|\frac{1}{\sigma^2}\left[y-\mathcal{C}\mathcal{P}\mathcal{G}(z)\right]\right|^2]
Overfitting的来源:
- Memorization?
- 极低的SNR。
- 实域 v.s. Fourier域
- Fourier域:传统方法,更方便计算一些算子:投影(取截面)、CTF等。
- 实域:更方便建模一些正则,例如:mask、局部形变、光滑性等。Figure 2。
Table 1.