Skip to content
This repository has been archived by the owner on May 28, 2023. It is now read-only.

markdown中的LaTeX公式批量转换到外部API

Mike Hongshuai Luo edited this page May 8, 2018 · 3 revisions

我们试图将markdown文件中的LaTeX公式识别出来.

标记公式的美元符号是否都是成对出现的? (若一对美元符号之间相隔太远, 则可能不是)

是否有不用于标记公式的普通美元符号存在呢?

行内公式

本书主要关注概率模型,形式是$p(y|X)$或者$p(x)$,取决于监督学习还是无监督学习。

行间公式

不一定上下都有空行, 注意其后的编号标签

$p(y=c|x,D,K) = \frac{1}{K} \sum_{i\in N_{K(x,D)}}\prod (y_i=c)$ (1.2)

使用了$$格式的行间公式

$$
\prod (e) = \begin{cases} 1 & \text{if e is true}  \\
0 & \text{if e is false}
\end{cases}
$$(1.3)

脚本处理的思路

逐行读入, 有如下可能

  • 本行不含任何公式或含有行内公式
  • 本行是一个单独一行的行内公式, 注意可能有编号
  • 本行是行间公式的开始
  • 本行是行间公式的内容
  • 本行是行间公式的结束, 注意可能有编号

如果是行间公式的开始, 则标记 interline_equation_flag

如果 interline_equation_flag , 则将本行读入 interline_equation