简介

本文《GAMES101-现代计算机图形学入门》系列教程的课程笔记，仅用于个人学习使用。

二维变换

二维变换是指二维在平面中进行的变换，一个二维的点经过变换后会得到变成另一个点（一个新的坐标）。

缩放

缩放是指点 $ (x_0, y_0) $ 经过缩放因子 $ S(x, y) $ 变换之后形成新的点 $ (x_1, y_1) $，它们间的关系是：

$$ x_1 = S_x \times x_0 $$

$$ y_1 = S_y \times y_0 $$

写成矩阵的形式就是：

$$ \begin{bmatrix} x_1 \\ y_1 \end{bmatrix} = \begin{bmatrix} S_x & 0 \\ 0 & S_y \end{bmatrix} \begin{bmatrix} x_0 \\ y_0 \end{bmatrix} $$

镜像是一个非常常见的缩放变换，只需要把缩放因子变成负数即可实现某个方向的镜像。如当缩放因子是 $ (-1, 1) $ 时，经过缩放变换之后的图形就是以 Y 轴为对称轴的镜像。

旋转

旋转是指绕一点作为旋转中心，旋转 $ \theta $ 角度的变换。如上图所示，该正方形绕原点旋转了 $ \theta $ 角度。假设正方形的边长为 1，那么我们很容易可以得到如下的关系：

$$ \begin{bmatrix} x_1 \\ y_1 \end{bmatrix} = \begin{bmatrix} A & B \\ C & D \end{bmatrix} \begin{bmatrix} x_0 \\ y_0 \end{bmatrix} $$

对于右下角的点，变换前的坐标是 $ (1, 0) $，变换后的坐标是 $ (cos \theta, sin \theta) $，我们可以得到如下的关系：

$$ \begin{bmatrix} cos \theta \\ sin \theta \end{bmatrix} = \begin{bmatrix} A & B \\ C & D \end{bmatrix} \begin{bmatrix} 1 \\ 0 \end{bmatrix} $$

$$ cos \theta = A \times 1 + B \times 0 = A $$

$$ sin \theta = C \times 1 + D \times 0 = C $$

同理，对于左上角的点，变换前的坐标为 $ (0, 1) $，变换后的坐标为 $ (-sin \theta, cos \theta) $，我们同样可以得到如下的关系：

$$ \begin{bmatrix} -sin \theta \\ cos \theta \end{bmatrix} = \begin{bmatrix} A & B \\ C & D \end{bmatrix} \begin{bmatrix} 0 \\ 1 \end{bmatrix} $$

$$ -sin \theta = A \times 0 + B \times 1 = B $$

$$ cos \theta = C \times 0 + D \times 1 = D $$

这样我们就得到了旋转矩阵：

$$ R_\theta = \begin{bmatrix} cos \theta & -sin \theta \\ sin \theta & cos \theta \end{bmatrix} $$

线性变换

通过上面的例子我们可以发现，缩放和旋转都能以线性变换的形式来表示，即：

$$ x_1 = ax_0 + by_0 $$

$$ y_1 = cx_0 + dy_0 $$

以矩阵的形式来表示即：

$$ \begin{bmatrix} x_1 \\ y_1 \end{bmatrix} = \begin{bmatrix} A & B \\ C & D \end{bmatrix} \begin{bmatrix} x_0 \\ y_0 \end{bmatrix} $$

如果变换可以通过以矩阵M 与点相乘然后得到一个新的点的话，那么这种变换就可以称为是线性变换。

平移

平移就是把 $ (x, y) $ 移动一段距离 $ (T_x, T_y) $ 然后得到一个新的坐标，即：

$$ x_1 = x_0 + T_x $$

$$ y_1 = y_0 + T_y $$

齐次坐标

观察平移的公式后可以发现，我们不能像缩放和旋转那样写出一个类似的平移矩阵。我们必须把带有平移的变换写成如下的形式：

$$ \begin{bmatrix} x_1 \\ y_1 \end{bmatrix} = \begin{bmatrix} A & B \\ C & D \end{bmatrix} \begin{bmatrix} x_0 \\ y_0 \end{bmatrix} + \begin{bmatrix} T_x \\ T_y \end{bmatrix} $$

我们希望有一个工具来统一所有变换，这个工具就是 —— 齐次坐标。

齐次坐标是再给点、向量增加一个 w 维度：

2D 点： $ (x, y, 1) $
2D 向量： $ (x, y, 0) $

当点、向量增加一个 w 纬度之后，我们就可以把上述带有平移的变换写成如下的形式：

$$ \begin{bmatrix} x_1 \\ y_1 \\ w_1 \end{bmatrix} = \begin{bmatrix} A & B & T_x \\ C & D & T_y \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} x_0 \\ y_0 \\ w_0 \end{bmatrix} $$

因此，在齐次坐标下，我们就可以用一个矩阵来同时表示平移、旋转、缩放三种变换了。

并且，由于向量具有平移不变性，因此 w 为 0 的时候刚好能保证平移矩阵与向量相乘时，w 分量依然保持 0，如：

$$ \begin{bmatrix} x_1 \\ y_1 \\ w_1 \end{bmatrix} = \begin{bmatrix} 1 & 0 & T_x \\ 0 & 1 & T_y \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} x_0 \\ y_0 \\ 0 \end{bmatrix} = \begin{bmatrix} x_0 + T_x \\ y_0 + T_y \\ 0 \end{bmatrix} $$

另外，对于 w 分量，还有些相关的结论：

向量 + 向量 = 向量
- 因为 $ w_1 + w_2 = 0 $
点 - 点 = 向量
- 因为 $ w_1 - w_2 = 0 $
点 + 向量 = 点
- 因为 $ w_1 + w_2 = 1 $
点 + 点 = 这两点的中点
- 因为 $ w_1 + w_2 = 2 $，在齐次坐标下，点的 w 分量为 1，所以结果要除以 2，得到的结果正是两点的中点位置

逆变换

逆变换是指把已应用的变换还原的变换，在数学上是指变换矩阵的逆矩阵 $ M^{-1} $。

仿射变换

$$ 仿射变换 = 线性变换 + 平移 $$

$$ \begin{bmatrix} x_1 \\ y_1 \end{bmatrix} = \begin{bmatrix} A & B \\ C & D \end{bmatrix} \begin{bmatrix} x_0 \\ y_0 \end{bmatrix} + \begin{bmatrix} T_x \\ T_y \end{bmatrix} $$

其对应的齐次坐标的形式为：

$$ \begin{bmatrix} x_1 \\ y_1 \\ 1 \end{bmatrix} = \begin{bmatrix} A & B & T_x \\ C & D & T_y \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} x_0 \\ y_0 \\ 1 \end{bmatrix} $$

相对于仿射变换，齐次坐标有如下优点：

可以用一个矩阵来表示平移、旋转、缩放三种变换。
逆变换可以通过逆矩阵来表示。

我们可以把平移、旋转、缩放三种变换分别以齐次坐标的形式表示：

$$ T_{(x, y)} = \begin{bmatrix} 0 & 0 & T_x \\ 0 & 0 & T_y \\ 0 & 0 & 1 \end{bmatrix} $$

$$ R_{(\theta)} = \begin{bmatrix} cos \theta & -sin \theta & 0 \\ sin \theta & cos \theta & 0 \\ 0 & 0 & 1 \end{bmatrix} $$

$$ S_{(x, y)} = \begin{bmatrix} S_x & 0 & 0 \\ 0 & S_y & 0 \\ 0 & 0 & 1 \end{bmatrix} $$

在仿射变换下，变换的先后顺序是先进行线性变换，然后再进行平移变换。

组合变换

矩阵乘法没有交换律，所以两种变换是不能调换顺序的。即先平移再旋转并不等于先旋转再平移的结果。因此，应用变换的顺序很重要。

而在应用变换的时候，是根据从右往左的顺序来进行的。

$$ T \cdot R \cdot \begin{bmatrix} x \\ y \\ 1 \end{bmatrix} $$

上面这个变换表示先进行旋转，然后再进行平移。

矩阵乘法满足结合律，因此有：

$$ A_n( \cdots A_2( A_1 \cdot \begin{bmatrix} x \\ y \\ 1 \end{bmatrix} ) = A_n \cdots A_2 \cdot A_1 \cdot \begin{bmatrix} x \\ y \\ 1 \end{bmatrix} $$

观察右边的式子，我们可以预先计算 $ T = A_n \cdots A_2 \cdot A_1 $，然后直接 $ T \cdot \begin{bmatrix} x \\ y \\ 1 \end{bmatrix} $ 即可。这是一种优化计算的手段。

分解复杂变换

默认情况下，旋转是绕原点进行的。如果想自定义旋转中心，可以通过如下的组合变换来实现：

把旋转中心平移到原点
进行旋转
把旋转中心平移回原来的位置

三维变换

三维变换与二维变换类似，只是多了一个 z 维度。在齐次坐标下，

3D 点表示为 $ (x, y, z, 1) $
3D 向量表示为 $ (x, y, z, 0) $

通常，$ (x, y, z, w) $ 在 $ w \ne 0 $ 时表示为一个 3D 的点，它的坐标为 $ (x/w, y/w, z/w) $。

我们会用一个 $ 4 \times 4 $ 的矩阵来表示三维变换：

$$ \begin{bmatrix} x_1 \\ y_1 \\ z_1 \\ 1 \end{bmatrix} = \begin{bmatrix} A & B & C & T_x \\ D & E & F & T_y \\ G & H & I & T_z \\ 0 & 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} x_0 \\ y_0 \\ z_0 \\ 1 \end{bmatrix} $$

正交矩阵

仔细观察一下旋转矩阵，和它的逆矩阵、转置矩阵，我们会发现一个有趣的现象：

$$ R_\theta = \begin{bmatrix} cos \theta & -sin \theta \\ sin \theta & cos \theta \end{bmatrix} $$

$$ R_{-\theta} = \begin{bmatrix} cos \theta & sin \theta \\ -sin \theta & cos \theta \end{bmatrix} $$

$$ {R_\theta}^T = \begin{bmatrix} cos \theta & sin \theta \\ -sin \theta & cos \theta \end{bmatrix} $$

$$ R_{-\theta} = {R_\theta}^T $$

旋转矩阵的逆矩阵与它的转置矩阵相同。我们可以利用旋转矩阵的这个性质来求它的逆矩阵。

另外，当一个矩阵的逆矩阵等于该矩阵的转置矩阵时，这个矩阵称为正交矩阵，因此旋转矩阵也是一个正交矩阵。

观测变换 (Viewing Transformation)

观测变换是为了把三维空间变换成二维空间（屏幕），它由两部分组成：

视图变换 (View Transformation)
投影变换 (Projection Transformation)
- 正交投影
- 透视投影

视图变换

摄像机与物体的相对距离，会影响最终图像的效果。换句话说，无论是移动物体还是移动摄像机，只要保持两者的相对距离不变，那么我们就能得到相同的图像。

因此，我们可以把摄像机放到原点位置，朝向 -Z 方向，其他物体与摄像机保持相对位置不变，我们就能得到与世界空间下拍摄到的一样的图像了。

视图变换是用来把世界空间变换成摄像机空间。如下图所示：

(世界空间)

(摄像机空间)

要确定视图变换，我们需要确定三个变量：

摄像机的位置
目标位置
摄像机的上方向

如何世界空间下的摄像机变换成视图空间呢？我们可以通过以下步骤：

把摄像机移动到原点
把摄像机的上方向调整成与 Y 一致，并让摄像机往 -Z 方向看

这些步骤就是视图变换（View Transformation）了，即：

$$ M_{view} = R_{view} \cdot T_{view} $$

假设摄像机所在的世界坐标是 $ (x, y, z) $，那么：

$$ T_{view} = \begin{bmatrix} 1 & 0 & 0 & -x \\\ 0 & 1 & 0 & -y \\\ 0 & 0 & 1 & -z \\\ 0 & 0 & 0 & 1 \end{bmatrix} $$

假设摄像机的的上方向为 $ \hat t $，同时往 $ \hat g $ 方向看，由于 $ \hat e $、$ \hat t $、$ \hat g $ 是摄像机的本地坐标系，因此三者相互垂直，所有有：

$$ \hat e = \hat g \times \hat t $$

接下来需要求 $ R_{view} $，它是一个把摄像机的本地坐标系旋转成标准直角坐标系的变换，直接计算会比较复杂。

幸运的是，我们可以利用旋转矩阵是正交矩阵的特性，来求 $ R_{view} $。

首先求它的逆矩阵：

$$ {R_{view}}^{-1} \begin{bmatrix} x_{\hat g \times \hat t} & x_t & x_{-g} & 0 \\\ y_{\hat g \times \hat t} & y_t & y_{-g} & 0 \\\ z_{\hat g \times \hat t} & z_t & z_{-g} & 0 \\\ 0 & 0 & 0 & 1 \end{bmatrix} $$

然后再进行一次转置操作即可：

$$ R_{view} = {{R_{view}}^{-1}}^T = \begin{bmatrix} x_{\hat g \times \hat t} & y_{\hat g \times \hat t} & z_{\hat g \times \hat t} & 0 \\\ x_t & y_t & z_t & 0 \\\ x_{-g} & y_{-g} & z_{-g} & 0 \\\ 0 & 0 & 0 & 1 \end{bmatrix} $$

最后，我们就可以得到视图矩阵：

$$ M_{view} = R_{view} \cdot T_{view} = \begin{bmatrix} x_{\hat g \times \hat t} & y_{\hat g \times \hat t} & z_{\hat g \times \hat t} & -x \\\ x_t & y_t & z_t & -y \\\ x_{-g} & y_{-g} & z_{-g} & -z \\\ 0 & 0 & 0 & 1 \end{bmatrix} $$

投影变换

投影矩阵的作用是把三维空间变换成二维空间，即图片。

常见的投影有两种：

正交投影（不会出现近大远小的现象）
透视投影（会出现近大远小的现象，透视投影下的平行线最终会汇聚在一点）

正交投影

在图形学中，正交投影是把 $ [l, r] \times [b, t] \times [f, n] $ 构成的空间压缩成 $ [-1, 1]^3 $ 的立方体中。

其中：

l = left
r = right
b = bottom
t = top
f = far
n = near

注意：因为摄像机是朝 -Z 方向的，所以 n > f。

要确定正交投影矩阵，需要经过以下步骤：

把空间平移到原点（空间的中心与原点重合）
把空间压缩成 $ [-1, 1]^3 $

即：

$$ M_{ortho} = S_{ortho} \cdot T_{ortho} $$

由于我们知道空间的六个面，因此这个空间的中心就是：$ (\frac {l + r} 2, \frac {b + t} 2, \frac {f + n} 2) $，那么就有：

$$ T_{ortho} = \begin{bmatrix} 1 & 0 & 0 & -{\frac {r + l} 2} \\\ 0 & 1 & 0 & -{\frac {t + b} 2} \\\ 0 & 0 & 1 & -{\frac {n + f} 2} \\\ 0 & 0 & 0 & 1 \end{bmatrix} $$

下一步就是压缩空间了，这一步骤相当于进行一次缩放，把当前空间缩放到大小为 2 的立方体。

以空间的 X 方向为例，其长度为 $ r - l $，因此 X 方向的缩放因子就是:

$$ (r - l) \times S_x = 2 $$

$$ S_x = \frac 2 {r - l} $$

同理可求出 $ S_y $ 和 $ S_z $，然后得到：

$$ S_{ortho} = \begin{bmatrix} \frac 2 {r - l} & 0 & 0 & 0 \\\ 0 & \frac 2 {t - b} & 0 & 0 \\\ 0 & 0 & \frac 2 {n - f} & 0 \\\ 0 & 0 & 0 & 1 \end{bmatrix} $$

最后，正交投影矩阵为：

$$ M_{ortho} = S_{ortho} \cdot T_{ortho} = \begin{bmatrix} \frac 2 {r - l} & 0 & 0 & -{\frac {r + l} {r - l}} \\\ 0 & \frac 2 {t - b} & 0 & -{\frac {t + b} {t - b}} \\\ 0 & 0 & \frac 2 {n - f} & -{\frac {n + f} {n - f}} \\\ 0 & 0 & 0 & 1 \end{bmatrix} $$

透视投影

透视投影与正交投影类似，也是经过类似的步骤：

把空间平移到原点
把空间压缩成长方体（近平面不变，压缩远平面）
把空间压缩成 $ [-1, 1]^3 $ 的立方体（进行一次正交投影）

相比正交投影，透视投影多了一个步骤，就是把视锥体变换成长方体，这个变换暂且叫做 $ M_{p->o} $。要计算这个变换，我们需要先知道这个变换过程发生了什么。

下图是 YZ 平面的截面：

经过压缩后，对于 y 坐标，空间中的一点 $ (x, y, z) $ 会变成 $ (x, y^{\prime}, z) $，根据相似三角形的性质，我们会得到如下的等式：

$$ \frac n z = \frac {y^{\prime}} y $$

$$ y^{\prime} = \frac n z y $$

同理，对于 x 坐标，我们也能得到类似的等式：

$$ x^{\prime} = \frac n z x $$

然后，我们就能得到如下的结果：

$$ M_{persp -> ortho} \begin{bmatrix} x \\\ y \\\ z \\\ 1 \end{bmatrix} = \begin{bmatrix} \frac {nx} z \\\ \frac {ny} z \\\ unknow \\\ 1 \end{bmatrix} $$

再稍微变换一下写法（乘以z），我们能得到：

$$ M_{persp -> ortho} \begin{bmatrix} x \\\ y \\\ z \\\ 1 \end{bmatrix} = \begin{bmatrix} nx \\\ ny \\\ unknow \\\ z \end{bmatrix} $$

计算一下 $ M_{persp -> ortho} $，矩阵的第一行，可以得到：

$$ ax + by + cz + d = nx $$

于是有

$$ a = n $$

$$ b = 0 $$

$$ c = 0 $$

$$ d = 0 $$

我们可以用同样的方法去计算矩阵的其它行，于是就能得到矩阵的雏形：

$$ M_{persp -> ortho} = \begin{bmatrix} n & 0 & 0 & 0 \\\ 0 & n & 0 & 0 \\\ ? & ? & ? & ? \\\ 0 & 0 & 1 & 0 \end{bmatrix} $$

矩阵的第三行是表示 z 方向的变换的，而我们知道有两个事实：

任何在近平面的点，都不会发生变化，即：

$$ \begin{bmatrix} ? & ? & ? & ? \end{bmatrix} \begin{bmatrix} x \\\ y \\\ n \\\ 1 \end{bmatrix} = \begin{bmatrix} x \\\ y \\\ n \\\ 1 \end{bmatrix} == \begin{bmatrix} nx \\\ ny \\\ n^2 \\\ n \end{bmatrix} $$

和刚才一样代入计算（因为刚才乘以过 z，所以右边要用 $ n^2 $，下面的 $ f^2 $ 同理）：

$$ ax + by + cn + d = n^2 $$

于是得到矩阵第三行的四个元素分别是：

$$ \begin{bmatrix} 0 & 0 & A & B \end{bmatrix} $$

任何在远平面上的店，z 都不会发生变化。我们取远平片中的一个中心点 $ (0, 0, f, 1) $ ，它在空间压缩前后都不会发生变化，那么：

$$ \begin{bmatrix} 0 & 0 & A & B \end{bmatrix} \begin{bmatrix} 0 \\\ 0 \\\ f \\\ 1 \end{bmatrix} = \begin{bmatrix} 0 \\\ 0 \\\ f \\\ 1 \end{bmatrix} == \begin{bmatrix} 0 \\\ 0 \\\ f^2 \\\ f \end{bmatrix} $$

联立方程组：

$$ An + B = n^2 $$

$$ Af + B = f^2 $$

解得：

$$ A = n + f $$

$$ B = -nf $$

因此，我们要求的矩阵为：

$$ M_{persp -> ortho} = \begin{bmatrix} n & 0 & 0 & 0 \\\ 0 & n & 0 & 0 \\\ 0 & 0 & n + f & -nf \\\ 0 & 0 & 1 & 0 \end{bmatrix} $$

所以，投影矩阵为：

$$ M_{persp} = M_{ortho} M_{persp -> ortho} $$

最后的问题就是 $ M_{ortho} $ 了。对于这个正交投影，我们只知道 $ [f, n] $，还缺少 $ [l, r] $ 和 $ [b, t] $，但我们可以通过其他途径来计算出这些需要的值。

对于透视投影，还有两个重要的概念，那就是 field of view(fov) 和 aspect ratio。

fov 是指视野范围，分为 fovY 和 fovX，两者可以相互推导。

aspect ratio 是指近平面的宽高比。

根据三角函数，我们可以知道：

$$ tan {\frac {fovY} 2} = \frac t {|n|} $$

另外，根据宽高比的定义，我们可以得出：

$$ aspect = \frac {width} {height} = \frac {2r} {2t} = \frac r t $$

联立方程可得：

$$ t = |n| \cdot tan {\frac {fovY} 2} $$

$$ r = aspect \cdot t $$

$$ b = -t $$

$$ l = -r $$

这样，我们就把所需要的值都计算出来了，直接带入上面的正交矩阵公式即可得到：

作业

基础

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56


// main.cpp
#include <cmath>

constexpr double MY_PI = 3.1415926;
constexpr double DEG_TO_RAD = MY_PI / 180.0;


Eigen::Matrix4f get_model_matrix(float rotation_angle)
{
    Eigen::Matrix4f model = Eigen::Matrix4f::Identity();

    float rad = rotation_angle * DEG_TO_RAD;
    float sin_theta = sin(rad);
    float cos_theta = cos(rad);

    model(0, 0) = cos_theta;
    model(0, 2) = -sin_theta;
    model(2, 0) = sin_theta;
    model(2, 2) = cos_theta;

    return model;
}


Eigen::Matrix4f get_projection_matrix(float eye_fov, float aspect_ratio,
                                      float zNear, float zFar)
{
    Eigen::Matrix4f projection = Eigen::Matrix4f::Identity();
    Eigen::Matrix4f ortho = Eigen::Matrix4f::Identity();
    Eigen::Matrix4f persp_to_ortho = Eigen::Matrix4f::Identity();

    float n = zNear;
    float f = zFar;
    float t = n * tan((eye_fov / 2.0) * DEG_TO_RAD);
    float r = aspect_ratio * t;
    float b = -t;
    float l = -r;

    ortho(0, 0) = 2 / (r - l);
    ortho(1, 1) = 2 / (t - b);
    ortho(2, 2) = 2 / (n - f);
    ortho(0, 3) = -(l + r) / 2;
    ortho(1, 3) = -(b + t) / 2;
    ortho(2, 3) = -(f + n) / 2;

    persp_to_ortho(0, 0) = n;
    persp_to_ortho(1, 1) = n;
    persp_to_ortho(2, 2) = n + f;
    persp_to_ortho(2, 3) = -(n * f);
    persp_to_ortho(3, 2) = 1;
    persp_to_ortho(3, 3) = 0;

    projection = ortho * persp_to_ortho;

    return projection;
}

参考资料

Lecture 03 Transformation

Lecture 04 Transformation Cont.

Lecture 05 Rasterization 1 (Triangles)

Rodrigues 旋轉公式

Games101 笔记 —— 变换

文章目录

简介