@@ -0,0 +1,399 @@
 
		
	
		
			
				图片/文字/公式都是一条线, 
 
		
	
		
			
				 
		
	
		
			
				## Writing  
		
	
		
			
				 
		
	
		
			
				1.  introduction 1- 3 
		
	
		
			
				   current trending?
 
		
	
		
			
				 
		
	
		
			
				2.  related work &  background knowledge 5050 10-15 
		
	
		
			
				   数学背景/例子 
 
		
	
		
			
				   公式 + 例子
 
		
	
		
			
				 
		
	
		
			
				   1.  罗列,
 
		
	
		
			
				      1.  a文章里, , 
 
		
	
		
			
				      2.  可以写成表格, ? 
 
		
	
		
			
				      3.  为什么会有这么多文章呢? 
 
		
	
		
			
				 
		
	
		
			
				   1.  讨论, , , , ? , , , 
 
		
	
		
			
				      1.  quantum circuits vqc分成3个部分, 
 
		
	
		
			
				      2.  能少用字少用字,字和图表是相辅相成的
 
		
	
		
			
				 
		
	
		
			
				3.  method 
		
	
		
			
				   1.  要有一个pipeline, , ? 
 
		
	
		
			
				   2.  图上的东西在公式上应该有体现,看图/看文字/看公式都能对应起来,删了某一套,看其他的可能不清晰?
 
		
	
		
			
				4.  experiment 
		
	
		
			
				   1.  跑通
 
		
	
		
			
				   2.  看在各种数据集上能不能跑?
 
		
	
		
			
				   3.  做出来result之后, 
 
		
	
		
			
				   4.  做出来烂图可以用于比较
 
		
	
		
			
				   5.  ablation study, , 
 
		
	
		
			
				   6.  可解释性?没必要知道,
 
		
	
		
			
				      可以知道
 
		
	
		
			
				      含糊的提供一些方向 could might be 
 
		
	
		
			
				      告诉别人,我是怎么看待这个算法的可解释性的
 
		
	
		
			
				5.  conclusion 
		
	
		
			
				   1.  好的实验, ? 
 
		
	
		
			
				   2.  提一些我们认为这个领域上面有可能有什么限制之类的,当时还没来得及实验的部分
 
		
	
		
			
				 
		
	
		
			
				考虑image这件事
 
		
	
		
			
				 
		
	
		
			
				你可以从这篇paper 开始,总结比如 1. key reseaech question 2.相比于前人的方法, , ( ? ? ? ) 
 
		
	
		
			
				 
		
	
		
			
				## Graph-DiT 2401.13858  
		
	
		
			
				 
		
	
		
			
				### Key research question  
		
	
		
			
				 
		
	
		
			
				将合成分数和气体渗透率等多种属性作为条件约束集成到diffusion模型中
 
		
	
		
			
				integrating multiple properties such as synthetic score and gas permeability as condition constraints into diffusion models remains unexplored
 
		
	
		
			
				 
		
	
		
			
				graph dit是用来多条件分子生成用的
 
		
	
		
			
				 
		
	
		
			
				### Innovation Point  
		
	
		
			
				 
		
	
		
			
				#### abstract  
		
	
		
			
				 
		
	
		
			
				1.  **Condition encoder**  to learn the representation of numerical and categorical properties 
		
	
		
			
				   条件编码器来学习数字和分类属性的表示
 
		
	
		
			
				2.  Utilises a **Transformer-based graph denoiser**  to achieve molecular graph denoising under conditions. 
		
	
		
			
				   使用一个基于transformer的图解噪器来达到有条件的分子图解噪
 
		
	
		
			
				3.  propose a graph-dependent noise model for training Graph DiT 
		
	
		
			
				   提出一个基于图的噪声模型来训练GraphDiT, 
 
		
	
		
			
				   这个噪声模型是用来准确估计图相关的噪声
 
		
	
		
			
				   designed to accurately estimate graph-related noise in molecules
 
		
	
		
			
				 
		
	
		
			
				#### Introduction   
		
	
		
			
				 
		
	
		
			
				1.  Existing work converted multiple conditions into a single one and solved the task as a single-condition generation 
		
	
		
			
				   现有的工作是将多个条件变成一个条件,然后将任务当作是单条件的生成
 
		
	
		
			
				   坏处是属性有很多种,变成单个条件模型没法平衡条件
 
		
	
		
			
				   多条件由分类属性和数值属性混合而成,加法和乘法不足以组合
 
		
	
		
			
				2.  通过*learning*将多种属性投射到representation中, ,  
		
	
		
			
				   **condition encoder**使用一个基于聚类**clustering-based方法对于数值属性** , 
 
		
	
		
			
				3.  **Graph-denoiser**首先集成(integrates)点和边features到一个图tokens, , ( )  
		
	
		
			
				4.  我们观察到现有的前向扩散过程 [42, 22] 将噪声分别应用于原子和键,这可能会损害 Graph DiT 在噪声估计中的准确性。因此,我们提出了一种**新颖的图相关噪声模型** Graph-dependent Noise Mode,  
		
	
		
			
				 
		
	
		
			
				#### Multi-Conditional Diffusion Model   
		
	
		
			
				 
		
	
		
			
				1.  Graph-dependent Noise Model, 使用一个$Q_G$来表示转移矩阵,一个单独的矩阵$X_G$来表示图tokens,  
		
	
		
			
				   $Q_{EV},Q_{VE}=\alpha \mathbf{I}+(1-\alpha^t)\mathbf{1}m'_{EV}$,其中$m'_{EV}$表示原子和键的共同出现概率
 
		
	
		
			
				 
		
	
		
			
				2.  Denoising Generation with Graph Diffusion Transformer 
		
	
		
			
				 
		
	
		
			
				   条件编码器: , , , , , 
 
		
	
		
			
				   proposed clustering-based approach against alternatives like direct or interval-based encodings
 
		
	
		
			
				 
		
	
		
			
				3.  Graph Denoiser: Transformer Layers 
		
	
		
			
				   在时间步t的noisy graph, ,   , 
 
		
	
		
			
				 
		
	
		
			
				   
 
		
	
		
			
				   $\gamma(),\beta()$表示$f_\theta$的神经网络模块, 
 
		
	
		
			
				 
		
	
		
			
				   
 
		
	
		
			
				 
		
	
		
			
				   我们应用0来初始化$\alpha, \beta,\gamma$
 
		
	
		
			
				 
		
	
		
			
				4.  在最后的Transformer 阿里也让后我们有H,  
		
	
		
			
				   $$
 
		
	
		
			
				   X_G^0=AdaLN(MLP(H),c)
 
		
	
		
			
				   $$
 
		
	
		
			
				   最终得到的$X_G$表示原则和键
 
		
	
		
			
				 
		
	
		
			
				   将生成的图形转换为分子的一种常见方法是只选择最大的连接部分[ 42 ],在我们的模型中称为图形 DiT-LCC。对于 DiT 图形,我们通过随机选择原子来连接所有组件。与图 DiT-LCC 相比,它对生成结构的改变最小,能更准确地反映模型性能。
 
		
	
		
			
				 
		
	
		
			
				#### related work not innovation point  
		
	
		
			
				 
		
	
		
			
				-  Diffusion models have also been used for molecular property prediction [27], for conformation [47] and molecule generation with atomic coordinates in 3D [ 18 , 48, 3]. 
		
	
		
			
				-   DiGress[42]引入了离散噪声作为基于原子和键类型的边缘分布的转移矩阵。DiGress和GDSS研究了额外的预测模型来指导生成过程。 
		
	
		
			
				 
		
	
		
			
				 
		
	
		
			
				 
		
	
		
			
				### experiment  
		
	
		
			
				 
		
	
		
			
				#### abstract  
		
	
		
			
				 
		
	
		
			
				1.  We extensively validate the Graph DiT for multi-conditional polymer and small molecule generation. A polymer inverse design task for gas separation with feedback from domain experts further demonstrates its practical utility 
		
	
		
			
				   我们大量验证了多条件聚合物和小分子的生成。气体分离聚合物逆向设计任务以及领域专家的反馈进一步证明了其实用性。
 
		
	
		
			
				 
		
	
		
			
				#### Introduction  
		
	
		
			
				 
		
	
		
			
				1.  传统的多条件生成, , : , , , , ( ) ,  
		
	
		
			
				   结果是超过一半的聚合物没有满足多种条件。
 
		
	
		
			
				2.  GraphDiT是生成一个图,  
		
	
		
			
				 
		
	
		
			
				#### experiment  
		
	
		
			
				 
		
	
		
			
				dataset分成6: : , , , 
 
		
	
		
			
				 
		
	
		
			
				然后使用一些指标: 
 
		
	
		
			
				 
		
	
		
			
				-  molecular validity -- Validity 
		
	
		
			
				-  heavy atom coverage -- Coverage 
		
	
		
			
				-  internal diversity among the generated examples -- Diversity 
		
	
		
			
				-  fragment-based similarity with the reference set -- Similarity 
		
	
		
			
				-  ChemNet Distance with the reference set -- Distance 
		
	
		
			
				-  MAE/Acc 对于分类/数值任务条件(  
		
	
		
			
				-  synthetic accessibility  score (Synth.) 
		
	
		
			
				 
		
	
		
			
				RQ2, , , , 
 
		
	
		
			
				 
		
	
		
			
				RQ3, , 
 
		
	
		
			
				 
		
	
		
			
				#### results presentation method  
		
	
		
			
				 
		
	
		
			
				表格
 
		
	
		
			
				 
		
	
		
			
				
 
		
	
		
			
				 
		
	
		
			
				环形图
 
		
	
		
			
				 
		
	
		
			
				
 
		
	
		
			
				 
		
	
		
			
				### words  
		
	
		
			
				 
		
	
		
			
				gas permeability 气体渗透率
 
		
	
		
			
				 
		
	
		
			
				conformation 构象
 
		
	
		
			
				 
		
	
		
			
				## Lift Your Molecules 2406.10513  
		
	
		
			
				 
		
	
		
			
				### key research question  
		
	
		
			
				 
		
	
		
			
				molecular graph generation with 3d generative models
 
		
	
		
			
				 
		
	
		
			
				Synthetice Coordinate Embedding(SYCo)把分子图映射到欧几里得点云Euclidean point clouds通过synthetic conformer coordinates,使用EGNN学习逆映射
 
		
	
		
			
				 
		
	
		
			
				将图生成问题转化为了点云生成问题
 
		
	
		
			
				 
		
	
		
			
				## RAFT 2003.12039  
		
	
		
			
				 
		
	
		
			
				>  4D成本体积可以理解为一个四维矩阵, , × , × × ×   
		
	
		
			
				>  
		
	
		
			
				> - **前两个维度( ) :   
		
	
		
			
				>  - **后两个维度( ) :   
		
	
		
			
				>  
		
	
		
			
				> 对于每一个像素对 (i1, j1) in I1 和 (i2, j2) in I2,   
		
	
		
			
				>  
		
	
		
			
				> Correlation Volume( )   
		
	
		
			
				>  
		
	
		
			
				> 定义  
		
	
		
			
				>  
		
	
		
			
				> 相关体积是一个多维矩阵,用于存储图像中所有像素对之间的相似性信息。在光流估计中,相关体积通过计算特征向量的内积来衡量像素对之间的相似性。  
		
	
		
			
				>  
		
	
		
			
				> 计算方法  
		
	
		
			
				>  
		
	
		
			
				> 假设我们有两幅图像 I1I1I1 和 I2I2I2, × × , ( ) , ,   
		
	
		
			
				>  
		
	
		
			
				> 公式上,假设 F1F1F1 和 F2F2F2 分别是图像 I1I1I1 和 I2I2I2 的特征图,它们的维度是 H× × × × ,   
		
	
		
			
				>  
		
	
		
			
				> C(i1,j1,i2,j2)=F1(i1,j1)⋅F2(i2,j2)C(i1, j1, i2, j2) = F1(i1, j1) \cdot F2(i2, j2)C(i1,j1,i2,j2)=F1(i1,j1)⋅F2(i2,j2)  
		
	
		
			
				>  
		
	
		
			
				> 这里,⋅\cdot⋅ 表示特征向量的内积操作。  
		
	
		
			
				>  
		
	
		
			
				> 特点  
		
	
		
			
				>  
		
	
		
			
				> - **高维度**:对于每对像素,都计算一个相似性值,结果是一个四维矩阵。  
		
	
		
			
				>  - **全局信息**:包含所有像素对的相似性信息,提供了全局视角。  
		
	
		
			
				 
		
	
		
			
				>  Cost Volume( )   
		
	
		
			
				>  
		
	
		
			
				> 定义  
		
	
		
			
				>  
		
	
		
			
				> 成本体积通常用于立体匹配或光流估计中,表示图像中像素匹配的代价或不相似度。成本体积通过计算特征向量之间的某种距离度量(如绝对差异或平方差异)来衡量像素对之间的不相似度。  
		
	
		
			
				>  
		
	
		
			
				> 计算方法  
		
	
		
			
				>  
		
	
		
			
				> 与相关体积类似,成本体积也是通过计算图像中所有像素对的匹配度来构建的。不同之处在于,成本体积通常使用距离度量而不是内积。  
		
	
		
			
				>  
		
	
		
			
				> 公式上,假设 F1F1F1 和 F2F2F2 分别是图像 I1I1I1 和 I2I2I2 的特征图,则成本体积 VVV 的计算公式为:  
		
	
		
			
				>  $$  
		
	
		
			
				>  V(i1,j1,i2,j2)=∥F1(i1,j1)− −   
		
	
		
			
				>  $$  
		
	
		
			
				 
		
	
		
			
				>  
		
	
		
			
				>   
		
	
		
			
				>  
		
	
		
			
				> 这里,∥⋅∥\|\cdot\|∥⋅∥ 表示特征向量之间的距离度量, ( )   
		
	
		
			
				>  
		
	
		
			
				> 特点  
		
	
		
			
				>  
		
	
		
			
				> - **高维度**:类似于相关体积,成本体积也是一个四维矩阵。  
		
	
		
			
				>  - **匹配度量**:通过计算特征向量之间的不相似度来表示匹配代价。  
		
	
		
			
				>  
		
	
		
			
				> 总结  
		
	
		
			
				>  
		
	
		
			
				> - **相关体积( )   
		
	
		
			
				>  - **成本体积( )   
		
	
		
			
				>  
		
	
		
			
				> 两者都在光流估计和立体匹配中扮演关键角色,通过捕捉图像中像素对的匹配信息,帮助算法更准确地估计光流场或深度图。  
		
	
		
			
				 
		
	
		
			
				### Key Research Question  
		
	
		
			
				 
		
	
		
			
				一种新的光流深度网络架构。RAFT
 
		
	
		
			
				 
		
	
		
			
				### Innovation Point  
		
	
		
			
				 
		
	
		
			
				#### abstract  
		
	
		
			
				 
		
	
		
			
				RAFT提取每像素特征, , , 
 
		
	
		
			
				 
		
	
		
			
				#### Introduction  
		
	
		
			
				 
		
	
		
			
				>  问题:快速移动的物体,遮挡,运动模糊,无纹理表面。之前的是光流是一对图像之间密集位移场空间(space of dense displacement fields between a pair of images) 的手工创建的优化问题。  
		
	
		
			
				>  
		
	
		
			
				> 定义的优化目标包含一个权衡在数据项和正则化项之间  
		
	
		
			
				>  
		
	
		
			
				> 数据项鼓励视觉上相似的图像区域的对齐,正则化项对运动的合理性施加先验  
		
	
		
			
				 
		
	
		
			
				RAFT的优势: , , 
 
		
	
		
			
				 
		
	
		
			
				新颖性:
 
		
	
		
			
				 
		
	
		
			
				1.  **高分辨率维护和更新单个固定流场** 。在单个高分辨率流场上运行,克服了从粗到细级联的几个限制:在粗分辨率下从错误中恢复的困难,错过小型快速移动物体的倾向,和许多训练迭代需要多阶段级联 
		
	
		
			
				 
		
	
		
			
				2.  比较轻量: 使用更简单的细化模块, ,  
		
	
		
			
				 
		
	
		
			
				3.  **卷积GRU** ,  
		
	
		
			
				 
		
	
		
			
				RAFT的构成: 
 
		
	
		
			
				 
		
	
		
			
				-  特征编码器feature encoder, 为每个像素提取特征向量 
		
	
		
			
				-  相关层 correlation layer, 为所有像素对生成4D相关体积,  
		
	
		
			
				-  基于GRU的recurrent更新算子(update operator),从相关体积中检索值并迭代更新初始化为零的流场。 
		
	
		
			
				-  t 
		
	
		
			
				 
		
	
		
			
				#### 特征提取  
		
	
		
			
				 
		
	
		
			
				1.  卷积网络,规模/8,  
		
	
		
			
				2.  特征编码器, , , ,  
		
	
		
			
				3.  上下文网络,从第一个输入图像中提取特征,和特征提取网络架构相同。特征网络$g_\theta$+上下文网络$h_\theta$=第一阶段,只执行一次 
		
	
		
			
				 
		
	
		
			
				#### 计算视觉相似度  
		
	
		
			
				 
		
	
		
			
				
 
		
	
		
			
				 
		
	
		
			
				##### Corrlation Pyramid  
		
	
		
			
				 
		
	
		
			
				把上面的相速度换成H x W x H/2^k x W/2\^k,来生成$\{C^1,C^2,C^3,C^4\}$
 
		
	
		
			
				 
		
	
		
			
				##### Correlation lookup  
		
	
		
			
				 
		
	
		
			
				$L_C$查找运算符, 
 
		
	
		
			
				 
		
	
		
			
				给定光流$(f^1,f^2)$的当前估计,我们将$I_1$中的每个像素$x=(u,v)$映射到$I_2$中的估计对应关系(estimated correspondence in $I_2$)$\mathbf{x'} = (u+f^1(u),v+f^2(v))$ 
 
		
	
		
			
				$$
 
		
	
		
			
				\mathcal{N}(x') = \{x'+dx|dx\in\Z,||dx||+1\leq r\}
 
		
	
		
			
				$$
 
		
	
		
			
				使用L1距离的r单位内偏移量的集合, , 
 
		
	
		
			
				 
		
	
		
			
				使用网格$\mathcal{N}(x'/2^k)_r$对级别k,c^k^的相关量进行索引
 
		
	
		
			
				 
		
	
		
			
				##### 高分辨率图像的高校计算  
		
	
		
			
				 
		
	
		
			
				
 
		
	
		
			
				 
		
	
		
			
				### 3.3 Iterative Updates  
		
	
		
			
				 
		
	
		
			
				
 
		
	
		
			
				 
		
	
		
			
				## CoTracker: It is Better to Track Together 2307.07635  
		
	
		
			
				 
		
	
		
			
				### key research question  
		
	
		
			
				 
		
	
		
			
				optical flow
 
		
	
		
			
				 
		
	
		
			
				### Innovation Point  
		
	
		
			
				 
		
	
		
			
				### abstract  
		
	
		
			
				 
		
	
		
			
				virtual tracks, allows cotracker to track 70k points jointly and simultaneously.
 
		
	
		
			
				 
		
	
		
			
				operates causally on short windows, online tasks,
 
		
	
		
			
				 
		
	
		
			
				### Cotracker  
		
	
		
			
				 
		
	
		
			
				#### transformer formulation  
		
	
		
			
				 
		
	
		
			
				transformer的目标**是改进track的initial estimate**
 
		
	
		
			
				 
		
	
		
			
				conv nn提取d维特征, 
 
		
	
		
			
				 
		
	
		
			
				##### track features  
		
	
		
			
				 
		
	
		
			
				特征向量$Q_i^t\in\R^d$
 
		
	
		
			
				 
		
	
		
			
				##### correlation features  
		
	
		
			
				 
		
	
		
			
				相关性向量$C_t^i$是通过堆叠内积获得的。
 
		
	
		
			
				 
		
	
		
			
				##### tokens  
		
	
		
			
				 
		
	
		
			
				
 
		
	
		
			
				 
		
	
		
			
				
 
		
	
		
			
				 
		
	
		
			
				
 
		
	
		
			
				 
		
	
		
			
				## Appendix  
		
	
		
			
				 
		
	
		
			
				### Bilinear Sampling  
		
	
		
			
				 
		
	
		
			
				双线性采样( ) , , 
 
		
	
		
			
				 
		
	
		
			
				#### 双线性采样的原理  
		
	
		
			
				 
		
	
		
			
				假设我们要估算图像中某个非整数位置 \( (x, y) \) 的像素值,而该位置周围的四个最近邻像素位于整数坐标 \( (i, j), (i+1, j), (i, j+1), (i+1, j+1) \) 处。双线性采样通过以下步骤计算非整数位置的像素值:
 
		
	
		
			
				 
		
	
		
			
				1.  **确定权重** :计算目标位置 \( (x, y) \) 与其最近邻的四个像素的水平和垂直距离。 
		
	
		
			
				2.  **加权平均** :利用计算出的权重,对这四个最近邻像素的值进行加权平均,得到目标位置的估算值。 
		
	
		
			
				 
		
	
		
			
				#### 数学公式  
		
	
		
			
				 
		
	
		
			
				假设我们有图像 \( I \),需要估算位置 \( (x, y) \) 处的像素值。其最近邻的四个像素分别位于 \( I(i, j) \)、\( I(i+1, j) \)、\( I(i, j+1) \)、和 \( I(i+1, j+1) \),则双线性采样的过程如下:
 
		
	
		
			
				 
		
	
		
			
				1.  **计算水平和垂直距离** :  
		
	
		
			
				   \[dx = x - i\]\[dy = y - j\]
 
		
	
		
			
				   
 
		
	
		
			
				2.  **加权平均** :  
		
	
		
			
				   \[
 
		
	
		
			
				   I(x, y) \approx (1 - dx) (1 - dy) I(i, j) + dx (1 - dy) I(i+1, j) + (1 - dx) dy I(i, j+1) + dx dy I(i+1, j+1)
 
		
	
		
			
				   \]
 
		
	
		
			
				 
		
	
		
			
				#### 应用场景  
		
	
		
			
				 
		
	
		
			
				1.  **图像变换** :在图像缩放、旋转、平移等几何变换中,双线性采样用于估算变换后新位置的像素值,从而生成新的图像。 
		
	
		
			
				2.  **纹理映射** :在计算机图形学中,将纹理映射到三维模型时,双线性采样用于计算非整数纹理坐标的像素值,以实现平滑的纹理显示。 
		
	
		
			
				3.  **光流估计** : , , ,  
		
	
		
			
				 
		
	
		
			
				#### 具体例子  
		
	
		
			
				 
		
	
		
			
				假设我们有一个图像 \( I \),需要估算位置 \( (2.5, 3.5) \) 处的像素值,其最近邻像素位于 \( (2, 3) \)、\( (3, 3) \)、\( (2, 4) \)、和 \( (3, 4) \) 处。对应的像素值分别为 \( I(2, 3) = 10 \)、\( I(3, 3) = 20 \)、\( I(2, 4) = 30 \)、和 \( I(3, 4) = 40 \)。
 
		
	
		
			
				 
		
	
		
			
				1.  计算水平和垂直距离: 
		
	
		
			
				   \[
 
		
	
		
			
				   dx = 2.5 - 2 = 0.5
 
		
	
		
			
				   \]
 
		
	
		
			
				   \[
 
		
	
		
			
				   dy = 3.5 - 3 = 0.5
 
		
	
		
			
				   \]
 
		
	
		
			
				 
		
	
		
			
				2.  加权平均: 
		
	
		
			
				 
		
	
		
			
				   $$\[
 
		
	
		
			
				   
 
		
	
		
			
				   $$
 
		
	
		
			
				   I(2.5, 3.5) \approx (1 - 0.5)(1 - 0.5) \cdot 10 + 0.5(1 - 0.5) \cdot 20 + (1 - 0.5)0.5 \cdot 30 + 0.5 \cdot 0.5 \cdot 40
 
		
	
		
			
				   
 
		
	
		
			
				   
 
		
	
		
			
				   = 0.25 \cdot 10 + 0.25 \cdot 20 + 0.25 \cdot 30 + 0.25 \cdot 40
 
		
	
		
			
				   
 
		
	
		
			
				   
 
		
	
		
			
				   = 2.5 + 5 + 7.5 + 10
 
		
	
		
			
				   
 
		
	
		
			
				   
 
		
	
		
			
				   = 25
 
		
	
		
			
				 
		
	
		
			
				   $$
 
		
	
		
			
				   
 
		
	
		
			
				 
		
	
		
			
				所以,位置 \( (2.5, 3.5) \) 的估算像素值为 25。