houhuawei23
diff --git a/‎README.md
+68-26 b/‎README.md
+68-26
diff --git a/‎code/bone_swissroll.py
+39-26 b/‎code/bone_swissroll.py
+39-26
@@ -30,17 +30,22 @@ conda install -n geo ipykernel --update-deps --force-reinstall
 
 - `/code/ `与 `/code_new/`：原始代码code以及简单修改后的代码code_new
 - `/hhw_code/`：基于pytorch重构的代码
-  - `main.ipynb`：notebook运行测试样例
-  - `run_test.py`：脚本文件运行二测试样例
-  - `geo.py`：实现数据集几何特征的分析，多进程处理
-  - `utils.py`：通用工具函数
-  - `network.py`：用于图像分类的模型、训练函数
-  - `data_utils.py`：用于数据集处理、加载的相关函数
-  - `app_utils.py`：应用数据集几何特征分析的结果，如数据集压缩或增强
-  - `dim_reduce.py`：用于数据降维等预处理
-  - `test.py`：用于测试项目中各个函数、网络模型
-  - `results/`：存有数据集几何特征分析的结果，使用pickle存储
-  - `pics/`：训练与测试分类网络时的图片
+  - `main.ipynb`：notebook运行测试样例；
+  - ~~`run_test.py`：脚本文件运行测试样例；~~
+  - `geo.py`：实现数据集几何特征的分析，多进程处理；
+  - `utils.py`：通用工具函数；
+  - `network.py`：用于图像分类的模型、训练函数；
+  - ~~`data_utils.py`：用于数据集处理、加载的相关函数；~~
+  - `app_utils.py`：应用数据集几何特征分析的结果，如数据集压缩或增强；
+  - `dim_reduce.py`：用于数据降维等预处理；
+  - `test_all.py`：用于测试项目中各个函数、网络模型；
+  - `datasets/`：数据集自写库
+    - `data_utils.py`：仅有 load_data_mnist，暂无用处，下一步调整或删除；
+    - `dataset.py`：数据集基类；
+    - `mnist.py`：MNIST 数据集类，有待进一步扩充；
+  - `results/`：存有数据集几何特征分析的结果，使用pickle存储；
+    - `pics/`：训练与测试分类网络时的图片；
+    - 其他，暂未列出。
 
 ### 运行
 
@@ -80,21 +85,58 @@ req-hhw_code.txt：
 * `torchvision`：pytorch项目的一部分，由常用数据集、模型架构和计算机视觉常用图像转换组成。项目中用于加载与处理数据集。
 * `matplotlib`：用于在 Python 中创建静态、动画和交互式可视化的综合库。用于可视化，也就是绘图。
 * `seaborn`：基于 matplotlib 的 Python 数据可视化库。与matplotlib相比，其提供了更高级的封装，能更方便地绘制美观且信息丰富的统计图形。用于可视化，也就是绘图。
+* `umap-learn`：UMAP降维库。
+* `cProfile`：python 性能分析库。
+* `idx2numpy`：从下载的数据集文件中提取。
+* `pickle`：存储与加载 Python 对象。
 
 #### 其他
 
-- 编写 `/hhw_code/test.py` 中对 `get_class_geo_feature` 进行测试时发现，计算“平均欧式-测地距离比值” (`ave_egr` 时发现，按论文中描述的计算方法，无需使用 “k-近邻测地线距离” （`geo_dist`），可以极大地化简算法，有待进一步分析确认。
-
-- 需要对算法中间所得的数据进行进一步分析，可视化、分析其分布，从而深入理解算法，产生新想法。
-
-- 论文中提出用 “骨干路径” （bone_path) 来避免过多地考虑子路径。但在测试时发现， “骨干路径” 非常多，非常短，当选取 200 张 mnist 0 图像，k = 5 时，骨干路径占比超过 80%， 路径长度集中在 5-6 个结点（包括起始和目的结点）。由此感到 “骨干路径” 的特征描述能力较弱，能否提出更强更有效的特征描述指标呢？
-
-- 分析发现中间数据矩阵稀疏性较高，如何利用稀疏矩阵来更有效地计算和存储数据呢？
-
-- 对于高维，数值较大，噪音较大的数据，欧氏距离 L2 范数容易受极端值的影响，是否能用其他范数，如 L1 范数？
-
-- 降维 / 特征提取 后再进行“几何”特征提取？
-
-- 只考虑局部状态，却要进行全局计算，开销较大，如何解决？
-
-- 如何分析其他模态的数据？如携带时序信息的文本。
+23.8.13
+
+- [X] 编写 `/hhw_code/test.py` 中对 `get_class_geo_feature` 进行测试时发现，计算“平均欧式-测地距离比值” (`ave_egr` 时发现，按论文中描述的计算方法，无需使用 “k-近邻测地线距离” （`geo_dist`），可以极大地化简算法，有待进一步分析确认。
+- [X] 需要对算法中间所得的数据进行进一步分析，可视化、分析其分布，从而深入理解算法，产生新想法。
+- [ ] 论文中提出用 “骨干路径” （bone_path) 来避免过多地考虑子路径。但在测试时发现， “骨干路径” 非常多，非常短，当选取 200 张 mnist 0 图像，k = 5 时，骨干路径占比超过 80%， 路径长度集中在 5-6 个结点（包括起始和目的结点）。由此感到 “骨干路径” 的特征描述能力较弱，能否提出更强更有效的特征描述指标呢？
+- [ ] 分析发现中间数据矩阵稀疏性较高，如何利用稀疏矩阵来更有效地计算和存储数据呢？
+- [ ] 对于高维，数值较大，噪音较大的数据，欧氏距离 L2 范数容易受极端值的影响，是否能用其他范数，如 L1 范数？
+- [ ] 降维 / 特征提取 后再进行“几何”特征提取？
+- [ ] 只考虑局部状态，却要进行全局计算，开销较大，如何解决？
+- [ ] 如何分析其他模态的数据？如携带时序信息的文本。
+
+23.8.15
+
+* 8.13中无需使用 “k-近邻测地线距离”，进一步修改调整代码，砍去了很多不必要的数据，做了若干优化，还未完全融合，改进版函数暂时以 xx_beta 为函数名。
+  * [ ] TODO：感觉可以将 feature 封装成“对象”，采用面向对象的设计理念，简化程序复杂的逻辑和函数调用。
+
+- 在 MNIST 数字 0 上进行了测试，提取了几何特征，然后数据压缩。将压缩后的数据与去除的数据用 UMAP 降维到 2 维，绘图如下：
+  `visualize.ipynb`
+  ![mnist_num0_umap_compress](image/README/mnist_num0_umap_compress.png)
+  发现程混合状，降维后导致几何特征消失？
+  从剩余的数据和被去除的数据中选取部分样本，绘图如下：
+  剩余的数据样本：
+  ![mnist_tsz10000_k5_resdemo](image/README/mnist_tsz10000_k5_resdemo.png)
+  被去除的数据样本：
+  ![mnist_tsz10000_k5_removed_demo](image/README/mnist_tsz10000_k5_removed_demo.png)
+- 在 SwissRoll 人造小数据集上测试，下面是 aegr 最大的若干测地线路径，`test_all.py test_swissroll`：
+  ![swiss_roll_aegr](image/README/swiss_roll_aegr.png)
+- 在 hhw_code 中 data_compress 时，目前尚未利用 udist 即单位结点对应的测地线距离长度，而路径越长，aegr越接近 1 ，导致偏差。
+- **问题**：直接使用欧氏距离来评判两个样本是否“靠近”，无法反映出图片数据所具有的“平移不变性”，即两张相同的图片，其中一张略微位移一下，就会导致欧氏距离非常大。
+  也就是说，“欧氏距离”无法反映图片数据的“空间信息” 。如果这样的话，基于“欧氏距离”的“数据集合特征”，就难以反映出数据的“语义”信息。
+- 对 minst 0 的 geo feature 数据进行分析，绘制成柱状图：
+  ![img](image/README/mnit_0_k15_sz1001_euc&geo.png)
+  ![img](image/README/mnit_0_k15_sz1001_weight&len.png)
+  ![img](image/README/mnit_0_k15_sz1001_aegr&udist.png)
+- TODO：对 swissroll 的geo feature 数据进行分析，绘制成柱状图：
+  （初步发现欧几里得性质较好的 swissroll 数据，aegr 普遍接近于 1）
+- UMAP 对 MNIST 进行降维可视化：`umap.ipynb`
+  ![mnist_umap](image/README/mnist_umap.png)
+- 用压缩后的 MNIST 数据选出 1w 张进行分类测试，测试集为原 1w 测试数据，网络采用略修改的 LeNet，结果如下：
+
+![](image/README/train_compare.png)
+
+- - $(a)$：在 1w 数据上提取几何特征，做数据压缩，压缩率为 0.8， 然后在压缩后的数据上训练。
+  - $(b)$：直接在 1w 数据上进行训练。
+  - $(c)$：在 1w 数据上随机选出 0.8 * 1w 的数据进行训练。
+  - 收敛更快、更稳定一些，test acc 后期更稳定，过拟合现象有所缓解。
+  - 需要进一步地集中测试和分析。
+- 感觉”几何特征“消耗大，效果并不显著，几何特征与语义无法找到很好的映射关系，不太好解释（；へ：）
@@ -8,15 +8,19 @@
 from mpl_toolkits.mplot3d import Axes3D
 
 
-
 def generate_Swissroll(n):
-    t = (3 * np.pi) / 2 * (1 + 2 * tf.random.uniform([1, n], minval=0, maxval=1, dtype=tf.float32))
+    t = (
+        (3 * np.pi)
+        / 2
+        * (1 + 2 * tf.random.uniform([1, n], minval=0, maxval=1, dtype=tf.float32))
+    )
     h = 20 * tf.random.uniform([1, n], minval=0, maxval=1, dtype=tf.float32)
     a1 = tf.constant(t * tf.cos(t))  ##映射第一个轴
     a3 = tf.constant(t * tf.sin(t))  ##映射第三个轴  ，第二个轴是h
     X = tf.concat([a1, h, a3], axis=0)  ##组成数据样本
     return X.numpy().T
 
+
 def whole_remove(dataset, knn, unit_hop, ratio, percentage):
     print("reading")
     edist = dra.eucli_distance_all(dataset)
@@ -29,15 +33,18 @@ def whole_remove(dataset, knn, unit_hop, ratio, percentage):
     print("dict, ave_egr")
     path_index = dra.bone_path(path_dict, gdist)
     weight = dra.bone_weight(path_dict, path_index)
-    #print(weight)
-    remove_tag = dra.dataset_compression_index(ave_egr, path_dict, gdist, unit_hop, ratio, path_index, weight)
+    # print(weight)
+    remove_tag = dra.dataset_compression_index(
+        ave_egr, path_dict, gdist, unit_hop, ratio, path_index, weight
+    )
     print("remove_tag")
-    #print(remove_tag)
+    # print(remove_tag)
     rsub_data, rem_data = dra.dataset_compress(dataset, remove_tag, percentage)
     print("data")
     print(rsub_data.shape)
     return rsub_data, rem_data
 
+
 def whole_augment(dataset, knn, unit_hop, ratio, percentage):
     print("reading")
     edist = dra.eucli_distance_all(dataset)
@@ -50,42 +57,48 @@ def whole_augment(dataset, knn, unit_hop, ratio, percentage):
     print("dict, ave_egr")
     path_index = dra.bone_path(path_dict, gdist)
     weight = dra.bone_weight(path_dict, path_index)
-    add_tag = dra.dataset_augment_index(ave_egr, path_dict, gdist, unit_hop, ratio, path_index, weight)
+    add_tag = dra.dataset_augment_index(
+        ave_egr, path_dict, gdist, unit_hop, ratio, path_index, weight
+    )
     print("add_tag")
-    asub_data, add_data = dra.dataset_augment(dataset, add_tag, percentage, edist, path_dict)
+    asub_data, add_data = dra.dataset_augment(
+        dataset, add_tag, percentage, edist, path_dict
+    )
     print(np.shape(asub_data))
     return asub_data, add_data
 
+
 def polt_swissroll(data, change):
     plt.figure()
     x, y, z = list(data.T[0]), list(data.T[1]), list(data.T[2])
     x1, y1, z1 = list(change.T[0]), list(change.T[1]), list(change.T[2])
-    ax = plt.subplot(111, projection='3d')
-    ax.scatter(x, y, z, s=10, alpha=0.3, c='r')
-    ax.scatter(x1, y1, z1,s=10, alpha=0.8, c='b')
-    ax.set_zlabel('Z')  # 坐标轴
-    ax.set_ylabel('Y')
-    ax.set_xlabel('X')
+    ax = plt.subplot(111, projection="3d")
+    ax.scatter(x, y, z, s=10, alpha=0.3, c="r")
+    ax.scatter(x1, y1, z1, s=10, alpha=0.8, c="b")
+    ax.set_zlabel("Z")  # 坐标轴
+    ax.set_ylabel("Y")
+    ax.set_xlabel("X")
     plt.show()
 
-#dataset = generate_Swissroll(500)
-dataset, t = skl.make_swiss_roll(n_samples = 1000, noise = 0.1)
-x,y,z = list(dataset.T[0]), list(dataset.T[1]), list(dataset.T[2])
-ax = plt.subplot(111, projection='3d')
-ax.scatter(x, y, z, s=10, alpha=0.3, c='r')
-ax.set_zlabel('Z')  # 坐标轴
-ax.set_ylabel('Y')
-ax.set_xlabel('X')
+
+# dataset = generate_Swissroll(500)
+dataset, t = skl.make_swiss_roll(n_samples=1000, noise=0.1)
+x, y, z = list(dataset.T[0]), list(dataset.T[1]), list(dataset.T[2])
+ax = plt.subplot(111, projection="3d")
+ax.scatter(x, y, z, s=10, alpha=0.3, c="r")
+ax.set_zlabel("Z")  # 坐标轴
+ax.set_ylabel("Y")
+ax.set_xlabel("X")
 plt.show()
-#polt_swissroll(dataset)
+# polt_swissroll(dataset)
 
 dataset_cafter, sub_data = whole_remove(dataset, 5, 0.3, 0.9, 0.1)
 print(np.shape(sub_data))
 polt_swissroll(dataset_cafter, np.array(sub_data))
 
-dataset_aafter, add_data = whole_augment(dataset,5, 0.9, 0.9, 0.1)
+dataset_aafter, add_data = whole_augment(dataset, 5, 0.9, 0.9, 0.1)
 polt_swissroll(dataset, np.array(add_data))
 
-np.savetxt("../swiss_roll/dataset.txt", dataset, fmt='%f',delimiter=',')
-np.savetxt("../swiss_roll/dataset_rem.txt", dataset_cafter, fmt='%f',delimiter=',')
-np.savetxt("../swiss_roll/dataset_add.txt", dataset_aafter, fmt='%f',delimiter=',')
+np.savetxt("../swiss_roll/dataset.txt", dataset, fmt="%f", delimiter=",")
+np.savetxt("../swiss_roll/dataset_rem.txt", dataset_cafter, fmt="%f", delimiter=",")
+np.savetxt("../swiss_roll/dataset_add.txt", dataset_aafter, fmt="%f", delimiter=",")