Skip to content

Commit db2e6dd

Browse files
authored
Add files via upload
1 parent 52a5e08 commit db2e6dd

13 files changed

+19
-0
lines changed

数据挖掘导论/01_DM.pdf

1.57 MB
Binary file not shown.

数据挖掘导论/02_Bayesian.pdf

1.91 MB
Binary file not shown.
1.51 MB
Binary file not shown.
880 KB
Binary file not shown.

数据挖掘导论/07_Kernel.pdf

636 KB
Binary file not shown.
3.84 MB
Binary file not shown.
2.81 MB
Binary file not shown.
811 KB
Binary file not shown.

数据挖掘导论/11_Clustering.pdf

1.32 MB
Binary file not shown.
1.9 MB
Binary file not shown.

数据挖掘导论/13_TopicModel.pdf

1.14 MB
Binary file not shown.
465 KB
Binary file not shown.

数据挖掘导论/README.md

+19
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,19 @@
1+
这门课是浙大cs不可多得的好课之一,尽管确实有点难。
2+
3+
课程会全方面的推导所有主流的统计机器学习模型,讲解神经网络的推导以及矩阵分解等知识,需要很多概统和矩阵知识(没学过也不用慌,我没学过概统,线代大一也没好好学,最后成绩也还不错)。
4+
5+
作业可以用python或者matlab做,很有难度,需要从底层实现各种机器学习算法模型,不熟悉numpy的同学可能会比较惨,不过还好github上有较多学姐学长的资料,例如:
6+
7+
https://github.com/yangli655/ML_dc (还有很多其他的或者matlab版本的就不贴了)
8+
9+
尽管我因为有一次实在来不及,抄了点代码交了上去…...但还是希望学弟学妹们仅仅用来参考,通过自己的思考写好每一行代码不仅对期末考有比较大的帮助,也会让你对这些算法有更深刻的认识。每年期末考都会考作业题,今年是考了问你PCA旋转图片是feature extraction还是feature selection。
10+
11+
12+
13+
整体给分还不错,但是想要取得高分(>=4.8)是非常非常难的。期末可以带一张A4,但用处不会特别大。考的会非常细,只有真的理解了才会做,例如问你K-means或者K-medoids算法最后会不会收敛,squeare loss和hinge loss谁更robust等等。最难的就是多选题,其中的每个选项都是这么一个细致的问题,如果漏选或多选算全错,一分都拿不到。
14+
15+
不过考试中也会有送分题,比如貌似每年都会考到的决策树和贝叶斯决策大题(送你30分怕你挂科),记好公式即可。今年的最后一大题是logistic loss的EM算法手动推导,因为EM算法实在有点费脑子,复习的时候就没复习,哭了…...
16+
17+
今年没有考topic model和矩阵分解,白抄了那么多A4…….
18+
19+
总而言之,这是门能让你彻底弄懂这些统计机器学习模型的一门极为硬核的好课。想水的不推荐选这门课,作业好好做(萌新选手每周约需要10hours以上),弄懂所有算法,拿到4.2+并不困难。最后为助教胡津铭小哥哥疯狂打call,极为耐心和负责的TA,一学期QQ上帮我解答了几十个问题。

0 commit comments

Comments
 (0)