Skip to content

Programming Collective Intelligence 读书总结

  • Making Recommendations (Collaborative Filtering)
    • User-based
      • Finding similar users
        • User as vector based on item score
          • Euclidean distance
          • Pearson correlation
        • Reverse users and items, we can find similar items to a given item
      • Sort and recommend items based on
        • sum(user similarity * user’s item score) for each other user
    • Item-based
      • Find item similarities
        • These results can be cached and periodically updated
      • Sort and recommend items based on
        • sum((item similarity * user’s item score) / sum(item similarity)) for each user’s item
      • Significantly faster and better for sparse dataset
  • Discovering Groups (Clustering)
    • Supervised Learning
      • use example inputs and outputs
      • neural networks, decision trees, support-vector machines, and Bayesian filtering
    • Word Vectors of texts
    • Hierarchical Clustering
      • choose two nearest vectors to combine
      • results in binary tree
    • Can cluster articles or words
      • transpose the matrix
    • Dendrogram drawing
    • K-Means clustering
      • randomly place k centroids
      • assign every item to the nearest centroid, and move the centroid to the average location of all items assigned to them
  • Searching and Ranking
    • word index stored in relational database
    • ranking
      • content-based
        • various metrics: word frequency, document location, word distance
      • use inbound links
        • simple count
        • PageRank algorithm
          • random walk
          • sparse matrix multiplication iterations
        • use link text
      • learning from clicks
        • click-tracking neuro-network (multilayer perception network, i.e. MLP network)
          • one hidden layer
  • Optimization
    • stochastic optimization
      • numerical solution
      • cost function
    • random searching
    • hill climbing
      • increase the most promising dimension of a vector
    • simulated annealing
      • variable: temperature, starts very high and gradually gets lower
      • worse solution being accepted depending on temperature
    • generic algorithms
      • mutate, crossover, …
  • Document Filtering (to be expanded…)
    • use words as features
    • naive Bayesian classifier
    • the Fisher method
  • Modeling with Decision Trees
    • Algorithm: CART (Classification and Regression Trees)
      • choose the best split from all possible splits
        • Gini impurity
        • information entropy
          • sum of p(x)log(p(x))
      • recursively build the whole tree
      • then can be used to classify new observations
      • pruning the tree
        • when it becomes overfitted
        • checking pairs of nodes that have a common parent to see if merging them would increase the entropy by less than a specified threshold
    • Dealing with
      • missing data
        • use both branches
      • numerical outcomes
        • use variance instead of entropy
  • Building Price Models
    • k-nearest neighbors (kNN)
      • weighted
      • may need scaling or normalizing
      • to estimate the probability density
    • cross-validation
      • divide data into training sets and test sets
  • Advanced Classification: Kernel Methods and SVMs
    • basic linear classification
      • using dot-products to determine distance
    • kernel methods
      • define another dot-product == move the points into different space
    • support-vector machines
      • find the line that is as far away as possible from classes
  • Finding Independent Features
    • non-negative matrix factorization
      • factor the article-word matrix into two matrix
        • the features matrix: row for features, column for words
        • the weight matrix: row for articles, column for features
  • Evolving Intelligence
    • creating an algorithm that creating algorithms
    • mutation, crossover/breeding
    • use trees to represent algorithm to enable evolving
      • use to guess numerical functions or, game AI
  • Algorithm Summary
    • Supervised Learning
      • Bayesian Classifier
      • Decision Tree Classifier
      • Neural Networks
      • Support-Vector Machines
    • Unsupervised Learning
      • k-Nearest Neighbors
      • Clustering
      • Multidimensional Scaling
      • Non-Negative Matrix Factorization
    • Optimization

手术

这次长假,我会在首都儿科研究所预约最好的专家,对自己的眼睛进行全面的检查。

目的是,做能让自己摘掉眼镜的手术。

同时,也希望能签订死后捐献角膜的协议。

 

我并不清楚手术的具体时间以及术后恢复期的耗时。这个要视情况而由我爸和医生共同决定。

所以,若我们有约且我没有赴约的话,打我电话就好了。如果我不方便,我的亲人会帮我接的。

 

然而,手术是有风险的,这点我知道。

这个风险的发生概率与所得回报的乘积不会太大,但也绝不算小。

因为我相信我自己:

即便我成了盲人,沦落街头卖唱,只要我能多喝水注意保护嗓子,我也能够成为盲人歌唱家中最出色的,之一。

大家来帮我起个名字吧

前几天的时候,我很闲,我一闲我就想买域名。

域名这种东西吧,最好团购,我一买就买了仨。

biaozhiqiushi.com lizhiqiushi.com qiushihui.me (最后这个的.com被人抢注了,我只好注册.me了。)

域名可以用来做什么呢?表面上看来的话,就是用来做网站的。

但这三个域名到底可以做什么网站呢?

就拿qiushihui.me为例吧,它可以成为浙大的Facebook,也可以成为一个叫“求实惠”的团购网站。所以我真的没有想好。

但是我已经想好另外两个域名在目前这个阶段适合做什么了,你可千万别点进去看啊。

里之求是和表之求是到底是什么意思,你就自由联想吧。

你可以自由联想,但是你可别瞎联想,我会精神分析的,我自己给自己精神分析分析多了以后就会精神分裂,不过我的精神分裂了没有任何关系,因为我已经久病成良医了。

参考答案1:荔枝糗事,离职求实,理智秋实 参考答案2:标志秋实,表侄求诗,标致囚室

p.s.谁敢送我一卡牧师妹的周边我跟谁急!你又不是不知道我最爱吃什么。

p.s.s.新生推荐美剧《生活大爆炸》,他不会告诉你真实的加州理工,但他会帮你树立一个远大的理想。

p.s.s.s.已经毕业了的老生推荐喜剧,因为你可能对生活失望到看什么喜剧都笑不出来,但这个时候,如果有一部喜剧让你笑出来了,那就代表了隐藏在重重包装下的真实的你自己。对于我来说,这部动漫是《银魂》,又称《银他妈》。对于你来说看什么喜剧还能笑出来我就不知道了。

p.s.s.s.s.如果你属于一个人生的关口,你闯不过去这个关你就彻底地失败了,那你还是看看《日常》吧。

p.s.s.s.s.s.我正在筹备浙大轻音部,敬请期待!我们轻音部一般不表演,但如果表演的话,肯定是在小剧场的舞台上。我负责买茶叶、键盘和作曲和一部分的作词(另外一部分的作词由李白负责),然后现在已经有了两个主唱,一个负责唱戏一个负责唱rap。我就缺一个会敲鼓的女生。这种女生存在吗?达不到四个人我们就要被废部了呀!

p.s.s.s.s.s.s. 你以为我用键盘就做不出琵琶的音效吗?

p.s.s.s.s.s.s.s. 人人网你不要生气,qiushihui.me只不过是浙大轻音部的官网而已,我小时候只会打响板的!

p.s.s.s.s.s.s.s.s. 如果那个唱戏的感冒了我也不是不可以替她唱一下,只不过边弹边唱这种事情其实最难了。

p.s.s.s.s.s.s.s.s.s. 如果只有三个人不会被废部吧!不会吧!

p.s.s.s.s.s.s.s.s.s.s. 我们的首部作品名叫《月下独酌》,我高中同学都听过我唱的。

p.s.s.s.s.s.s.s.s.s.s.s. 你什么时候答应我让我家教我什么时候开始写寻路问题的教材!

【残稿】我爱天津狗不理,我爱西湖龙井茶

0

前几天,王昱婷学姐终于答应了我很早以前的请求,愿意跟我走一走苏堤,逛一逛西湖。

在商讨游览路线的时候,对西湖美景应该早就烂熟于胸的杭州人的她表示漠不关心。她说,她只关心中午在哪里吃饭,吃晚饭她还要去迎接肖东学长。

西湖旁边吃饭的地方我只知道三处:一处是楼外楼,王宇同学来杭州时我请他吃西湖醋鱼和东坡肉的地方;一处是曲院风荷的小卖部,我父母带着姥姥姥爷来杭州玩时,两位老人坚持说在这里吃五块钱一碗的泡面就够了;还有就是我和王昱婷学姐去吃的印象西湖售票处附近的那家肯德基。

在肯德基里,王昱婷学姐点了2号套餐,新奥尔良鸡腿堡。而我在4号套餐和8号套餐之间犹豫不决。4号是老北京/墨西哥鸡肉卷套餐,我一直都很喜欢吃肯德基的鸡肉卷。8号是我没吃过的据说里面有虾的汉堡,我虽然没吃过,但我从小就对虾的美味没有任何抵抗力。

最终我点了8号套餐,可乐换成九珍果汁,再单点一个老北京鸡肉卷。服务员说老北京卖完了要不要换成墨西哥卷,我同意了。于是共计花费71元,我一时找不到零钱,王昱婷学姐就给了我一块硬币。

在那个二楼洗手间附近的角落吃的肯德基是我吃过的最好吃的一顿肯德基,从虾堡里的虾到薯条上的番茄酱,每一样东西都是人间美味。

但是,我想我很长一段时间内都不会愿意去吃肯德基了。因为我知道,我再吃肯德基的时候,一定会回想起那天的美味。因为我知道,哪怕在同一家肯德基点同样的套餐坐同样的位置,也吃不到那天一般的美味了。

1

说到肯德基爷爷,便不得不提麦当劳叔叔。我最熟悉的麦当劳是黄龙那家被誉为“浙大第七食堂”的麦当劳。从它晚上凭学生证半价开始,直到它早已不半价了的时候,我在那边吃过无数次夜宵。

无数次夜宵中的大多数,都是仝子飞同学陪我去的。实际上,若他不陪我,我这个高等级的路痴自己绕黄龙体育场绕无数个圈都难以找到那家麦当劳的所在。

在我去麦当劳夜宵的无数个夜里,有时是我春风得意眉飞色舞地炫耀自己的成就,有时是我被抑郁和焦虑折磨得痛不欲生时无奈的诉说。

但不管心情如何,我知道,黄龙麦当劳就在那里,即便我心情再差,它也不会因为我心情变差就关门或者搬走。不管我心情多差,我最爱吃的4号套餐里的汉堡和薯条都会是一样的好吃。

都会是一样的好吃⋯⋯只要是一样的人陪我一起吃。

2

前一段时间又和仝子飞一起吃饭了,还有万纬姐姐。我们仨一起去的是我最喜爱的杭帮菜餐厅:外婆家。

外婆家餐厅不算高档,有一次和王先锋学长陪某黄老板和林老板去吃饭的时候,两位老板还质疑过我的品位,说我怎么会爱吃这种吵吵闹闹平民化的餐厅。

但是我真的很喜欢外婆家餐厅,很大程度上是因为我喜欢它的名字。只要看到招牌上大大的外婆家三个大字,我每每就能入戏,往口中送着青豆泥,嘴里尝到的却是姥姥熬的乱炖菜的味道。

第一次吃外婆家,是第一次参加ACM/ICPC暑期集训的时候,王昱婷学姐和王乃岩学长合办的生日宴会,摆了两桌,请了全集训队的人。当时负责点菜的好像是焦宪弢学长,买单的时候焦学长也潇洒地拿出一张可以打折的什么卡。

没记错的话,当时我向王学姐和王学长各送了一本书做礼物。可是我死活想不起来我送的书名叫什么了⋯⋯

后来,肖东学长、杭航学长和巫泽俊学长取得ACM/ICPC世界银牌的时候,也是在外婆家请大家聚餐。我还在汽车北站的外婆家请王乃岩学长、杨龙婴学姐和石建平学姐吃过饭。还有一次我和万纬姐姐走路走累了实在找不到吃饭的地方,去的也是外婆家。

外婆家实在是好吃啊,因为我每吃一次外婆家,肠胃里都会翻滚起无数次外婆家的回忆,与儿时遥远的河南滑县生活的回忆交织在一起⋯⋯

那些外婆家的回忆的滋味是那样甘美香甜。

3

说了半天还一次都没有点题。本来我想说说我第一次吃到狗不理包子的回忆的。(写到这里我就哭的写不下去了⋯⋯商天皇你什么时候才能跟我说句话啊?)

【残稿】新学期第X周:如何选专业

在选专业之前,你应该多读读科幻小说,然后找到自己最喜欢的科幻小说。找到了以后就容易多了。

 

如果你是学数学的,你就去读何夕的《伤心者》,告诉自己那里面写的都是真事。

如果你是学物理的,你就去读刘慈欣的《三体》,告诉自己那里面写的是另一个平行世界里的真事。

(⋯⋯这些段子以后再编,今天我要赶火车没时间。)

如果你是学化工自动化的,你就去读《哈利波特》,告诉自己那些神奇的魔药的背后都是未被开拓的化学原理,那些神奇的魔咒背后都是未经考虑的自动化秘籍。

我小时候最爱读哈利波特,长大后,我最爱读的小说不是哈利波特,而是一本哈利波特的同人:Harry Potter and the Method of Rationality。那篇小说还没有大结局,但我相信,如果让我写大结局的话,哈利一定会跟赫敏在一起。

对了,读计算机的人也需要读科幻小说,如果你偏爱国人科幻小说的话,那请期待中文计算机硬科幻这一崭新流派的诞生吧!