当前在线人数14625
首页 - 分类讨论区 - 电脑网络 - 数据科学版 - 同主题阅读文章

此篇文章共收到打赏
0

  • 10
  • 20
  • 50
  • 100
您目前伪币余额:0
未名交友
[更多]
[更多]
Science杂志一篇关于clustering的新文章 (转载)
[版面:数据科学][首篇作者:f0008] , 2014年07月02日07:52:49 ,5288次阅读,9次回复
来APP回复,赚取更多伪币 关注本站公众号:
[分页:1 ]
f0008
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: f0008 (f0008), 信区: DataSciences
标  题: Science杂志一篇关于clustering的新文章 (转载)
发信站: BBS 未名空间站 (Wed Jul  2 07:52:49 2014, 美东)

【 以下文字转载自 Statistics 讨论区 】
发信人: f0008 (f0008), 信区: Statistics
标  题: Science杂志一篇关于clustering的新文章
发信站: BBS 未名空间站 (Wed Jul  2 07:49:51 2014, 美东)


http://m.sciencemag.org/content/344/6191/1492.abstract

Matlab代码在Suppl Info里,只有200行左右

有没有专家点评一下?
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 166.]

 
zhaoce
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: zhaoce (米高蜥蜴), 信区: DataSciences
标  题: Re: Science杂志一篇关于clustering的新文章 (转载)
发信站: BBS 未名空间站 (Wed Jul  2 08:17:38 2014, 美东)

看了abstract,觉得make sense
但是有一种特殊情况,我当时做polysemy时候遇到的
比如100个docs
其中99个都是关于某一个idea的
剩下1个是关于另外一个idea的
那么这99个相互之间的dis会比较接近
所以就会凑成一堆,但是另外一个会离得比较远
那就看你,要不要这1个了,按照它abstract的说法
这1个会被ignore掉,也就是如果cluster的那个tree会非常imbalance的话
就会出现这种遗漏,我记得一般clustering是避免rebalance整个tree的
所以我认为这种outlier还是不应该忽略
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 27.]

 
zhaoce
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: zhaoce (米高蜥蜴), 信区: DataSciences
标  题: Re: Science杂志一篇关于clustering的新文章 (转载)
发信站: BBS 未名空间站 (Wed Jul  2 08:28:25 2014, 美东)

http://eric-yuan.me/clustering-fast-search-find-density-peaks/

这里有全文
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 27.]

 
zhaoce
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: zhaoce (米高蜥蜴), 信区: DataSciences
标  题: Re: Science杂志一篇关于clustering的新文章 (转载)
发信站: BBS 未名空间站 (Wed Jul  2 08:29:57 2014, 美东)

粗略的看了下,果然把outlier给干掉了
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 27.]

 
zhaoce
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: zhaoce (米高蜥蜴), 信区: DataSciences
标  题: Re: Science杂志一篇关于clustering的新文章 (转载)
发信站: BBS 未名空间站 (Thu Jul  3 07:17:27 2014, 美东)

这么好的文章居然没有人讨论
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 27.]

 
Actuaries
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: Actuaries (striving), 信区: DataSciences
标  题: Re: Science杂志一篇关于clustering的新文章 (转载)
发信站: BBS 未名空间站 (Thu Jul  3 17:49:06 2014, 美东)

clustering或者outlier detection是基于feature的相似性
如果你认为那1个和剩余的99个应该归到一类的话
那就应该把可以表现这种相似性的feature加进去

【 在 zhaoce (米高蜥蜴) 的大作中提到: 】
: 看了abstract,觉得make sense
: 但是有一种特殊情况,我当时做polysemy时候遇到的
: 比如100个docs
: 其中99个都是关于某一个idea的
: 剩下1个是关于另外一个idea的
: 那么这99个相互之间的dis会比较接近
: 所以就会凑成一堆,但是另外一个会离得比较远
: 那就看你,要不要这1个了,按照它abstract的说法
: 这1个会被ignore掉,也就是如果cluster的那个tree会非常imbalance的话
: 就会出现这种遗漏,我记得一般clustering是避免rebalance整个tree的
: ...................



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
zhaoce
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: zhaoce (米高蜥蜴), 信区: DataSciences
标  题: Re: Science杂志一篇关于clustering的新文章 (转载)
发信站: BBS 未名空间站 (Fri Jul  4 03:39:11 2014, 美东)

我的意思是把他们分开,那1个单独算一个cluster
【 在 Actuaries (striving) 的大作中提到: 】
: clustering或者outlier detection是基于feature的相似性
: 如果你认为那1个和剩余的99个应该归到一类的话
: 那就应该把可以表现这种相似性的feature加进去



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 27.]

 
gtrr35
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: gtrr35 (GTR-R35), 信区: DataSciences
标  题: Re: Science杂志一篇关于clustering的新文章 (转载)
发信站: BBS 未名空间站 (Fri Jul  4 05:43:03 2014, 美东)

“This idea forms the basis of a clustering procedure in which the number of
clusters arises intuitively, outliers are automatically spotted and
excluded from the analysis, and clusters are recognized regardless of their
shape and of the dimensionality of the space in which they are embedded.”

就看了这么多,我觉得trick就在如何定义outlier里面。本来classification和
outlier finding就是孪生问题,确定一个,另一个就是自然的结果。尼玛先把outlier
给定了,k-mean的k就确定了,一点不奇怪。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 68.]

 
zhaoce
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 9 ]

发信人: zhaoce (米高蜥蜴), 信区: DataSciences
标  题: Re: Science杂志一篇关于clustering的新文章 (转载)
发信站: BBS 未名空间站 (Fri Jul  4 09:59:21 2014, 美东)

这个方法有两个维度
要成为seed的话,第一个条件就是周围density够高
outlier第一个条件就不满足,所以很容易被排除掉
【 在 gtrr35 (GTR-R35) 的大作中提到: 】
: “This idea forms the basis of a clustering procedure in which the number
of
:  clusters arises intuitively, outliers are automatically spotted and
: excluded from the analysis, and clusters are recognized regardless of
their
: shape and of the dimensionality of the space in which they are embedded.”
: 就看了这么多,我觉得trick就在如何定义outlier里面。本来classification和
: outlier finding就是孪生问题,确定一个,另一个就是自然的结果。尼玛先把
outlier
: 给定了,k-mean的k就确定了,一点不奇怪。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 27.]

[分页:1 ]
[快速返回] [ 进入数据科学讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996