当前在线人数15278
首页 - 分类讨论区 - 电脑网络 - 葵花宝典版 - 同主题阅读文章
未名交友
[更多]
[更多]
R语言,小笔记本,如何调参?
[版面:葵花宝典][首篇作者:magliner] , 2017年04月19日09:54:21 ,813次阅读,21次回复
来APP回复,赚取更多伪币 关注本站公众号:
[首页] [上页][下页][末页] [分页:1 2 ]
magliner
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: magliner (magliner), 信区: Programming
标  题: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Wed Apr 19 09:54:21 2017, 美东)

民科一枚,想请教一下R语言里面你们是如何做parameter tuning的。 比如说随机森林
法,至少有两个参数,mtree, mtry。一个参数比如选5~10个数,mtree = 10, 50, 100
, 500, 1000, 1500, etc
另外一个参数mtry,再选5 ~10个数 mtry = 2, 5, 10, 15, 20, etc. 这个grid就有25
~ 100节点。

如果fold = 5 (似乎不能再小了吧?),如果想要遍历所有的grid, 所花的时间非常的
大,我是民科,只有最简单的笔记本,平时上班用,只好晚上跑;冬天还好,可以开着
窗户跑,夏天听着风扇玩命转 真是心疼啊;公家东西也不能糟蹋,是不是。 更重要的
是,晚上要是跑不完, 早上起来就得强行关掉,否则上班没法用这个机器。 这样就浪
费了一晚上的工作量。

第二个问题,随机森林还算好对付,民科我也知道森林大小怎么也不会超过5000, 变量
个数也是有限的。 可是其他方法矢量机啦, 收缩网啦,那些混合系数,惩罚系数从百
万分之一,到一百万都有可能;这种几乎没有上限的参数,你们怎么试验? 对于混合
系数,也许可以试试0, .1, .2, .3,...1 请问还有更好的方法嘛?
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
guvest
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: guvest (我爱你老婆Anna), 信区: Programming
标  题: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Wed Apr 19 10:26:36 2017, 美东)

找个好电脑,找个快速语言。



--
※ 来源:· 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 192.]

 
walkrandom
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: walkrandom (walkrandom), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Wed Apr 19 11:39:02 2017, 美东)

其实做统计用R的,对随机森林这些完全没有需求,没地方用。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 140.]

 
nowhere7
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: nowhere7 (折腾), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Wed Apr 19 12:20:13 2017, 美东)

grid search 还是上cluster吧
几百个node跑一天等于你跑一年

【 在 magliner (magliner) 的大作中提到: 】
: 民科一枚,想请教一下R语言里面你们是如何做parameter tuning的。 比如说随机森林
: 法,至少有两个参数,mtree, mtry。一个参数比如选5~10个数,mtree = 10, 50,
100
: , 500, 1000, 1500, etc
: 另外一个参数mtry,再选5 ~10个数 mtry = 2, 5, 10, 15, 20, etc. 这个grid就有
25
: ~ 100节点。
: 如果fold = 5 (似乎不能再小了吧?),如果想要遍历所有的grid, 所花的时间非常的
: 大,我是民科,只有最简单的笔记本,平时上班用,只好晚上跑;冬天还好,可以开着
: 窗户跑,夏天听着风扇玩命转 真是心疼啊;公家东西也不能糟蹋,是不是。 更重要的
: 是,晚上要是跑不完, 早上起来就得强行关掉,否则上班没法用这个机器。 这样就浪
: 费了一晚上的工作量。
: ...................



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 66.]

 
magliner
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: magliner (magliner), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Wed Apr 19 12:27:08 2017, 美东)

我知道你水平高,帮帮忙吧。
其实我只要一个range, 这样的要求,算不算太高?
另外别人是怎么做的 ? 我不相信他们他们撒大网一样试参数。

【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 找个好电脑,找个快速语言。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 205.]

 
guvest
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: guvest (我爱你老婆Anna), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Wed Apr 19 17:01:57 2017, 美东)

我哪有什么水平啊。

我说的是真的,通用的办法真的只有换电脑。你先把

另外我也在找合适的语言。如果找到个好语言,一天能多试验
一些算法和策略,差别是很大的。就是启发式的瞎猜呗。

【 在 magliner (magliner) 的大作中提到: 】
: 我知道你水平高,帮帮忙吧。
: 其实我只要一个range, 这样的要求,算不算太高?
: 另外别人是怎么做的 ? 我不相信他们他们撒大网一样试参数。





--
※ 修改:·guvest 於 Apr 19 17:04:01 2017 修改本文·[FROM: 192.]
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 192.]

 
wdong
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: wdong (万事休), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Wed Apr 19 21:41:02 2017, 美东)

我还真没做过grid search. 下面是我这次kaggle比赛的xgboost参数

model = XGBClassifier(n_estimators=1200, learning_rate=0.01,max_depth=2,
subsample=0.9, colsample_bytree=0.4)

最佳n_estimators随learning_rate增加而增加。这两个是相关的。
learning_rate=0.1时最佳的n_estimator大致是100的样子。
max_depth的最佳值和别的都没啥关系。这次铁定是2.
然后大致调下剩下两个参数,就定了。

grid search我觉得做得太绝,也有可能伤人品,一直没用过(开销也大,我没这耐心)



【 在 nowhere7 (折腾) 的大作中提到: 】
: grid search 还是上cluster吧
: 几百个node跑一天等于你跑一年
: 100
: 25



--

※ 来源:·BBS 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 209.]

 
magliner
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: magliner (magliner), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Wed Apr 19 23:17:19 2017, 美东)

这话怎么讲, 给说说 ?max_depth = 2 是由于某种原因,或者基于你的判断得来的。
好,那还剩下两个参数, 怎么办? 难道不是做grid search ? 就算你事先知道一定的
range, 比如【0, 1】, 那么应该实验10次, 100次,甚至1000次 ? 谁能说得清?
【 在 wdong (万事休) 的大作中提到: 】
: 我还真没做过grid search. 下面是我这次kaggle比赛的xgboost参数
: model = XGBClassifier(n_estimators=1200, learning_rate=0.01,max_depth=2,
: subsample=0.9, colsample_bytree=0.4)
: 最佳n_estimators随learning_rate增加而增加。这两个是相关的。
: learning_rate=0.1时最佳的n_estimator大致是100的样子。
: max_depth的最佳值和别的都没啥关系。这次铁定是2.
: 然后大致调下剩下两个参数,就定了。
: grid search我觉得做得太绝,也有可能伤人品,一直没用过(开销也大,我没这耐
心)



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
nostring
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 9 ]

发信人: nostring (尼), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Wed Apr 19 23:30:02 2017, 美东)

Mtree = 100
Mtry = 根号p
用不着grid search

[在  magliner (magliner) 的大作中提到:]
:民科一枚,想请教一下R语言里面你们是如何做parameter tuning的。 比如说随机森
林法,至少有两个参数,mtree, mtry。一个参数比如选5~10个数,mtree = 10, 50,
100, 500, 1000, 1500, etc
:另外一个参数mtry,再选5 ~10个数 mtry = 2, 5, 10, 15, 20, etc. 这个grid就有25
~ 100节点。
:如果fold = 5 (似乎不能再小了吧?),如果想要遍历所有的grid, 所花的时间非常的
:大,我是民科,只有最简单的笔记本,平时上班用,只好晚上跑;冬天还好,可以开
着窗户跑,夏天听着风扇玩命转 真是心疼啊;公家东西也不能糟蹋,是不是。 更重要
的是,晚上要是跑不完, 早上起来就得强行关掉,否则上班没法用这个机器。 这样就
浪费了一晚上的工作量。
:第二个问题,随机森林还算好对付,民科我也知道森林大小怎么也不会超过5000, 变
量个数也是有限的。 可是其他方法矢量机啦, 收缩网啦,那些混合系数,惩罚系数从百
:万分之一,到一百万都有可能;这种几乎没有上限的参数,你们怎么试验? 对于混合
:系数,也许可以试试0, .1, .2, .3,...1 请问还有更好的方法嘛?
--
※ 来源:·iOS 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 73.]

 
magliner
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 10 ]

发信人: magliner (magliner), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Wed Apr 19 23:41:33 2017, 美东)

奇怪,怎么就伤人品了 ? 难道业界真有这种说法? 我怎么不知道。
我说做gridsearch, 都是从书上看的。 不是我自己想的。
【 在 wdong (万事休) 的大作中提到: 】
: 我还真没做过grid search. 下面是我这次kaggle比赛的xgboost参数
: model = XGBClassifier(n_estimators=1200, learning_rate=0.01,max_depth=2,
: subsample=0.9, colsample_bytree=0.4)
: 最佳n_estimators随learning_rate增加而增加。这两个是相关的。
: learning_rate=0.1时最佳的n_estimator大致是100的样子。
: max_depth的最佳值和别的都没啥关系。这次铁定是2.
: 然后大致调下剩下两个参数,就定了。
: grid search我觉得做得太绝,也有可能伤人品,一直没用过(开销也大,我没这耐
心)



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
nowhere7
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 11 ]

发信人: nowhere7 (折腾), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Thu Apr 20 00:07:21 2017, 美东)

你是根正苗红道上的,追本溯源,讲究江湖规矩
我这种野路子三脚猫,不求甚解,只图简单粗暴
【 在 wdong (万事休) 的大作中提到: 】
: 我还真没做过grid search. 下面是我这次kaggle比赛的xgboost参数
: model = XGBClassifier(n_estimators=1200, learning_rate=0.01,max_depth=2,
: subsample=0.9, colsample_bytree=0.4)
: 最佳n_estimators随learning_rate增加而增加。这两个是相关的。
: learning_rate=0.1时最佳的n_estimator大致是100的样子。
: max_depth的最佳值和别的都没啥关系。这次铁定是2.
: 然后大致调下剩下两个参数,就定了。
: grid search我觉得做得太绝,也有可能伤人品,一直没用过(开销也大,我没这耐
心)



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 66.]

 
nowhere7
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 12 ]

发信人: nowhere7 (折腾), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Thu Apr 20 00:09:07 2017, 美东)

这类经典算法,R/python 都是层包裹而已,核心代码应该都是C/C++之类的
瓶颈应该不在语言
【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 我哪有什么水平啊。
: 我说的是真的,通用的办法真的只有换电脑。你先把
: 另外我也在找合适的语言。如果找到个好语言,一天能多试验
: 一些算法和策略,差别是很大的。就是启发式的瞎猜呗。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 66.]

 
nowhere7
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 13 ]

发信人: nowhere7 (折腾), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Thu Apr 20 00:12:04 2017, 美东)

我觉得grid search的粒度不用太细
不管你怎么设置,只要你是根据performance来调参数
都会有overfitting的危险
最普适的模型应该是参数尽可能少,或者少调的
【 在 magliner (magliner) 的大作中提到: 】
: 这话怎么讲, 给说说 ?max_depth = 2 是由于某种原因,或者基于你的判断得来的。
:  好,那还剩下两个参数, 怎么办? 难道不是做grid search ? 就算你事先知道一定的
: range, 比如【0, 1】, 那么应该实验10次, 100次,甚至1000次 ? 谁能说得清?
: 心)



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 66.]

 
wdong
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 14 ]

发信人: wdong (万事休), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Thu Apr 20 07:46:34 2017, 美东)

总结的很到位。我说的伤人品其实也是这个意思,凡事留点余地少点overfit。

【 在 nowhere7 (折腾) 的大作中提到: 】
: 我觉得grid search的粒度不用太细
: 不管你怎么设置,只要你是根据performance来调参数
: 都会有overfitting的危险
: 最普适的模型应该是参数尽可能少,或者少调的




--
※ 修改:·wdong 於 Apr 20 07:51:17 2017 修改本文·[FROM: 209.]
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 209.]

 
minquan
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 15 ]

发信人: minquan (三民主义), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Thu Apr 20 08:56:26 2017, 美东)

关键的问题在于循环里不能用这三个函数
c()
cbind()
rbind()

但凡你用了,慢得出奇。
解决办法是刚开始就建好纯零矩阵,然后填数。

快百倍不止。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 65.]

 
minquan
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 16 ]

发信人: minquan (三民主义), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Thu Apr 20 09:08:52 2017, 美东)

即使用一个向量,不断的滚动刷新,也比任何带有变量重构的命令强。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 65.]

 
guvest
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 17 ]

发信人: guvest (我爱你老婆Anna), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Thu Apr 20 10:28:04 2017, 美东)

我自己写算法,不用这些库。所以需要找个比c好的语言。
【 在 nowhere7 (折腾) 的大作中提到: 】
: 这类经典算法,R/python 都是层包裹而已,核心代码应该都是C/C++之类的
: 瓶颈应该不在语言



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 192.]

 
nowhere7
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 18 ]

发信人: nowhere7 (折腾), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Thu Apr 20 22:14:51 2017, 美东)

即使自己写,R/python 或者matlab什么的 积木都给你了
自己拼吧拼吧大部分时候够用了
实在不行地方自己写点c
【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 我自己写算法,不用这些库。所以需要找个比c好的语言。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 66.]

 
guvest
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 19 ]

发信人: guvest (我爱你老婆Anna), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Thu Apr 20 22:24:28 2017, 美东)

我18年前硕士论文就是Ann
跟现在这波不是一挂的

现在这波还没收敛
我觉得跳进去没必要


【 在 nowhere7(折腾) 的大作中提到: 】
<br>: 即使自己写,R/python 或者matlab什么的 积木都给你了
<br>: 自己拼吧拼吧大部分时候够用了
<br>: 实在不行地方自己写点c
<br>

--
※ 修改:·guvest 於 Apr 20 22:27:39 2017 修改本文·[FROM: 2605:6001:e7dc:f]
※ 来源:· 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2607:fb90:0858:]

 
netghost
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 20 ]

发信人: netghost (Up to Isomorphism), 信区: Programming
标  题: Re: R语言,小笔记本,如何调参?
发信站: BBS 未名空间站 (Thu Apr 20 23:28:02 2017, 美东)

不想troll,但是不幸的是,真的沒有什麼比C好的語言。
【 在 guvest (我爱你老婆Anna) 的大作中提到: 】
: 我自己写算法,不用这些库。所以需要找个比c好的语言。



--

※ 来源:·BBS 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 108.]

[首页] [上页][下页][末页] [分页:1 2 ]
[快速返回] [ 进入葵花宝典讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996