mitbbs.com
  首页 -分类讨论区 - 学术学科 - 统计版 - 同主题阅读文章
  首页
  分类广告
分类讨论区
  移民专栏
新闻中心
  精华区
  未名博客
  俱乐部
  未名形象秀
  未名黄页
  未名交友
  未名人才
未名交友
[更多]
[更多]
同主题阅读:R 有点令人失望
[版面:统计][首篇作者:DaShagen] , 2013年01月26日23:16:06
[首页] [上页][下页][末页] [分页:1 2 3 4 5 ]
DaShagen
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: DaShagen (Unbearable lightness), 信区: Statistics
标  题: R 有点令人失望
发信站: BBS 未名空间站 (Sat Jan 26 23:16:06 2013, 美东)

做一个东西,分别用了R和SAS实现。

R比较好写code,可是SAS在速度上超出R很多

基本上SAS是
data new;
set old;
by id;
%dosth;
run;

R就是
new <- split(old,old$id) #这步没有进入速度比较
g<-sapply(new,func_dosth);

由于dosth是对matrix结构的数据进行操作,用R写自然很多,用SAS写比较别扭。
可是一比较,SAS的速度是R的10到20倍。

如果是1秒跟10秒的区别还好,问题是数据都比较大,那就是1天跟20天的区别。

R可以洗洗睡了。






--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 216.]

 
kirklanda
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: kirklanda (kirkland), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sat Jan 26 23:19:13 2013, 美东)

有同感。。。
--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 24.]

 
Riemannian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: Riemannian (Manifold), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 00:45:16 2013, 美东)

R除了速度显著慢之外,还有的问题就是可靠性。同一个算法/模型,通常很多package
实现,但是互相之间结果不总是一致,并且也不知道这种开源包到底实现得对不对

整体感觉学术界用来玩玩R还好,业界如果用R的话,只适合一些要求不高的场合

【 在 DaShagen (Unbearable lightness) 的大作中提到: 】
: 做一个东西,分别用了R和SAS实现。
: R比较好写code,可是SAS在速度上超出R很多
: 基本上SAS是
: data new;
:  set old;
:  by id;
:  %dosth;
: run;
: R就是
: new <- split(old,old$id) #这步没有进入速度比较
: ...................


--

※ 来源:·BBS 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 128.]

 
sss1609070
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: sss1609070 (sss1609070), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 01:05:20 2013, 美东)

这种月经问题。。。。。。这就好像举重的和短跑的都是搞体育的,举重的天天要和短
跑的比力气,短跑的反过来只愿意比速度。。。。

你要是习惯或者必须遵守某些标准,然后又喜欢用现成的且可靠的package,那就去用
SAS。

你要是想尝试一些很新的东西,或者需要做一些很灵活的东西。。。。。


--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 24.]

 
Iniesta
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: Iniesta (小白兔的哥哥), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 01:10:51 2013, 美东)

是这个道理。




【 在 sss1609070 (sss1609070) 的大作中提到: 】
: 这种月经问题。。。。。。这就好像举重的和短跑的都是搞体育的,举重的天天要和短
: 跑的比力气,短跑的反过来只愿意比速度。。。。
: 你要是习惯或者必须遵守某些标准,然后又喜欢用现成的且可靠的package,那就去用
: SAS。
: 你要是想尝试一些很新的东西,或者需要做一些很灵活的东西。。。。。



--

※ 来源:·BBS 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 173.]

 
qqzj
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: qqzj (小车车), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 01:18:20 2013, 美东)


请问你是什么操作系统?好像windows下面差很多,linux下面就不一定了。另外我自己
尝试过,windows下面R根本就不能处理大数据,但是好像挺朋友说linux下面就没有问
题。请问这个是否属实,为什么?另外请问python和R各有什么比较好的optimization
的package。多谢。
【 在 DaShagen (Unbearable lightness) 的大作中提到: 】
做一个东西,分别用了R和SAS实现。

R比较好写code,可是SAS在速度上超出R很多

基本上SAS是
data new;
set old;
by id;
%dosth;
run;

R就是
new <- split(old,old$id) #这步没有进入速度比较
g<-sapply(new,func_dosth);

由于dosth是对matrix结构的数据进行操作,用R写自然很多,用SAS写比较别扭。
可是一比较,SAS的速度是R的10到20倍。

如果是1秒跟10秒的区别还好,问题是数据都比较大,那就是1天跟20天的区别。

R可以洗洗睡了。






--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 216.]



--

※ 来源:·BBS 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 99.]

 
Riemannian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: Riemannian (Manifold), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 01:19:16 2013, 美东)

追求新和灵活也可以其他选择。比如matlab,官方package很可靠。开源/free的
package,可以自己去看源代码保证质量

【 在 sss1609070 (sss1609070) 的大作中提到: 】
: 这种月经问题。。。。。。这就好像举重的和短跑的都是搞体育的,举重的天天要和短
: 跑的比力气,短跑的反过来只愿意比速度。。。。
: 你要是习惯或者必须遵守某些标准,然后又喜欢用现成的且可靠的package,那就去用
: SAS。
: 你要是想尝试一些很新的东西,或者需要做一些很灵活的东西。。。。。



--

※ 修改:·Riemannian 于 Jan 27 01:19:49 2013 修改本文·[FROM: 128.]
※ 来源:·BBS 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 128.]

 
sss1609070
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: sss1609070 (sss1609070), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 04:50:38 2013, 美东)

嗯,matlab是不错,但matlab毕竟不是专门用来做统计的。。。。。。而且你说的这几
个优点,R也都具备。

说来说去,如果不能提出具体的情况和要求,只是泛泛的比较这些软件,真没什么意思
。。。。。

【 在 Riemannian (Manifold) 的大作中提到: 】
: 追求新和灵活也可以其他选择。比如matlab,官方package很可靠。开源/free的
: package,可以自己去看源代码保证质量



--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 24.]

 
DaShagen
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 9 ]

发信人: DaShagen (Unbearable lightness), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 09:20:29 2013, 美东)

这个比喻不恰当吧。 anyway,不是非要用R,而是R整天在那里鼓吹可以代替SAS。还
big Data。每每用了,都太失望。我这里还没有涉及到任何package的问题,只是一些
简单的对二维数据的操作。


【 在 sss1609070 (sss1609070) 的大作中提到: 】
: 这种月经问题。。。。。。这就好像举重的和短跑的都是搞体育的,举重的天天要和短
: 跑的比力气,短跑的反过来只愿意比速度。。。。
: 你要是习惯或者必须遵守某些标准,然后又喜欢用现成的且可靠的package,那就去用
: SAS。
: 你要是想尝试一些很新的东西,或者需要做一些很灵活的东西。。。。。



--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 71.]

 
DaShagen
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 10 ]

发信人: DaShagen (Unbearable lightness), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 09:22:07 2013, 美东)

这个就是linux下面的R跟SAS比,

python也是我现在想到的东西,不知道是否给R快。我对python不熟,可能statcompute
可以回答这个问题。

【 在 qqzj (小车车) 的大作中提到: 】
: 请问你是什么操作系统?好像windows下面差很多,linux下面就不一定了。另外我自己
: 尝试过,windows下面R根本就不能处理大数据,但是好像挺朋友说linux下面就没有问
: 题。请问这个是否属实,为什么?另外请问python和R各有什么比较好的
optimization
: 的package。多谢。
: 做一个东西,分别用了R和SAS实现。
: R比较好写code,可是SAS在速度上超出R很多
: 基本上SAS是
: data new;
:  set old;
:  by id;
: ...................



--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 71.]

 
NaCN
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 11 ]

发信人: NaCN (同样有毒), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 09:38:11 2013, 美东)

没看到statcompute版。。是俱乐部吗?
【 在 DaShagen (Unbearable lightness) 的大作中提到: 】
: 这个就是linux下面的R跟SAS比,
: python也是我现在想到的东西,不知道是否给R快。我对python不熟,可能
statcompute
: 可以回答这个问题。
: optimization


--
"United we fly, together we stand."



※ 来源:·BBS 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 69.]

 
hjdut
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 12 ]

发信人: hjdut (hehe), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 09:55:18 2013, 美东)

你R code写的不efficient当然跑的慢。



【 在 DaShagen (Unbearable lightness) 的大作中提到: 】
: 做一个东西,分别用了R和SAS实现。
: R比较好写code,可是SAS在速度上超出R很多
: 基本上SAS是
: data new;
:  set old;
:  by id;
:  %dosth;
: run;
: R就是
: new <- split(old,old$id) #这步没有进入速度比较
: ...................



--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 71.]

 
taoketao
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 13 ]

发信人: taoketao (taoketao), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 13:52:19 2013, 美东)

我有类似的经历。
我做genomics data,都是上g的data,R读数据基本上是考验耐心,而SAS都是几秒钟就
读进去。

曾经做multiple imputation,对一个比较大的数据impute missing value。
R的code就很短的三五行,结果运行时间估计是20小时。
同事做计算机的,写了满满一页perl code来实现。写code花了半个小时,运行不到三
分钟。

R的有点在于有很多现成的统计函数和模块,但data manipulation上速度确实比SAS慢
很多,更不用说perl,C++之类的


【 在 hjdut (hehe) 的大作中提到: 】
: 你R code写的不efficient当然跑的慢。




--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 174.]

 
Lowrank
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 14 ]

发信人: Lowrank (Matrix), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 14:53:58 2013, 美东)

python/perl/matlab/etc,都会比R显著的快

【 在 DaShagen (Unbearable lightness) 的大作中提到: 】
: 这个就是linux下面的R跟SAS比,
: python也是我现在想到的东西,不知道是否给R快。我对python不熟,可能
statcompute
: 可以回答这个问题。
: optimization



--

※ 来源:·BBS 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 142.]

 
statcompute
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 15 ]

发信人: statcompute (statcompute), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 15:15:44 2013, 美东)

try data.table package.
--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 98.]

 
qqzj
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 16 ]

发信人: qqzj (小车车), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 16:28:27 2013, 美东)



请问你们上g的数据一般存在哪里?另外perl和python比,哪个速度快,还是差不多?
【 在 taoketao (taoketao) 的大作中提到: 】
: 我有类似的经历。
: 我做genomics data,都是上g的data,R读数据基本上是考验耐心,而SAS都是几秒钟就
: 读进去。
: 曾经做multiple imputation,对一个比较大的数据impute missing value。
: R的code就很短的三五行,结果运行时间估计是20小时。
: 同事做计算机的,写了满满一页perl code来实现。写code花了半个小时,运行不到三
: 分钟。
: R的有点在于有很多现成的统计函数和模块,但data manipulation上速度确实比SAS慢
: 很多,更不用说perl,C++之类的



--

※ 来源:·BBS 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 99.]

 
qqzj
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 17 ]

发信人: qqzj (小车车), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 16:29:23 2013, 美东)


能讲讲这个能加快R多少,如何加快的?多谢。另外python做optimization有没有好的
package?多谢。
【 在 statcompute (statcompute) 的大作中提到: 】
: try data.table package.



--

※ 来源:·BBS 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 99.]

 
statcompute
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 18 ]

发信人: statcompute (statcompute), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 17:18:06 2013, 美东)

看情况。SQLite 的portability 好,但是hdf5的读取速度快。


【 在 qqzj (小车车) 的大作中提到: 】
: 请问你们上g的数据一般存在哪里?另外perl和python比,哪个速度快,还是差不多?


--
发自Android MITBBS阅览器 7.5
--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 70.]

 
DaShagen
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 19 ]

发信人: DaShagen (Unbearable lightness), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 17:30:02 2013, 美东)

刚试了一下perl,

running time , R:Perl:SAS = 21 : 3.4: 1

perl比R快多了,主要原因可能还是由于R没有pass by reference的机制。function都
是把parameter copy 一次,所以速度就慢很多。

同是解释语言,perl等就有pass by reference的机制,不知道为啥R没有,这简直就是
一个大缺陷。


【 在 Lowrank (Matrix) 的大作中提到: 】
: python/perl/matlab/etc,都会比R显著的快
: statcompute



--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 216.]

 
qqzj
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 20 ]

发信人: qqzj (小车车), 信区: Statistics
标  题: Re: R 有点令人失望
发信站: BBS 未名空间站 (Sun Jan 27 18:51:30 2013, 美东)



sas 的背后是什么语言,为什么这么快?不会是汇编吧。
【 在 DaShagen (Unbearable lightness) 的大作中提到: 】
: 刚试了一下perl,
: running time , R:Perl:SAS = 21 : 3.4: 1
: perl比R快多了,主要原因可能还是由于R没有pass by reference的机制。function都
: 是把parameter copy 一次,所以速度就慢很多。
: 同是解释语言,perl等就有pass by reference的机制,不知道为啥R没有,这简直就是
: 一个大缺陷。



--

※ 来源:·BBS 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 99.]

[首页] [上页][下页][末页] [分页:1 2 3 4 5 ]
[快速返回] [ 进入统计讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996