当前在线人数9398
首页 - 分类讨论区 - 电脑网络 - 葵花宝典版 - 同主题阅读文章

此篇文章共收到打赏
0

  • 10
  • 20
  • 50
  • 100
您目前伪币余额:0
未名交友
[更多]
[更多]
camelcamelcamel价格提醒是怎么做到这么大的量的
[版面:葵花宝典][首篇作者:chunjuan] , 2018年11月28日13:53:30 ,642次阅读,11次回复
来APP回复,赚取更多伪币 关注本站公众号:
[分页:1 ]
chunjuan
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: chunjuan (👍春卷🐱更多春卷👍), 信区: Programming
标  题: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Wed Nov 28 13:53:30 2018, 美东)

当然他家本身爬马鬃价格估计就要不简单 但是我大致还能猜一下怎么实现

现在比较好奇他家价格提醒是怎么做到满足这么大流量的
比如一件货物现价99,有100个不同用户设置了70个不同的价格提醒 价格低于设定阈值
就会发信给用户 这没啥技术好说

但是他现在监控的货物怕是远超过几十万件 尤其是还要监控马鬃不同地区的 us的uk的
应该不只是简单的堆硬件吧 新手求解惑


--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 192.]

 
Wardo
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: Wardo (码云), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Wed Nov 28 18:13:31 2018, 美东)

也就几十万个页面而已,半小时爬一次问题不大吧?
发现价格比上一次存的价格低就触发一个reminder event

【 在 chunjuan (👍春卷🐱更多春卷👍) 的大作中提到: 】
: 当然他家本身爬马鬃价格估计就要不简单 但是我大致还能猜一下怎么实现
: 现在比较好奇他家价格提醒是怎么做到满足这么大流量的
: 比如一件货物现价99,有100个不同用户设置了70个不同的价格提醒 价格低于设定阈值
: 就会发信给用户 这没啥技术好说
: 但是他现在监控的货物怕是远超过几十万件 尤其是还要监控马鬃不同地区的 us的uk的
: 应该不只是简单的堆硬件吧 新手求解惑



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2001:4898:80e8:]

 
walkrandom
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: walkrandom (walkrandom), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Wed Nov 28 19:25:32 2018, 美东)

camelcamelcamel还是做的不错的。
这个看玩法吧。
没有个像样程序员的公司可以搞数据库stored procedure。每次价格变化扫一遍数据库
,发现符合要求的发email。传统公司就这么干的。当然这个很慢。
估计就是pub-sub模型。搞个分布的kafka或者redis。价格变化被爬虫publish到
message queue。客户端subscribe分门别类的channel里面。只要符合逻辑就发email。
可以建上千左右的channel,十几台机器做notification就行了。当然爬虫要多多了。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 108.]

 
chunjuan
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: chunjuan (👍春卷🐱更多春卷👍), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Wed Nov 28 21:08:37 2018, 美东)

他家爬虫估计花费已经不少了 除非主要数据是从那个浏览器插件获取
开个脑洞 想研究下怎么最低成本达到发送提醒的功能
【 在 Wardo (码云) 的大作中提到: 】
: 也就几十万个页面而已,半小时爬一次问题不大吧?
: 发现价格比上一次存的价格低就触发一个reminder event



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:2c3:400:9a]

 
chunjuan
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: chunjuan (👍春卷🐱更多春卷👍), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Wed Nov 28 21:12:03 2018, 美东)

kafaka是个好主意!一直在小公司 分布这块没啥经验
上午瞄了眼aws reinvent,在想用lambda配合他家新出的那个DynamoDB
【 在 walkrandom (walkrandom) 的大作中提到: 】
: camelcamelcamel还是做的不错的。
: 这个看玩法吧。
: 没有个像样程序员的公司可以搞数据库stored procedure。每次价格变化扫一遍数据库
: ,发现符合要求的发email。传统公司就这么干的。当然这个很慢。
: 估计就是pub-sub模型。搞个分布的kafka或者redis。价格变化被爬虫publish到
: message queue。客户端subscribe分门别类的channel里面。只要符合逻辑就发email。
: 可以建上千左右的channel,十几台机器做notification就行了。当然爬虫要多多了。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:2c3:400:9a]

 
longtian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: longtian (有人的地方,就有江湖), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Thu Nov 29 02:32:41 2018, 美东)

amazon反爬虫挺厉害的,即使你用一定数量的ip来爬,即使不被封,效率也会非常低,
能爬的网页数量非常有限,作用不大。除非你有大量僵尸肉鸡。。。

或者本省就用的amazon的api做价格查询,这种方式感觉可能性比较高

【 在 walkrandom (walkrandom) 的大作中提到: 】
: camelcamelcamel还是做的不错的。
: 这个看玩法吧。
: 没有个像样程序员的公司可以搞数据库stored procedure。每次价格变化扫一遍数据库
: ,发现符合要求的发email。传统公司就这么干的。当然这个很慢。
: 估计就是pub-sub模型。搞个分布的kafka或者redis。价格变化被爬虫publish到
: message queue。客户端subscribe分门别类的channel里面。只要符合逻辑就发email。
: 可以建上千左右的channel,十几台机器做notification就行了。当然爬虫要多多了。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 98.]

 
chunjuan
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: chunjuan (👍春卷🐱更多春卷👍), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Thu Nov 29 11:17:00 2018, 美东)

我记得上次看知乎有人说国内哪家电商后台判定你爬虫后会给你错误的价格
这个比封ip还狠
【 在 longtian (有人的地方,就有江湖) 的大作中提到: 】
: amazon反爬虫挺厉害的,即使你用一定数量的ip来爬,即使不被封,效率也会非常低,
: 能爬的网页数量非常有限,作用不大。除非你有大量僵尸肉鸡。。。
: 或者本省就用的amazon的api做价格查询,这种方式感觉可能性比较高



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 192.]

 
walkrandom
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: walkrandom (walkrandom), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Thu Nov 29 13:03:58 2018, 美东)

相对来说,amazon非常的爬虫友好。
国内都是爬虫黑洞,爬虫进了就是死循环出不来。
还有爬虫陷阱,给假的价格。
camelcamelcamel要爬国内的网站,分分钟关门。

【 在 chunjuan (👍春卷🐱更多春卷👍) 的大作中提到: 】
: 我记得上次看知乎有人说国内哪家电商后台判定你爬虫后会给你错误的价格
: 这个比封ip还狠



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 104.]

 
longtian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 9 ]

发信人: longtian (有人的地方,就有江湖), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Thu Nov 29 18:33:41 2018, 美东)

能说说你爬amazon的经验吗?
我爬了很快ip被封,然后不得不很慢的爬,更新很困难

【 在 walkrandom (walkrandom) 的大作中提到: 】
: 相对来说,amazon非常的爬虫友好。
: 国内都是爬虫黑洞,爬虫进了就是死循环出不来。
: 还有爬虫陷阱,给假的价格。
: camelcamelcamel要爬国内的网站,分分钟关门。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 50.]

 
walkrandom
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 10 ]

发信人: walkrandom (walkrandom), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Sun Dec  2 11:09:19 2018, 美东)

不好意思。以前做过,现在可能有变化。
既然ip很便宜,你可以考虑多用几个ip。Amz不永久封地址。

【 在 longtian (有人的地方,就有江湖) 的大作中提到: 】
: 能说说你爬amazon的经验吗?
: 我爬了很快ip被封,然后不得不很慢的爬,更新很困难



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 108.]

 
longtian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 11 ]

发信人: longtian (有人的地方,就有江湖), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Wed Dec  5 15:17:59 2018, 美东)

哪里ip便宜?
正规渠道的ip都不便宜

【 在 walkrandom (walkrandom) 的大作中提到: 】
: 不好意思。以前做过,现在可能有变化。
: 既然ip很便宜,你可以考虑多用几个ip。Amz不永久封地址。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 50.]

 
walkrandom
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 12 ]

发信人: walkrandom (walkrandom), 信区: Programming
标  题: Re: camelcamelcamel价格提醒是怎么做到这么大的量的
发信站: BBS 未名空间站 (Fri Dec  7 16:45:10 2018, 美东)

linode和digitalocean每边买五块钱的vps一千个。
每个上都上ipv6。
这样就是4000个ip。
每个ip就给1QPS吧。
AMZ有12million的商品。
每个小时你可以把AMZ扫描一遍。
成本是一个月一万刀。
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 108.]

[分页:1 ]
[快速返回] [ 进入葵花宝典讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996