当前在线人数13482
首页 - 分类讨论区 - 电脑网络 - 葵花宝典版 - 同主题阅读文章
未名交友
[更多]
[更多]
文本分析,document_term matrix求解。
[版面:葵花宝典][首篇作者:magliner] , 2017年06月18日12:33:09
来APP回复,赚取更多伪币 关注本站公众号:
[分页:1 ]
magliner
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: magliner (magliner), 信区: Programming
标  题: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Sun Jun 18 12:33:09 2017, 美东)

正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely, rarely
等等也应该考虑进去。

自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?

所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
本分析的软件,可否推荐一下?

我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
点。比如,trump好,因为1,2,3. trump不好,因为4,5,6.  某股票会升值,因为1,2,3
会贬值因为4,5,6

再比如,amazon review一本书,一个电影。 喜欢这本书,因为1,2,3; 不喜欢这本书
,因为4,5,6.

既然计算机可以对程序进行编译,我不明白为什么对文本'编译'- 也就是分析下语法结
构,得到作者观点 , 难道很难吗?
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
hci
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: hci (海螺子), 信区: Programming
标  题: Re: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Sun Jun 18 13:07:15 2017, 美东)

“难道很难吗?” 哈哈。

Are you f*ing serious?


【 在 magliner (magliner) 的大作中提到: 】
: 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
: package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
: ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely,
rarely
: 等等也应该考虑进去。
: 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
: document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
: stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?
: 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
: 本分析的软件,可否推荐一下?
: 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
: ...................



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 34.]

 
xyz14
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: xyz14 (xyz14), 信区: Programming
标  题: Re: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Sun Jun 18 13:33:11 2017, 美东)

赚钱很难的。

【 在 magliner (magliner) 的大作中提到: 】
: 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
: package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
: ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely,
rarely
: 等等也应该考虑进去。
: 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
: document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
: stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?
: 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
: 本分析的软件,可否推荐一下?
: 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
: ...................




--
☆ 发自 iPhone 买买提 1.23.01
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 73.]

 
magliner
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: magliner (magliner), 信区: Programming
标  题: Re: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Sun Jun 18 15:11:18 2017, 美东)

我知道你做生意,给你出个点子。 很多文学名著,都是大部头的著作,平常人根本没
时间空读。 你用文本分析,把原著缩略成几个小时能读完的,推销给国内出版社。肯
定赚钱。

或者,把每天的英文报纸,华尔街日报,弄成个缩略版的,让人十分钟看完。 推销给
国内网站。
【 在 hci (海螺子) 的大作中提到: 】
: “难道很难吗?” 哈哈。
: Are you f*ing serious?
: rarely



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
magliner
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: magliner (magliner), 信区: Programming
标  题: Re: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Sun Jun 18 15:18:25 2017, 美东)

此话怎讲 ? 一天到晚讨论机器人取代人类。 如果机器连这点本事都没有 也太差劲了

【 在 hci (海螺子) 的大作中提到: 】
: “难道很难吗?” 哈哈。
: Are you f*ing serious?
: rarely



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
walkrandom
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: walkrandom (walkrandom), 信区: Programming
标  题: Re: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Sun Jun 18 16:37:57 2017, 美东)

美国最牛逼的FBI,连一个在UIUC出现过的车牌,都parse不出来。
这是真实的世界,别想多了。


--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 74.]

 
timetodo
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: timetodo (time2do), 信区: Programming
标  题: Re: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Sun Jun 18 17:44:39 2017, 美东)

这个真的很难。
关于句法分析,请搜索 pcfg parser
关于为啥喜欢某个产品啥的,请搜索sentiment analysis
别看学术界工业界吹得震天响,很多基本的应用都还差劲的很。

【 在 magliner (magliner) 的大作中提到: 】
: 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
: package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
: ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely,
rarely
: 等等也应该考虑进去。
: 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
: document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
: stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?
: 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
: 本分析的软件,可否推荐一下?
: 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
: ...................



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 76.]

 
dumbCoder
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: dumbCoder (HumbleCoder 不懂就问-_-), 信区: Programming
标  题: Re: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Sun Jun 18 20:55:21 2017, 美东)

你说的那个叫自然语言语义分析了,是 NLP 里最难的部分, 而且没啥实质进展的.
计算机真能读懂文献了, 那不是各种图灵测试都能通过了?


【 在 magliner (magliner) 的大作中提到: 】
: 正在自学text mining. 当然我肯定不会自己造轮子,我当初设想会有什么牛逼的
: package, 按照一本什么样的字典,进行主谓,宾定状补解析文本,同时考虑名词,动词
: ,形容词,介词,冠词什么的根据实际情况忽略。 还有否定词,not , barely,
rarely
: 等等也应该考虑进去。
: 自学了一段时间,怎么也找不到我要的算法。 网上大量的文章,99%以上,都在讲
: document term matrix . 这种算法虽然简单,我觉得并不实用。 无非是扔掉
: stopwords, 对stem word算一些frequency. 这种算法是不是过于简单了?
: 所以我想请教,是不是我没有理解document matrix的真谛? 如果大家知道什么好的文
: 本分析的软件,可否推荐一下?
: 我想干什么呢,举个例子。 一篇报纸文章好几千字。 我想用文本分析总结一下主要观
: ...................



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2601:0646:c501:]

 
zhaichun108
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 9 ]

发信人: zhaichun108 (onlyif), 信区: Programming
标  题: Re: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Sun Jun 18 23:44:14 2017, 美东)


这个点子挺老的了

有个类似的app叫Summly, 做的屎一样也卖了30个米

【 在 magliner (magliner) 的大作中提到: 】
: 我知道你做生意,给你出个点子。 很多文学名著,都是大部头的著作,平常人根本没
: 时间空读。 你用文本分析,把原著缩略成几个小时能读完的,推销给国内出版社。肯
: 定赚钱。
: 或者,把每天的英文报纸,华尔街日报,弄成个缩略版的,让人十分钟看完。 推销给
: 国内网站。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
magliner
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 10 ]

发信人: magliner (magliner), 信区: Programming
标  题: Re: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Mon Jun 19 09:53:32 2017, 美东)

你说的是人工翻译的还是人工智能的 ?
如果机器有一天要统治人类,第一步,它也得理解人类的各种文档。 好比你念phd,第
一步得看该领域人都成天忙活些什么,有了哪些进展,试图解决哪些问题。 机器获取
这些文档,那是不费吹灰之力,关键是如何解析,从字里行间琢磨出什么东西来。

我挺好奇这玩意到底有多难。按理说人类的语法规则(尤其是书面英语,商务英语)很
严谨,字典也都是现成的。 要是想从正规网站,报纸,书籍里面找出违反语法规则的
例子, 挺难。人工智能既能下棋,又能翻译,还能自己写文章,神通大了,可为什么
让它写个梗概 就这么难?

我印象里我们小学语文课就要求写这类东西。 什么看图说话,缩写故事,续写故事,
都是基本功。 我记得看图说话的故事有: 华盛顿砍了他爸的樱桃树,他爸问谁砍得,
华盛顿说了实话。 列宁到姑妈家做客,打碎了茶杯,姑妈问谁干的,列宁说了实话。

草船借箭,缩写故事。
【 在 zhaichun108 (onlyif) 的大作中提到: 】
: 这个点子挺老的了
: 有个类似的app叫Summly, 做的屎一样也卖了30个米



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 205.]

 
dracodoc
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 11 ]

发信人: dracodoc (david), 信区: Programming
标  题: Re: 文本分析,document_term matrix求解。
发信站: BBS 未名空间站 (Mon Jun 19 11:10:34 2017, 美东)

显然你想象的,觉得理所当然的东西并不成立。

你不是经常读paper吗?看看基本的,从书看起,别从paper看起,更能了解一个领域的
基础。

【 在 magliner (magliner) 的大作中提到: 】
: 你说的是人工翻译的还是人工智能的 ?
: 如果机器有一天要统治人类,第一步,它也得理解人类的各种文档。 好比你念phd,第
: 一步得看该领域人都成天忙活些什么,有了哪些进展,试图解决哪些问题。 机器获取
: 这些文档,那是不费吹灰之力,关键是如何解析,从字里行间琢磨出什么东西来。
: 我挺好奇这玩意到底有多难。按理说人类的语法规则(尤其是书面英语,商务英语)很
: 严谨,字典也都是现成的。 要是想从正规网站,报纸,书籍里面找出违反语法规则的
: 例子, 挺难。人工智能既能下棋,又能翻译,还能自己写文章,神通大了,可为什么
: 让它写个梗概 就这么难?
: 我印象里我们小学语文课就要求写这类东西。 什么看图说话,缩写故事,续写故事,
: 都是基本功。 我记得看图说话的故事有: 华盛顿砍了他爸的樱桃树,他爸问谁砍得,
: ...................



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 129.]

[分页:1 ]
[快速返回] [ 进入葵花宝典讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996