【关键词提取】关键词抽取方法分享!

来源:网站seo优化公司发布时间:2019-12-17 12:10:00

近,我做了一些关于关键词提取的工作,所以阅读了一些相关的研究。然后我发现近关键词抽取不是很流行,所以我想写点东西来抱怨一下

关键词抽取是对文章进行总结,从文章中抽取一些重要的词汇,帮助读者有效地理解文章的大意。尤其是在互联网环境下,每天都有大量的信息涌出,如果不进行预处理,将成为网民的负担。关键词提取技术可以很简单也可以很复杂,但其任务框架是相同的,输入一篇文章,输出几个关键词。当然,关键词抽取任务也可以适当扩展到关键词组抽取、关键词抽取、关键词句子抽取、关键词段落(只适用于很长的文档,如博士论文等)。。。所有这些技术都做同样的事情。。。那么,给定一篇文章,如何提取关键词呢?

目前的关键词提取算法可分为两大类:

本文提供了一个比较大的分类方法,有很多研究文章分为三大类、四大类和五大类,这些都不重要。关键是要理清思路。

统计学派的思想是先定义一个关键词索引,然后计算文章中所有单词的关键词索引,根据索引大小排列单词,先选择索引大的单词。这种想法很简单。这有点像在课堂上选择监视器。老师说应该挑选学习成绩的学生当班长。然后,选择方法是定义一个指标,比如考试总分,然后把每个学生的语文、数学、物理成绩汇总起来,进行排名,在总分作为班长(关键词)。当然,教师可以在课堂上指定任意数量的班长,比如选择k班长,也就是说,成绩排名前k的学生成为班长。统计学派的核心是计算每一个词汇的关键词索引,它是根据文章中词汇的表现来计算的,因此有统计之称。

提取关键字时,可以有许多指标。有影响力的两个指标是TF-IDF和PageRank。基于词包模型,TF-IDF将文章表示为一个词集合。由于集合中词汇元素的顺序与集合的内容无关,TF-IDF索引不能有效地反映文章内部的词汇组织结构。PageRank索引基于图模型,将文章表示为网络的结构,网络中的节点表示词汇,节点之间的边是词汇之间的位置邻接,网络结构包含的信息比集合结构多,考虑到文章中单词的顺序,因此PageRank索引的性能通常优于TF-IDF索引。

规则学派的思想是将关键词抽取任务定义为词汇二元分类任务。也就是说,给定一个词,它要么是关键字,要么不是关键字。对于其分类,关键字是1或0。然后,关键词提取成为一个预测问题。对于预测问题,需要一个预测函数,这就是规则。给定一个词汇表,获取词汇表()的特征,然后预测该词汇表是否为关键字。

规则可以手动指定,也可以通过机器学习获得。很难手动指定规则。很难想象。没有人知道什么词是关键词。。。。所以我们希望程序能够自己获得规则,也就是说,通过机器学习。机器学习的方法相对来说是省脑的,但需要付出很大的努力。很多人在网上找不到一堆文章,手工标注关键词,然后把标注好的样本扔进模型中学习规则。在机器学习过程中,需要为训练指定一些词汇特征。这些特征通常是未知的,因此需要手动指定,例如,考虑单词的频率、单词中包含的单词数、词性、单词的位置等。因此,在初的十年里,在机器学习中进行关键词提取是非常容易的。你可以选择几个索引,发送一个,他可以选择几个索引,发送另一个,这不难想象。只需要考虑各种索引,然后将索引的各种排列和组合放入模型中,就可以得到比较好的结果。近年来,深度学习已成为一个热门话题。有人说,规则要花脑筋,指标要花脑筋。我只是懒。我直接建立了一个神经网络,让他一起学习词汇特征。因此,深度学习已经成为关键词抽取的一个新的发展方向。然而,深度学习只能帮助你通过复杂网络的训练来抽象词汇特征,但它仍然依赖于人工标注,还需要闲人来标注文章。当然,深度学习的好处之一是,有一些模型支持学习未标记的数据,并且可以优化词汇特征的表示。例如,自动编码器、深玻尔兹曼机等

结论:

基于此,我想说的是,虽然关键词提取算法很多,但是它们也很花哨,但是思想比较简单,所以在写论文或者开发技术应用之前,我们应该做好技术定位。另外,几乎没有论文回答基本的问题,关键词是什么?为什么要提取一些单词让读者看到,而忽略其他单词呢?哪些单词应该显示给用户?很多研究只关注算法的准确性和效率,而忽略了关键词的本质。关键词不是客观事物,而是人为的注释。因此,模型的评价和优化也是一个主观的问题。这种主观的东西不应该被算法开发者的意志所控制,而应该关注用户的需求,思考用户的想法,展示用户真正关心的关键词。因此,虽然目前关键词提取算法还处于停滞状态,但从用户的角度重新考虑关键词的定义,结合用户的特点和词汇的特点,可能会为今后关键词提取算法的研究提供一个新的发展机遇,建立指标(统计)或学习规则为基础。

相关标签:关键词提取
微信扫一扫
微信扫码