Gensim 主题模型 Python 工具包

开源网站开源项目 24-05-04 16:57:02

Gensim是一个相当专业的主题模型Python工具包。在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和特性,角度更客观。gensim就是 Python 里面计算文本相似度的程序包。

示例代码:

针对商品评论和商品描述之间的相似度,怎么使用gensim来计算?

原理

1、文本相似度计算的需求始于搜索引擎。

搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。

2、主要使用的算法是tf-idf

tf:term frequency词频

idf:inverse document frequency倒文档频率

主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

第一步:把每个网页文本分词,成为词包(bag of words)

第三步:统计网页(文档)总数M。

第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M)(还有其它的归一化公式,这里是最基本最直观的公式)

第四步:重复第三步,计算出一个网页所有词的tf-idf 值。

第五步:重复第四步,计算出所有网页每个词的tf-idf 值。

3、处理用户查询

第一步:对用户查询进行分词。

第二步:根据网页库(文档)的数据,计算用户查询中每个词的tf-idf 值。

4、相似度的计算

使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小,越相似。

[Gensim 主题模型 Python 工具包]相关推荐

magnum OpenStack 容器服务

magnum 一个 OpenStack 项目,它提供容器编排引擎,以作为 OpenStack 中的一流资源来部署和管理容器。它……...

Genome JSON 映射模型

Genome JSON 映射模型

Genome 是一组旨在简化 JSON 映射模型的类,支持 Swift、Objective-C、iOS、Mac OSX。该库旨在满足以下目……...

frp 内网穿透工具

内网穿透,也即 NAT 穿透,进行 NAT 穿透是为了使具有某一个特定源 IP 地址和源端口号的数据包不被 NAT ……...

Vcpkg VC++ 打包工具

vcpkg 是微软 C++ 团队开发适用于Windows,Linux 和 MacOS 的 C ++库管理器。 vcpkg 自身也是使用 C++ 开……...

今日开源
  1. SciPy Python 的科学计算包

    SciPy Python 的科学计算包

    SciPy (pronounced "Sigh Pie") 是一个开源的数学、科学和工程计算包。 示例代码: from scipy import optimize, specialfrom numpy import *from pylab import * x = arange(0,10,0.01) for k in arange(0.5,5.5)……

    开源软件 2024-05-18

  2. Cali 在线书库

    Cali 在线书库

    这是一个基于 Java和Javascript开发的书籍管理系统。你可以通过 Cali 管理你的书籍。 它的功能有: 添加书籍 从豆瓣快捷添加书籍 上传书籍资源 绑定资源到书籍上 分享给平台其他用户 下载你想阅读的书籍 支持github……

    开源软件 2024-05-18

  3. MRQ 分布式 worker 任务队列

    MRQ 分布式 worker 任务队列

    MRQ(MR.Queue)是一个使用 Redis&gevent 的分布式 worker 任务队列。 MRQ 是一个独特的任务队列,它一方面旨在像 RQ 一样简单,另一方面要求有接近 Celery 的性能。MRQ最早在 Pricing Assistant 上被开发,它最……

    开源软件 2024-05-18

返回顶部小火箭