降噪LDA主题词相似问题_文本清洗篇!

为了确保主题独特性,减少LDA主题建模过程中主题词相似的问题,文本清洗和分词处理是关键步骤。

本章按照以下内容进行操作

1.文本清洗
2.分词处理
3.新词挖掘
4.词性筛选
5.去除重复短语与近义词处理
6.去除冗余主题词


一、文本清洗

清洗文本可以去除不相关的内容,减少噪音,确保模型专注于分析相关主题。
首先我们可以去除无意义的标点符号,表情包等特殊字符

1.符号标点,表情包去除

尤其是很多emoji表情包,有时会打乱文本分词切分效果,这里推荐几款小工具,大家可以尝试下
1、在线文本中英文数字清除工具 - 过滤清除


数据清洗,清洗数据,表情包过滤工具,emoji过滤


效果就是把emoji表情和符号都去了

2、表情符号删除 - 在线工具 - Dijital Link - Digily Link


数据清洗,清洗数据,字符过滤工具,字符过滤


这款工具是只去除emoji表情的,符号仍保留着,各有优缺点,分析者可根据需求来选择

如果了解一些正则和Python,处理起来也很便利,这里就不在具体展开。


2.去除停用词

停用词如“的”、“是”、“和”等,通常没有实际意义,可能会影响主题建模
我们直接使用微词云中文通用分析工具即可,分词处理的同时,还带了非常全的停用词典(哈工大停用词表库+jieba停用词表库+百度停用词表库)

但很多停用词都是分词后在去停用词的,而有一些停用词加载词组中间,导致无法提取或被过滤掉的情况可能还存。我一般会把分词单词长度调整为1,把分词词全部勾选,再次分词。
查看报告里哪些高频出现的单个词的报告,在文本数据定位位置查看原文是否有分割短语情况,如果有,找个文本替换工具,把这个词去掉即可,再次分词,一般会改善单词提取的数据准确量。
切记这里只过滤那些影响文本短语提取的,停用词,例如”去订的票”,其中的就是很影响具体的提取,订票被“的”分割开来。因大量去除停用词,很大可能会影响分词结果质量。

这里推荐一款免费的文本替换工具

例如“的”这次词,替换成“空”,什么都不需要写即可,你会发现文本中“的”就不见了


3.统一字体

中文文本建议统一为简体为好

英文建议统一为小写,虽说英文文本,微词云的英文分析工具,已经帮助大家处理了这个问题,如果大家还想自己预留一份处理好的数据可以继续处理下

繁体简体互换工具:
1、繁简互转、繁体转简体工具
2、繁体字转换工具


英文大小写互转工具:
1、英文字母大小写转换
2、AMZ123


4.文本去重

去掉哪些内容一样,类似的文本,以免干扰分析结果的准确性。

我们可以使用微词云免费小工具在线去重

操作比较简答,我就不再演示操作了。


二、分词处理

分词处理可以帮助确保模型识别出正确的词语,而不是片段词。
我这里直接使用微词云中文通用分析英文文本使用微词云英文分析工具
我用中文文本进行功能展示,英文文本也是类似的

1.数据上传

通过上面的数据清洗步骤,我的文本是这样的


清洗数据,数据过滤,脏数据清洗,中文分词


建议大家千万别把所有文本换行符给去掉,因为去掉了,文本只有一条数据了,那么系统处理起来非常的困难,也无法分析段落之间的关系了。条数据量也无法统计出来了。

如果是excel文本,导入时需要选择【去除单元格中的换行符】,为了保证您导入的条数据量与excel表中的单元格数量一致


中文分词,微词云分词,文本分词,关键词提取


2.添加领域词典

如果您已经准备好行业术语或专有名词等词,可以放在自定义词典中,以免在分词时被拆分成你不想要的词


行业词典,领域词,自定义词典,提取词


若没有此处可以忽略,因为我们下面也会细说挖掘新词方法。

分词后会得到比较全的报告,有基础统计表部分,我们最终的时打标词表,或特征词表,我们可以看到很多特征词


打标词表,特征词表,词频表,高频词表


初步分词就先这样即可,后期我们还会进一步优化分词结果。接下来说下如何挖掘出更多行业新词


三、新词挖掘

新词挖掘在优化每个主题下提取的价值主题词方面具有重要作用,所以新词的识别与添加,可以使主题建模过程更加全面和精准,从而提升LDA主题建模的效果,提取出更多有价值的主题词。

1.基于上下文的临词挖掘新词:

新词通常在特定上下文中频繁出现,因此基于上下文的分布分析能够帮助识别潜在的新词。例如,若某些词组在大量文本中反复出现,可以将其视为新词并加入到分词词典中。
那么我们上面分词的结果报告可以帮助我们来完成此次的临词挖掘了
想要让分词提取的词更加全面,可尝试把单词长度改为1,因为很多单个字的临词更加的丰富,但分词效果会很差没意义的,可再把单词长度调回2。


微词云新词挖掘,新词提取,新词识别,临词分析,上下文短语


我们重点看一些有意义的词性,如名词、形容词、地点词等,我们可以看看单个字是否有价值的词
如果没有可以放弃这个方法。在把单词长度调整为2即可。


重要词性,筛选词性,词性分析,微词云分析


通常分析好后,我们在特征词表中发现有价值的特称词,为进一步挖掘新词做准备

如何查看临词表新词结果案例:
我点击特征词表中“不错”这个词,因为不错是个范畴,可以查看具体说了什么,有价值可以下载具体想要的数据即可


临词表,新词组合,短语组合,短语提取


下面还有文本数据定位表,也可以辅助我们看关键词的左右语境词


文本定位,数据定位,索引文本


我们可以用“单词搜索”功能来快速找词,当您需要查询的词比较多时


中文分词,微词云分词,单词搜索


2.基于自由度,凝聚度挖掘新词

我们仍可以借助更专业的新词挖掘方法,本次我使用的是微词云中的新词挖掘工具

顶部有输入指定单词

输入的单词可以优先提取包含这个词的组合新词,例如我输入票这个词


自由度,凝聚度,挖掘新词,微词云新词挖掘工具


通过输入筛选词,可以查询你关心的新词组合结果,还可以下载数据,进行挑选你需要的新词


新词组合,新词结果,新词提取,短语提取


当然你还可以有更多的选择,如选取特定词性组合的词,通过新词概率、自由度等进行筛选


词性组合,新词概率,自由度,高词频


当我们通过新词挖掘更多关键词,可以大大提升LDA主题建模对文本中的新兴概念和领域特定术语的捕捉,提升主题的独特性与解释性。优化文本清洗与分词处理,将新词纳入分析过程,能让主题模型更贴近实际文本内容,并减少相似主题的出现。

根据以上的新词挖掘,我们可以进一步优化分词结果了,把你筛选出的词再次放在自定义词典中,重新再分析。

主题词应如何选择,哪些词还具体挖掘价值?因为这里的内容较多,可查看往期文章“LDA主题分析中如何选词?提高主题词独特性!避免主题词重叠呢?”


四、词性筛选

重新分词后,根据特征词表,我们可以进一步的筛选哪些词性更具有主题研究价值,哪些并不具有(如名词、动词、形容词等),可以排除与主题无关的词。


五、去除重复短语与近义词处理

当我们发现有很多词意思都一样,那么相似的词语或同义词可能导致多个主题出现相同关键词,混淆主题的独特性。

同义词替换法:对文本进行同义词归一化处理,并放在同一词词典中,再次分析即可

如,景色美:景色优美,景色漂亮


近义词,同义词,同义词合并,近义词合并,同义词词典


去除重复短语:检查文本中是否存在重复短语或过度使用的词组,并进行适当合并或删除。


六、去除冗余主题词

我们在通过微词云LDA分析工具,进行基础的LDA运行,并检查每个主题的主题词,和重复的主题词,并去除主题中出现频率非常高但无实际意义的词。

操作步骤:
上传中文分词报告中的下载的离线数据wcy(wcyeng)文件
主题数我们先随机划分为3个进行测试,再点击右侧顶部的【开始分析】,为了快速生成报告,我们先选择无需情感分析。


关键词过滤,相似主题词,LDA主题词相似,LDA主题词重叠,LDA主题相似


主题分析报告中,黑色字的词为各个主题重复出现的主题词,如千岛湖、时间、风景、景色、服务、排队等

LDA主题词相似、LDA主题词重叠、LDA主题相似


把那些高发的不具有主题价值的词可以放在微词云中文分词报告中的移除词列表中


LDA主题词相似、LDA主题词重叠、LDA主题相似


因为我们最终要下载这里的报告wcy离线文件进行最后的主题分析的,所以优化好中文分词报告数据非常重要


wcy,下载任务文件,任务文件


运行LDA后,分析生成的主题,还可通过人类标注检查主题的独特性。(中文主题分析有这个功能,英文还未上线)

这里有半自动分类功能,我们可以在这里对自动分类结果进一步优化


LDA主题词相似、LDA主题词重叠、LDA主题相似


但这里的步骤,大多数都是反复重复多次进行分析的,因保证教程的易读性,没在重复多次的演示,请分析者要结合自身的文本情况,多次优化自己的文本

有一些文本并不适合LDA主题分析,尤其是内容词汇量单一,文本较短的数据,因为这类数据大部分内容类似,很难挖掘独立主题,更适合人工的半自动分类功能
在中文分词报告底部有提供这类功能分析,可查看文章推荐的文本分析:中文通用分析中“打标分类与关系图”怎么做?


LDA主题词相似、LDA主题词重叠、LDA主题相似



文章推荐

1、深入解读LDA困惑度:如何选择最佳主题数量实现精准文本分析?
2、当LDA困惑度曲线无法确定最佳主题数?如何调参扭转局面?
3、LDA困惑度主题得分值应该在什么区间最好?
4、文本分析:中文通用分析中“打标分类与关系图”怎么做?

最后更新于: 2024-10-29 18:04:09
感谢您的阅读,本文由 微词云 版权所有。如若转载,请注明出处:微词云(https://www.weiciyun.com/blog/lda_perplexity04/
LDA困惑度主题得分值应该在什么区间最好?
LDA主题分析中如何选词?提高主题词独特性!避免主题词重叠呢?