降噪LDA主题词相似问题_文本清洗篇!
为了确保主题独特性,减少LDA主题建模过程中主题词相似的问题,文本清洗和分词处理是关键步骤。
本章按照以下内容进行操作
1.文本清洗
2.分词处理
3.新词挖掘
4.词性筛选
5.去除重复短语与近义词处理
6.去除冗余主题词
一、文本清洗
清洗文本可以去除不相关的内容,减少噪音,确保模型专注于分析相关主题。
首先我们可以去除无意义的标点符号,表情包等特殊字符
1.符号标点,表情包去除
尤其是很多emoji表情包,有时会打乱文本分词切分效果,这里推荐几款小工具,大家可以尝试下
1、在线文本中英文数字清除工具 - 过滤清除
效果就是把emoji表情和符号都去了
2、表情符号删除 - 在线工具 - Dijital Link - Digily Link
这款工具是只去除emoji表情的,符号仍保留着,各有优缺点,分析者可根据需求来选择
如果了解一些正则和Python,处理起来也很便利,这里就不在具体展开。
2.去除停用词
停用词如“的”、“是”、“和”等,通常没有实际意义,可能会影响主题建模
我们直接使用微词云中文通用分析工具即可,分词处理的同时,还带了非常全的停用词典(哈工大停用词表库+jieba停用词表库+百度停用词表库)
但很多停用词都是分词后在去停用词的,而有一些停用词加载词组中间,导致无法提取或被过滤掉的情况可能还存。我一般会把分词单词长度调整为1,把分词词全部勾选,再次分词。
查看报告里哪些高频出现的单个词的报告,在文本数据定位位置查看原文是否有分割短语情况,如果有,找个文本替换工具,把这个词去掉即可,再次分词,一般会改善单词提取的数据准确量。
切记这里只过滤那些影响文本短语提取的,停用词,例如”去订的票”,其中的就是很影响具体的提取,订票被“的”分割开来。因大量去除停用词,很大可能会影响分词结果质量。
这里推荐一款免费的文本替换工具
例如“的”这次词,替换成“空”,什么都不需要写即可,你会发现文本中“的”就不见了
3.统一字体
中文文本建议统一为简体为好
英文建议统一为小写,虽说英文文本,微词云的英文分析工具,已经帮助大家处理了这个问题,如果大家还想自己预留一份处理好的数据可以继续处理下
繁体简体互换工具:
1、繁简互转、繁体转简体工具
2、繁体字转换工具
4.文本去重
去掉哪些内容一样,类似的文本,以免干扰分析结果的准确性。
我们可以使用微词云免费小工具在线去重
操作比较简答,我就不再演示操作了。
二、分词处理
分词处理可以帮助确保模型识别出正确的词语,而不是片段词。
我这里直接使用微词云中文通用分析,英文文本使用微词云英文分析工具
我用中文文本进行功能展示,英文文本也是类似的
1.数据上传
通过上面的数据清洗步骤,我的文本是这样的
建议大家千万别把所有文本换行符给去掉,因为去掉了,文本只有一条数据了,那么系统处理起来非常的困难,也无法分析段落之间的关系了。条数据量也无法统计出来了。
如果是excel文本,导入时需要选择【去除单元格中的换行符】,为了保证您导入的条数据量与excel表中的单元格数量一致
2.添加领域词典
如果您已经准备好行业术语或专有名词等词,可以放在自定义词典中,以免在分词时被拆分成你不想要的词
若没有此处可以忽略,因为我们下面也会细说挖掘新词方法。
分词后会得到比较全的报告,有基础统计表部分,我们最终的时打标词表,或特征词表,我们可以看到很多特征词
初步分词就先这样即可,后期我们还会进一步优化分词结果。接下来说下如何挖掘出更多行业新词
三、新词挖掘
新词挖掘在优化每个主题下提取的价值主题词方面具有重要作用,所以新词的识别与添加,可以使主题建模过程更加全面和精准,从而提升LDA主题建模的效果,提取出更多有价值的主题词。
1.基于上下文的临词挖掘新词:
新词通常在特定上下文中频繁出现,因此基于上下文的分布分析能够帮助识别潜在的新词。例如,若某些词组在大量文本中反复出现,可以将其视为新词并加入到分词词典中。
那么我们上面分词的结果报告可以帮助我们来完成此次的临词挖掘了
想要让分词提取的词更加全面,可尝试把单词长度改为1,因为很多单个字的临词更加的丰富,但分词效果会很差没意义的,可再把单词长度调回2。
我们重点看一些有意义的词性,如名词、形容词、地点词等,我们可以看看单个字是否有价值的词
如果没有可以放弃这个方法。在把单词长度调整为2即可。
通常分析好后,我们在特征词表中发现有价值的特称词,为进一步挖掘新词做准备
如何查看临词表新词结果案例:
我点击特征词表中“不错”这个词,因为不错是个范畴,可以查看具体说了什么,有价值可以下载具体想要的数据即可
下面还有文本数据定位表,也可以辅助我们看关键词的左右语境词
我们可以用“单词搜索”功能来快速找词,当您需要查询的词比较多时
2.基于自由度,凝聚度挖掘新词
我们仍可以借助更专业的新词挖掘方法,本次我使用的是微词云中的新词挖掘工具
顶部有输入指定单词
输入的单词可以优先提取包含这个词的组合新词,例如我输入票这个词
通过输入筛选词,可以查询你关心的新词组合结果,还可以下载数据,进行挑选你需要的新词
当然你还可以有更多的选择,如选取特定词性组合的词,通过新词概率、自由度等进行筛选
当我们通过新词挖掘更多关键词,可以大大提升LDA主题建模对文本中的新兴概念和领域特定术语的捕捉,提升主题的独特性与解释性。优化文本清洗与分词处理,将新词纳入分析过程,能让主题模型更贴近实际文本内容,并减少相似主题的出现。
根据以上的新词挖掘,我们可以进一步优化分词结果了,把你筛选出的词再次放在自定义词典中,重新再分析。
主题词应如何选择,哪些词还具体挖掘价值?因为这里的内容较多,可查看往期文章“LDA主题分析中如何选词?提高主题词独特性!避免主题词重叠呢?”
四、词性筛选
重新分词后,根据特征词表,我们可以进一步的筛选哪些词性更具有主题研究价值,哪些并不具有(如名词、动词、形容词等),可以排除与主题无关的词。
五、去除重复短语与近义词处理
当我们发现有很多词意思都一样,那么相似的词语或同义词可能导致多个主题出现相同关键词,混淆主题的独特性。
同义词替换法:对文本进行同义词归一化处理,并放在同一词词典中,再次分析即可
如,景色美:景色优美,景色漂亮
去除重复短语:检查文本中是否存在重复短语或过度使用的词组,并进行适当合并或删除。
六、去除冗余主题词
我们在通过微词云LDA分析工具,进行基础的LDA运行,并检查每个主题的主题词,和重复的主题词,并去除主题中出现频率非常高但无实际意义的词。
操作步骤:
上传中文分词报告中的下载的离线数据wcy(wcyeng)文件
主题数我们先随机划分为3个进行测试,再点击右侧顶部的【开始分析】,为了快速生成报告,我们先选择无需情感分析。
主题分析报告中,黑色字的词为各个主题重复出现的主题词,如千岛湖、时间、风景、景色、服务、排队等
把那些高发的不具有主题价值的词可以放在微词云中文分词报告中的移除词列表中
因为我们最终要下载这里的报告wcy离线文件进行最后的主题分析的,所以优化好中文分词报告数据非常重要
运行LDA后,分析生成的主题,还可通过人类标注检查主题的独特性。(中文主题分析有这个功能,英文还未上线)
这里有半自动分类功能,我们可以在这里对自动分类结果进一步优化
但这里的步骤,大多数都是反复重复多次进行分析的,因保证教程的易读性,没在重复多次的演示,请分析者要结合自身的文本情况,多次优化自己的文本
有一些文本并不适合LDA主题分析,尤其是内容词汇量单一,文本较短的数据,因为这类数据大部分内容类似,很难挖掘独立主题,更适合人工的半自动分类功能
在中文分词报告底部有提供这类功能分析,可查看文章推荐的文本分析:中文通用分析中“打标分类与关系图”怎么做?
文章推荐
1、深入解读LDA困惑度:如何选择最佳主题数量实现精准文本分析?
2、当LDA困惑度曲线无法确定最佳主题数?如何调参扭转局面?
3、LDA困惑度主题得分值应该在什么区间最好?
4、文本分析:中文通用分析中“打标分类与关系图”怎么做?