降噪LDA主题词相似问题_文本清洗篇!

微词云

2024-10-28

为了确保主题独特性，减少LDA主题建模过程中主题词相似的问题，文本清洗和分词处理是关键步骤。

本章按照以下内容进行操作

1.文本清洗
2.分词处理
3.新词挖掘
4.词性筛选
5.去除重复短语与近义词处理
6.去除冗余主题词

一、文本清洗

清洗文本可以去除不相关的内容，减少噪音，确保模型专注于分析相关主题。
首先我们可以去除无意义的标点符号，表情包等特殊字符

1.符号标点，表情包去除

尤其是很多emoji表情包，有时会打乱文本分词切分效果，这里推荐几款小工具，大家可以尝试下
1、在线文本中英文数字清除工具 - 过滤清除

数据清洗,清洗数据,表情包过滤工具,emoji过滤

效果就是把emoji表情和符号都去了

2、表情符号删除 - 在线工具 - Dijital Link - Digily Link

数据清洗,清洗数据,字符过滤工具,字符过滤

这款工具是只去除emoji表情的，符号仍保留着，各有优缺点，分析者可根据需求来选择

如果了解一些正则和Python，处理起来也很便利，这里就不在具体展开。

2.去除停用词

停用词如“的”、“是”、“和”等，通常没有实际意义，可能会影响主题建模
我们直接使用微词云中文通用分析工具即可，分词处理的同时，还带了非常全的停用词典(哈工大停用词表库+jieba停用词表库+百度停用词表库)

但很多停用词都是分词后在去停用词的，而有一些停用词加载词组中间，导致无法提取或被过滤掉的情况可能还存。我一般会把分词单词长度调整为1，把分词词全部勾选，再次分词。
查看报告里哪些高频出现的单个词的报告，在文本数据定位位置查看原文是否有分割短语情况，如果有，找个文本替换工具，把这个词去掉即可，再次分词，一般会改善单词提取的数据准确量。
切记这里只过滤那些影响文本短语提取的，停用词，例如”去订的票”,其中的就是很影响具体的提取，订票被“的”分割开来。因大量去除停用词，很大可能会影响分词结果质量。

这里推荐一款免费的文本替换工具

例如“的”这次词，替换成“空”，什么都不需要写即可，你会发现文本中“的”就不见了

3.统一字体

中文文本建议统一为简体为好

英文建议统一为小写，虽说英文文本，微词云的英文分析工具，已经帮助大家处理了这个问题，如果大家还想自己预留一份处理好的数据可以继续处理下

繁体简体互换工具：
1、繁简互转、繁体转简体工具
2、繁体字转换工具

英文大小写互转工具:
1、英文字母大小写转换
2、AMZ123

4.文本去重

去掉哪些内容一样，类似的文本，以免干扰分析结果的准确性。

我们可以使用微词云免费小工具在线去重

操作比较简答，我就不再演示操作了。

二、分词处理

分词处理可以帮助确保模型识别出正确的词语，而不是片段词。
我这里直接使用微词云中文通用分析，英文文本使用微词云英文分析工具
我用中文文本进行功能展示，英文文本也是类似的

1.数据上传

通过上面的数据清洗步骤，我的文本是这样的

清洗数据,数据过滤,脏数据清洗,中文分词

建议大家千万别把所有文本换行符给去掉，因为去掉了，文本只有一条数据了，那么系统处理起来非常的困难，也无法分析段落之间的关系了。条数据量也无法统计出来了。

如果是excel文本，导入时需要选择【去除单元格中的换行符】，为了保证您导入的条数据量与excel表中的单元格数量一致

中文分词,微词云分词,文本分词,关键词提取

2.添加领域词典

如果您已经准备好行业术语或专有名词等词，可以放在自定义词典中，以免在分词时被拆分成你不想要的词

行业词典,领域词,自定义词典,提取词

若没有此处可以忽略，因为我们下面也会细说挖掘新词方法。

分词后会得到比较全的报告，有基础统计表部分，我们最终的时打标词表，或特征词表，我们可以看到很多特征词

打标词表,特征词表,词频表,高频词表

初步分词就先这样即可，后期我们还会进一步优化分词结果。接下来说下如何挖掘出更多行业新词

三、新词挖掘

新词挖掘在优化每个主题下提取的价值主题词方面具有重要作用，所以新词的识别与添加，可以使主题建模过程更加全面和精准，从而提升LDA主题建模的效果，提取出更多有价值的主题词。

1.基于上下文的临词挖掘新词：

新词通常在特定上下文中频繁出现，因此基于上下文的分布分析能够帮助识别潜在的新词。例如，若某些词组在大量文本中反复出现，可以将其视为新词并加入到分词词典中。
那么我们上面分词的结果报告可以帮助我们来完成此次的临词挖掘了
想要让分词提取的词更加全面，可尝试把单词长度改为1，因为很多单个字的临词更加的丰富，但分词效果会很差没意义的，可再把单词长度调回2。

微词云新词挖掘,新词提取,新词识别,临词分析,上下文短语