文本分类基础

Source

文本分类基础

本章的项目实战是《基于朴素贝叶斯的垃圾邮件过滤》，属于文本分类项目。故这节课我们来学习一些文本分类的基础知识。通常来说，在使用一个算法进行文本分类之前，还需要做一些文本获取、文本处理和特征提取的工作。其中，文本获取的方式有第三方提供的语料库、通过爬虫技术获取等；文本处理主要是分词、去停用词、标准化等，特征提取则是将文本表示成特征向量的形式。

文本的获取方法不是本课的重点，故不做具体讲解；在文本处理部分，我会从代码层面先讲一些字符串处理的方法，然后讲一下分词、正则表达式和去停用词的代码；特征提取实际上就是文本表示，我会分别从单词层面和句子层面讲解文本的向量化表示。

文本分类基础

文本处理

字符串的连接与翻转