文本分类基础

Source

本章的项目实战是《基于朴素贝叶斯的垃圾邮件过滤》,属于文本分类项目。故这节课我们来学习一些文本分类的基础知识。通常来说,在使用一个算法进行文本分类之前,还需要做一些文本获取文本处理特征提取的工作。其中,文本获取的方式有第三方提供的语料库、通过爬虫技术获取等;文本处理主要是分词、去停用词、标准化等,特征提取则是将文本表示成特征向量的形式。

文本的获取方法不是本课的重点,故不做具体讲解;在文本处理部分,我会从代码层面先讲一些字符串处理的方法,然后讲一下分词、正则表达式和去停用词的代码;特征提取实际上就是文本表示,我会分别从单词层面和句子层面讲解文本的向量化表示。

文本处理

字符串的连接与翻转