基于汉字字频特征实现99.99%准确率的新闻文本分类器（一）

简介

文本分类系列文章，详细并且公开源码的一步一步实现一个新闻文本分类器，准确率搞的夸张一点99.99%并且不是过拟合的99.99%而是具备良好推广性的99%，主要技术特点是采用汉字字频作为特征，和SVM、多层神经网络的应用。

目标

对新闻文本进行二分类，即判断一篇新闻是属于军事类还是非军事类。新闻定义为50个汉字以上的短文，而不是一句话新闻。

99%以上的分类准确率，不陷于局部最优解，能够对语料库里的瑕疵数据进行容错。

具备良好的推广性，即使用训练集以外的海量新闻文本作为测试用例，仍具备不低于98%的分类准确率。

方法

现在自然语言处理做中文文本分类，多是采用词袋模型提取文本特征值。需要切词（分词）去停止符，选取关键词等步骤，对于分词又有多种中文分词器选择，作为特征的关键词选择更是有多种方法。汉字不同于字母文字，字母文字必须由字母组成单词才能表达语义，基于汉字是表义文字而不是表音文字，笔者认为直接采用字频作为文本的特征，比词频更能精确描述文本的内容。所以做了一个尝试，使用文章的汉字字频和常见的算法，希望能得到一个比现有模型更好的文本分类器。使用文本汉字字频，而不是词频有这些优点：无需切词，分词，去停止词，选取关键词等步骤;准确率高。