基于汉字字频特征实现99.99%准确率的新闻文本分类器（六）

回顾

上一节中，我们看到了五层神经网络的权值矩阵，其实，我们离一个秘密很近。

在我展示这个文本分类算法的时候，有人问我，用的什么中文分词器？关键词选择算法是什么？... ...

我一开始无言以对。因为，压根我就没有使用分词、切词、筛选关键词这些技术。更谈不上使用的是中科院的分词器还是...

但是，现在我可以给出一些...秘密！

秘密

上节提到，临近输入层的权值向量蕴藏了一个秘密！

-0.326 0.153 -0.086 -0.526 -0.642 -0.692 0.034 -0.295 -0.182 0.027 -0.489 -0.069 -0.226 -0.293 0.089 -0.335 -0.129 -0.137 0.072 0.102

这是紧挨着输入层的权值矩阵的前20个权值。这样看不出来什么。但是，如果，这样看：

-0.326 0.153 -0.086 -0.526 -0.642 -0.692 0.034 -0.295 -0.182 0.027 -0.489 -0.069 -0.226 -0.293 0.089 -0.335 -0.129 -0.137 0.072 0.102
 的     一     是     在     有     不     人     了     中     国    大     为     上     这    年     个     和     以     生    时

上面的汉字，来源于输入向量对应的字频的字基。

大的权值代表了此字对最终成功分类有更大的贡献。所以，如果对权值进行计算，就可以得到那些对军事类新闻分类贡献特别高的字，然后，每个神经元对这些字的关联，会有组词的概念。

世界上本没有路，走的人多了，就有了路。

世界上本没有词，有些汉字总是一起使用，所以世界上出现了词组。

虽然我没有使用分词和词频的概念，但是，在99.99% 的成功分类军事类新闻后，我能给出那些对军事类新闻分类成功贡献最多的..................“词”！

聚字成词

通过使用字频的字基的权值，我使用神经网络输出了一个聚字成词的列表，这里是前64个军事类敏感二字词：

0 中国 34342
1 美国 26794
2 导弹 19980
3 军事 18834
4 日本 14801
5 系统 14658
6 武器 13867
7 海军 13833
8 部队 12773
9 作战 12398
10 进行 11951
11 装备 10965
12 演习 10875
13 技术 10490
14 能力 9743
15 国防 9720
16 国家 9615
17 空军 9515
18 一个 9401
19 发展 9240
20 美军 9203
21 联合 8461
22 飞机 7895
23 国的 7469
24 我们 7467
25 计划 7268
26 战争 7137
27 公司 7027
28 报道 6842
29 问题 6710
30 军队 6483
31 飞行 6347
32 目前 6233
33 目标 6082
34 可以 6075
35 可能 5901
36 航空 5775
37 安全 5731
38 的军 5714
39 工作 5604
40 他们 5511
41 国军 5485
42 任务 5414
43 世界 5392
44 地区 5361
45 解放 5335
46 的一 5220
47 台军 5138
48 放军 5069
49 信息 5061
50 使用 5060
51 资料 5016
52 防部 5006
53 的战 4992
54 合作 4989
55 研制 4973
56 军的 4970
57 国际 4930
58 研究 4882
59 国海 4852
60 方面 4822
61 开始 4821
62 相关 4677
63 战机 4652
64 同时 4545

这个列表里的有一些不正常的词，筛选如下：

就像大家看到“我的”不会感觉奇怪一样，如果“国的”“军的”使用频率非常高的话，就可以成为一个新的词。其它的不正常词，可以看作是三字词的部分。由于我这里聚词的只做了二字词聚词，所以会有这些问题词的出现。读者可以尝试去聚出更多的多字词。供参考，我在实验的时候，聚出了【叙利亚、伊拉克、朝鲜】等词。

前文提到，我对搜狗的分类预料库做了一个简单的数据清洗，而让我意识到需要做数据清洗及找到污染文字的途径就是原始版本的聚词结果，第一个高贡献的词是“网页”，让我很奇怪为什么【网页】这个词对成功分类也有莫大的影响。

总结及其它

汉字作为这颗蓝星上唯一现存的表意文字，二维图像文字，在语言处理上有莫大的优势。比如对英文来说：chicken、hen、egg、rooster它们的词面直观距离太远，而对于一个三岁的中国小朋友，小鸡，鸡蛋，公鸡，母鸡是非常靠近并易于理解掌握。

　　　　汉字是表意的，本系列文章所描述的文本分类方法，同样可以适用字母文字。只需要将相应的字母词翻译为中文，即可获得文本分类准确率的提升！

如果有人还有疑问，我只能再举一个例子：

对于一篇中文新闻资讯来说，它可以读作粤语发音，也可以读作普通话发音，也可以读作上海话，也可以读作四川话... ...也可以读作英文，也可以读作法文... ... 逻辑上如果这些发音都有自己独特的字母词的话，只要翻译成汉字，即可99.99%准确率被成功分类！

本人一直致力于神经网络相关的研究并有所领悟。本文只是我的神经网络算法在文本处理领域的一次简单尝试。我的联系方式zhanglei爱特qiantec.cn，我有一个独特而有效的人工智能算法，擅长海量数据挖掘，致力于召唤出人工意识。转载请注明原作者张磊和本站连接 http://www.qiantec.cn

由于cnblogs csdn等博客系统在复制的时候会丢失部分格式，最终文章以原始（本）网站为准。

感谢您百忙之中能够有时间与耐心读到这里。谢谢。

未完成的任务

希望有人能从这个系列的文章中得到启发

1、表音字母类文本的中文化汉字字频分类研究

2、基于汉字字频权值的自动聚字成词研究

谢谢大家。

基于汉字字频特征实现99.99%准确率的新闻文本分类器（一）

基于汉字字频特征实现99.99%准确率的新闻文本分类器（二）

基于汉字字频特征实现99.99%准确率的新闻文本分类器（三）

基于汉字字频特征实现99.99%准确率的新闻文本分类器（四）

基于汉字字频特征实现99.99%准确率的新闻文本分类器（五）

基于汉字字频特征实现99.99%准确率的新闻文本分类器（六）

（全文完）