文本信息处理与应用

中国水利水电出版社

【作者】主编　何黎松　姚香秀

【I S B N 】978-7-5226-3761-7

【责任编辑】鞠向超

【适用读者群】本专通用

【出版时间】2025-11-01

【开本】16开

【装帧信息】平装（光膜）

【版次】第1版第1次印刷

【页数】232

【千字数】371

【印张】14.5

【定价】￥48

【丛书】普通高等教育数据科学与大数据技术专业教材

【备注信息】

图书详情

简介

本书特色

前言

章节列表

精彩阅读

下载资源

相关图书

在人工智能和大数据时代，文字信息的分析与处理已成为关键技能。本书主要针对本科阶段的文本信息处理与应用课程的教学进行编写，内容偏基础，强调实践应用。本书主要内容包括概论、文本预处理、中文分词与可视化、关键词提取、文本向量化、文本聚类、主题模型、文本分类、情感分析、词网络分析、综合案例分析和前沿介绍。

本书可作为自然语言处理课程的前置课程，适用于数据科学相关专业的高年级本科生使用。阅读和使用本书需要已经学过概率论、统计学、机器学习和Python编程课程。

立足产学融合前沿，筑牢文本处理根基。

内容全面层层递进，理论实践双线并行。

案例丰富代码翔实，思政元素自然融入。

基础技能逐层夯实，综合实践赋能应用。

文本信息处理与应用（Text Information Processing and Applications，TIPA）作为自然语言处理（Natural Language Processing，NLP）的重要基础领域，研究如何高效地分析和处理文本数据，为数据决策服务。在信息抽取、舆情监测、个性化推荐等众多应用场景中，其展现了极高的学术研究价值和商业潜力。

本书依托2023年教育部产学合作协同育人项目，与北京百分点科技集团股份有限公司（简称“百分点公司”）合作编写，编写期间百分点公司提供了丰富的实践数据和案例。本书从实际应用场景出发，依托具体案例，详细探讨文本信息处理的技术与理论，内容涵盖以下几个方面：概论、文本预处理、中文分词与可视化、关键词提取、文本向量化、文本聚类、主题模型、文本分类、情感分析、词网络分析、综合案例分析以及文本领域的前沿技术。

本书的主要特点如下。

1．内容全面，层次分明

本书可划分为以下5篇：

（1）基础篇（第1～4章）：包含对文本信息处理与应用的总体介绍，涉及文本预处理、分词技术和关键词提取等基础内容。这一部分旨在为读者提供扎实的基础。

（2）文本向量化篇（第5章）：详细讲解文本向量化的技术，包括词嵌入（Word Embeddings）、Doc2Vec等方法，为后续的文本分析奠定基础。

（3）文本挖掘篇（第6～10章）：涵盖文本聚类、主题模型、文本分类、情感分析和词网络分析等高级文本挖掘技术。该部分侧重于细分场景下的文本分析任务，帮助读者掌握实际应用中的数据处理

方法。

（4）综合实践篇（第11～13章）：通过3个综合案例，将前述内容实际应用于具体问题，展示文本分析方法的实际效果和应用技巧。

（5）前沿拓展篇（第14章）：介绍文本信息处理与应用领域的最新研究成果和技术发展，帮助读者了解当前的前沿动态和未来的发展趋势。

2．理论与实践相结合

本书将理论与实践紧密结合，在第2～10章中均配备了实际案例和Python实践代码。通过这种方式，读者不仅能够理解理论内容，还能掌握实际操作技能。第11～13章为3个综合案例，用于详细展示前面章节的内容如何在实际中应用。

3．融入思政教育元素

本书特别选用了大量思政文本作为分析案例，包括政策文本、地方舆情新闻及社会热点问题的相关内容。这些案例的选用旨在帮助读者更深入地理解国家政策，分析地方舆情问题，并提出改进社会问题的有针对性建议，从而体现教材在思政建设中的应用价值和教育意义。

本书由何黎松、姚香秀共同编写。何黎松负责第1章、第2章、第6～12章和第14章的编写，姚香秀负责第3～5章和第13章的编写。本书第9章第3节、第11章综合案例分析和习题都使用百分点公司提供的案例。第12章案例基于本专业学生石媛媛毕业论文数据改编。在本书编写完成之后，经济统计学专业学生杨文璿、陈亚楠、姬朝旭、孙栩琦、孙浩翔、李雪、罗双娟和范国云等分别对格式细节进行了修改和校对。

尽管编写组成员做出了最大努力，期望奉献给读者一本令人满意的教材，但书中仍有可能存在一些缺陷，欢迎读者和同行提出宝贵意见或建议。

编者

2025年6月

前言
第1章　概论 1
本章导读 1
本章要点 1
1.1　文本信息处理与应用概述 1
1.1.1　文本信息简介 1
1.1.2　文本信息处理与应用的概念 2
1.1.3　文本信息处理与应用的发展历史 3
1.1.4　文本信息处理与应用的学科关系 5
1.2　文本信息分析的应用场景 6
1.2.1　政府工作中的文本信息分析 6
1.2.2　教育工作中的文本信息分析 6
1.2.3　新文科中的文本信息分析 7
1.2.4　社交媒体中的文本信息分析 7
1.3　Python在文本信息处理中的优势与库 8
1.3.1　Python文本信息处理的优势 8
1.3.2　常用的Python文本信息处理库 8
本章小结 10
本章习题 11
第2章　文本预处理 12
本章导读 12
本章要点 12
2.1　读取文本数据 13
2.1.1　从本地文件读取文本数据 13
2.1.2　从网络获取文本数据 15
2.2　正则表达式 17
2.2.1　元字符 17
2.2.2　正则表达式函数 18
2.3　文本清洗 20
2.3.1　去除噪声和无关信息 20
2.3.2　标准化文本 22
2.3.3　文本去重 22
2.4　文本分割与合并 24
2.4.1　文本分割 24
2.4.2　文本合并 24
2.5　文本预处理综合案例 25
2.5.1　“十四五”规划分篇 25
2.5.2　《倚天屠龙记》文本预处理 26
本章小结 29
本章习题 30
第3章　中文分词与可视化 31
本章导读 31
本章要点 31
3.1　分词方法 31
3.1.1　基于规则的分词方法 32
3.1.2　基于统计的分词方法 36
3.1.3　基于深度学习的分词方法 38
3.2　常见分词库 39
3.2.1　jieba库 40
3.2.2　NLTK库 43
3.2.3　HanLP库 46
3.3　文本可视化技术 47
3.3.1　词云图 47
3.3.2　词频柱形图 49
本章小结 50
本章习题 51
第4章　关键词提取 52
本章导读 52
本章要点 52
4.1　关键词提取技术概述 52
4.2　基于统计的关键词提取算法 53
4.2.1　基于统计的关键词提取算法概述 53
4.2.2　TF-IDF算法基本原理 54
4.2.3　TF-IDF算法的Python实践 55
4.3　基于图模型的关键词提取算法 59
4.3.1　基于图模型的关键词提取算法概述 59
4.3.2　PageRank算法 60
4.3.3　TextRank算法 62
4.3.4　TextRank算法的Python实践 64
本章小结 66
本章习题 67
第5章　文本向量化 68
本章导读 68
本章要点 68
5.1　文本向量化简介 68
5.2　文本向量化的发展历史 69
5.3　Word2Vec 73
5.3.1　Word2Vec的基本原理 73
5.3.2　Word2Vec的两种训练模型 73
5.3.3　使用Word2Vec实现文本相似度计算 77
5.4　Doc2Vec 80
5.4.1　Doc2Vec的基本原理 80
5.4.2　Doc2Vec的两种训练模型 81
5.4.3　使用Doc2Vec实现文本相似度计算 83
本章小结 85
本章习题 86
第6章　文本聚类 87
本章导读 87
本章要点 87
6.1　文本聚类介绍 88
6.1.1　文本聚类的定义 88
6.1.2　文本聚类的发展历史 88
6.1.3　文本聚类的应用场景 89
6.1.4　文本聚类的流程 89
6.2　聚类算法介绍 90
6.2.1　K-means聚类算法 91
6.2.2　高斯混合聚类算法 92
6.2.3　层次聚类算法 93
6.2.4　DBSCAN算法 94
6.3　聚类类别数判断 95
6.3.1　肘部法则 96
6.3.2　轮廓系数 96
6.3.3　Davies-Bouldin指数 96
6.4　文本聚类的Python实践 96
本章小结 100
本章习题 100
第7章　主题模型 101
本章导读 101
本章要点 101
7.1　主题模型介绍 101
7.1.1　主题模型的发展历史 102
7.1.2　主题模型的应用场景 103
7.1.3　主题模型的建模流程 103
7.2　LDA主题模型 104
7.2.1　LDA的基本原理 104
7.2.2　LDA参数的估计方法 106
7.2.3　LDA主题数的确定 107
7.2.4　LDA模型的优缺点 108
7.2.5　LDA主题模型的Python实践 109
7.3　DTM模型 114
7.3.1　DTM模型的介绍 114
7.3.2　DTM模型的优缺点 115
7.3.3　DTM模型的Python实践 116
本章小结 119
本章习题 120
第8章　文本分类 121
本章导读 121
本章要点 121
8.1　文本分类介绍 121
8.1.1　文本分类的定义 121
8.1.2　文本分类的发展历史 122
8.1.3　文本分类的应用场景 122
8.1.4　文本分类的流程 123
8.2　基于机器学习算法的文本分类 124
8.2.1　机器学习算法 124
8.2.2　集成学习算法 127
8.2.3　基于机器学习算法的文本分类的
　　　Python实践 128
8.3　基于深度学习的文本分类 133
8.3.1　循环神经网络分类器 133
8.3.2　基于深度学习的文本分类的Python
　　　实践 135
本章小结 139
本章习题 139
第9章　情感分析 140
本章导读 140
本章要点 140
9.1　情感分析介绍 140
9.1.1　情感分析的发展历史 140
9.1.2　情感分析的应用场景 141
9.1.3　情感分析的方法 142
9.2　基于情感词典的情感分析 143
9.2.1　基于情感词典的情感分析方法步骤 143
9.2.2　情感词典 144
9.2.3　基于情感词典的情感分析的优缺点 146
9.2.4　基于情感词典的情感分析的Python
　　　实践 146
9.3　基于机器学习的情感分析 153
9.3.1　基于机器学习的情感分析的定义 153
9.3.2　基于机器学习的情感分析的流程 153
9.3.3　基于机器学习的情感分析的Python
　　　实践 154
9.4　基于Python库的情感分析 157
9.4.1　可用于情感分析的Python库 157
9.4.2　基于Python库进行情感分析的分析
　　　实践 158
本章小结 160
本章习题 161
第10章　词网络分析 162
本章导读 162
本章要点 162
10.1　词网络分析介绍 162
10.1.1　词网络分析的定义 162
10.1.2　词网络分析的发展历史 163
10.1.3　词网络分析的应用场景 164
10.1.4　词网络分析的方法 165
10.2　词网络构建 165
10.2.1　词共现网络构建的方法 165
10.2.2　词共现网络构建的Python实践 166
10.3　词网络描述分析 169
10.3.1　词网络描述分析指标介绍 169
10.3.2　词网络描述分析的Python实践 171
10.4　词网络社群发现 173
10.4.1　社群发现算法 173
10.4.2　词网络社群发现的Python实践 176
本章小结 180
本章习题 181
第11章　A型汽车消费者评论数据分析 182
本章导读 182
本章要点 182
11.1　案例背景 182
11.2　数据说明 182
11.3　情感分析 183
11.4　词云图分析 185
本章小结 188
本章习题 188
第12章　子女教育问题文本信息分析 189
本章导读 189
本章要点 189
12.1　案例背景 189
12.2　数据说明 189
12.3　情感分析 190
12.4　主题模型 192
本章小结 194
本章习题 194
第13章　基于密度聚类的公众留言热点话题研究 195
本章导读 195
本章要点 195
13.1　案例背景 195
13.2　数据说明 196
13.3　数据整理 197
13.3.1　文本分词 197
13.3.2　文本向量化 199
13.4　基于密度聚类的热点话题研究 200
本章小结 202
本章习题 203
第14章　前沿介绍 204
本章导读 204
本章要点 204
14.1　前沿概览 204
14.2　大语言模型 206
14.2.1　大语言模型介绍 206
14.2.2　大语言模型技术要点 208
14.2.3　生成式人工智能 211
14.3　大语言模型实践 212
14.3.1　大语言模型部署方法 212
14.3.2　提示词工程 215
14.3.3　大语言模型实践案例 217
本章小结 220
本章习题 221
参考文献 222

关闭

打印