文本信息处理与应用
-
【作 者】主编 何黎松 姚香秀
【I S B N 】978-7-5226-3761-7
【责任编辑】鞠向超
【适用读者群】本专通用
【出版时间】2025-11-01
【开 本】16开
【装帧信息】平装(光膜)
【版 次】第1版第1次印刷
【页 数】232
【千字数】371
【印 张】14.5
【定 价】¥48
【丛 书】普通高等教育数据科学与大数据技术专业教材
【备注信息】
简介
本书特色
前言
章节列表
精彩阅读
下载资源
相关图书
在人工智能和大数据时代,文字信息的分析与处理已成为关键技能。本书主要针对本科阶段的文本信息处理与应用课程的教学进行编写,内容偏基础,强调实践应用。本书主要内容包括概论、文本预处理、中文分词与可视化、关键词提取、文本向量化、文本聚类、主题模型、文本分类、情感分析、词网络分析、综合案例分析和前沿介绍。
本书可作为自然语言处理课程的前置课程,适用于数据科学相关专业的高年级本科生使用。阅读和使用本书需要已经学过概率论、统计学、机器学习和Python编程课程。
立足产学融合前沿,筑牢文本处理根基。
内容全面层层递进,理论实践双线并行。
案例丰富代码翔实,思政元素自然融入。
基础技能逐层夯实,综合实践赋能应用。
文本信息处理与应用(Text Information Processing and Applications,TIPA)作为自然语言处理(Natural Language Processing,NLP)的重要基础领域,研究如何高效地分析和处理文本数据,为数据决策服务。在信息抽取、舆情监测、个性化推荐等众多应用场景中,其展现了极高的学术研究价值和商业潜力。
本书依托2023年教育部产学合作协同育人项目,与北京百分点科技集团股份有限公司(简称“百分点公司”)合作编写,编写期间百分点公司提供了丰富的实践数据和案例。本书从实际应用场景出发,依托具体案例,详细探讨文本信息处理的技术与理论,内容涵盖以下几个方面:概论、文本预处理、中文分词与可视化、关键词提取、文本向量化、文本聚类、主题模型、文本分类、情感分析、词网络分析、综合案例分析以及文本领域的前沿技术。
本书的主要特点如下。
1.内容全面,层次分明
本书可划分为以下5篇:
(1)基础篇(第1~4章):包含对文本信息处理与应用的总体介绍,涉及文本预处理、分词技术和关键词提取等基础内容。这一部分旨在为读者提供扎实的基础。
(2)文本向量化篇(第5章):详细讲解文本向量化的技术,包括词嵌入(Word Embeddings)、Doc2Vec等方法,为后续的文本分析奠定基础。
(3)文本挖掘篇(第6~10章):涵盖文本聚类、主题模型、文本分类、情感分析和词网络分析等高级文本挖掘技术。该部分侧重于细分场景下的文本分析任务,帮助读者掌握实际应用中的数据处理
方法。
(4)综合实践篇(第11~13章):通过3个综合案例,将前述内容实际应用于具体问题,展示文本分析方法的实际效果和应用技巧。
(5)前沿拓展篇(第14章):介绍文本信息处理与应用领域的最新研究成果和技术发展,帮助读者了解当前的前沿动态和未来的发展趋势。
2.理论与实践相结合
本书将理论与实践紧密结合,在第2~10章中均配备了实际案例和Python实践代码。通过这种方式,读者不仅能够理解理论内容,还能掌握实际操作技能。第11~13章为3个综合案例,用于详细展示前面章节的内容如何在实际中应用。
3.融入思政教育元素
本书特别选用了大量思政文本作为分析案例,包括政策文本、地方舆情新闻及社会热点问题的相关内容。这些案例的选用旨在帮助读者更深入地理解国家政策,分析地方舆情问题,并提出改进社会问题的有针对性建议,从而体现教材在思政建设中的应用价值和教育意义。
本书由何黎松、姚香秀共同编写。何黎松负责第1章、第2章、第6~12章和第14章的编写,姚香秀负责第3~5章和第13章的编写。本书第9章第3节、第11章综合案例分析和习题都使用百分点公司提供的案例。第12章案例基于本专业学生石媛媛毕业论文数据改编。在本书编写完成之后,经济统计学专业学生杨文璿、陈亚楠、姬朝旭、孙栩琦、孙浩翔、李雪、罗双娟和范国云等分别对格式细节进行了修改和校对。
尽管编写组成员做出了最大努力,期望奉献给读者一本令人满意的教材,但书中仍有可能存在一些缺陷,欢迎读者和同行提出宝贵意见或建议。
编 者
2025年6月
第1章 概论 1
本章导读 1
本章要点 1
1.1 文本信息处理与应用概述 1
1.1.1 文本信息简介 1
1.1.2 文本信息处理与应用的概念 2
1.1.3 文本信息处理与应用的发展历史 3
1.1.4 文本信息处理与应用的学科关系 5
1.2 文本信息分析的应用场景 6
1.2.1 政府工作中的文本信息分析 6
1.2.2 教育工作中的文本信息分析 6
1.2.3 新文科中的文本信息分析 7
1.2.4 社交媒体中的文本信息分析 7
1.3 Python在文本信息处理中的优势与库 8
1.3.1 Python文本信息处理的优势 8
1.3.2 常用的Python文本信息处理库 8
本章小结 10
本章习题 11
第2章 文本预处理 12
本章导读 12
本章要点 12
2.1 读取文本数据 13
2.1.1 从本地文件读取文本数据 13
2.1.2 从网络获取文本数据 15
2.2 正则表达式 17
2.2.1 元字符 17
2.2.2 正则表达式函数 18
2.3 文本清洗 20
2.3.1 去除噪声和无关信息 20
2.3.2 标准化文本 22
2.3.3 文本去重 22
2.4 文本分割与合并 24
2.4.1 文本分割 24
2.4.2 文本合并 24
2.5 文本预处理综合案例 25
2.5.1 “十四五”规划分篇 25
2.5.2 《倚天屠龙记》文本预处理 26
本章小结 29
本章习题 30
第3章 中文分词与可视化 31
本章导读 31
本章要点 31
3.1 分词方法 31
3.1.1 基于规则的分词方法 32
3.1.2 基于统计的分词方法 36
3.1.3 基于深度学习的分词方法 38
3.2 常见分词库 39
3.2.1 jieba库 40
3.2.2 NLTK库 43
3.2.3 HanLP库 46
3.3 文本可视化技术 47
3.3.1 词云图 47
3.3.2 词频柱形图 49
本章小结 50
本章习题 51
第4章 关键词提取 52
本章导读 52
本章要点 52
4.1 关键词提取技术概述 52
4.2 基于统计的关键词提取算法 53
4.2.1 基于统计的关键词提取算法概述 53
4.2.2 TF-IDF算法基本原理 54
4.2.3 TF-IDF算法的Python实践 55
4.3 基于图模型的关键词提取算法 59
4.3.1 基于图模型的关键词提取算法概述 59
4.3.2 PageRank算法 60
4.3.3 TextRank算法 62
4.3.4 TextRank算法的Python实践 64
本章小结 66
本章习题 67
第5章 文本向量化 68
本章导读 68
本章要点 68
5.1 文本向量化简介 68
5.2 文本向量化的发展历史 69
5.3 Word2Vec 73
5.3.1 Word2Vec的基本原理 73
5.3.2 Word2Vec的两种训练模型 73
5.3.3 使用Word2Vec实现文本相似度计算 77
5.4 Doc2Vec 80
5.4.1 Doc2Vec的基本原理 80
5.4.2 Doc2Vec的两种训练模型 81
5.4.3 使用Doc2Vec实现文本相似度计算 83
本章小结 85
本章习题 86
第6章 文本聚类 87
本章导读 87
本章要点 87
6.1 文本聚类介绍 88
6.1.1 文本聚类的定义 88
6.1.2 文本聚类的发展历史 88
6.1.3 文本聚类的应用场景 89
6.1.4 文本聚类的流程 89
6.2 聚类算法介绍 90
6.2.1 K-means聚类算法 91
6.2.2 高斯混合聚类算法 92
6.2.3 层次聚类算法 93
6.2.4 DBSCAN算法 94
6.3 聚类类别数判断 95
6.3.1 肘部法则 96
6.3.2 轮廓系数 96
6.3.3 Davies-Bouldin指数 96
6.4 文本聚类的Python实践 96
本章小结 100
本章习题 100
第7章 主题模型 101
本章导读 101
本章要点 101
7.1 主题模型介绍 101
7.1.1 主题模型的发展历史 102
7.1.2 主题模型的应用场景 103
7.1.3 主题模型的建模流程 103
7.2 LDA主题模型 104
7.2.1 LDA的基本原理 104
7.2.2 LDA参数的估计方法 106
7.2.3 LDA主题数的确定 107
7.2.4 LDA模型的优缺点 108
7.2.5 LDA主题模型的Python实践 109
7.3 DTM模型 114
7.3.1 DTM模型的介绍 114
7.3.2 DTM模型的优缺点 115
7.3.3 DTM模型的Python实践 116
本章小结 119
本章习题 120
第8章 文本分类 121
本章导读 121
本章要点 121
8.1 文本分类介绍 121
8.1.1 文本分类的定义 121
8.1.2 文本分类的发展历史 122
8.1.3 文本分类的应用场景 122
8.1.4 文本分类的流程 123
8.2 基于机器学习算法的文本分类 124
8.2.1 机器学习算法 124
8.2.2 集成学习算法 127
8.2.3 基于机器学习算法的文本分类的
Python实践 128
8.3 基于深度学习的文本分类 133
8.3.1 循环神经网络分类器 133
8.3.2 基于深度学习的文本分类的Python
实践 135
本章小结 139
本章习题 139
第9章 情感分析 140
本章导读 140
本章要点 140
9.1 情感分析介绍 140
9.1.1 情感分析的发展历史 140
9.1.2 情感分析的应用场景 141
9.1.3 情感分析的方法 142
9.2 基于情感词典的情感分析 143
9.2.1 基于情感词典的情感分析方法步骤 143
9.2.2 情感词典 144
9.2.3 基于情感词典的情感分析的优缺点 146
9.2.4 基于情感词典的情感分析的Python
实践 146
9.3 基于机器学习的情感分析 153
9.3.1 基于机器学习的情感分析的定义 153
9.3.2 基于机器学习的情感分析的流程 153
9.3.3 基于机器学习的情感分析的Python
实践 154
9.4 基于Python库的情感分析 157
9.4.1 可用于情感分析的Python库 157
9.4.2 基于Python库进行情感分析的分析
实践 158
本章小结 160
本章习题 161
第10章 词网络分析 162
本章导读 162
本章要点 162
10.1 词网络分析介绍 162
10.1.1 词网络分析的定义 162
10.1.2 词网络分析的发展历史 163
10.1.3 词网络分析的应用场景 164
10.1.4 词网络分析的方法 165
10.2 词网络构建 165
10.2.1 词共现网络构建的方法 165
10.2.2 词共现网络构建的Python实践 166
10.3 词网络描述分析 169
10.3.1 词网络描述分析指标介绍 169
10.3.2 词网络描述分析的Python实践 171
10.4 词网络社群发现 173
10.4.1 社群发现算法 173
10.4.2 词网络社群发现的Python实践 176
本章小结 180
本章习题 181
第11章 A型汽车消费者评论数据分析 182
本章导读 182
本章要点 182
11.1 案例背景 182
11.2 数据说明 182
11.3 情感分析 183
11.4 词云图分析 185
本章小结 188
本章习题 188
第12章 子女教育问题文本信息分析 189
本章导读 189
本章要点 189
12.1 案例背景 189
12.2 数据说明 189
12.3 情感分析 190
12.4 主题模型 192
本章小结 194
本章习题 194
第13章 基于密度聚类的公众留言热点话题研究 195
本章导读 195
本章要点 195
13.1 案例背景 195
13.2 数据说明 196
13.3 数据整理 197
13.3.1 文本分词 197
13.3.2 文本向量化 199
13.4 基于密度聚类的热点话题研究 200
本章小结 202
本章习题 203
第14章 前沿介绍 204
本章导读 204
本章要点 204
14.1 前沿概览 204
14.2 大语言模型 206
14.2.1 大语言模型介绍 206
14.2.2 大语言模型技术要点 208
14.2.3 生成式人工智能 211
14.3 大语言模型实践 212
14.3.1 大语言模型部署方法 212
14.3.2 提示词工程 215
14.3.3 大语言模型实践案例 217
本章小结 220
本章习题 221
参考文献 222
- 工业机器人编程及应用(第二版) [主编 向艳芳 胡月霞]
- C语言程序设计(第二版) [主编 刘祖珉 赵仕波]
- 数据分析与应用 [主编 孙伟 王兰芹]
- Linux操作系统配置与管理项目化教程(第二版) [主编 白玉羚 刘金明 闫 淼]
- Ansys SpaceClaim直接建模与仿真指南 [蔡宜时 编著]
- 基于大数据的智慧农业管理平台关键技术研究与实践 [周永福 著]
- 健美运动 [戴显岩]
- Python程序开发基础(AI+微课版) [赵艳莉 曾鑫]
- 大学生心理困境突围之路 [张珏 著]
- 机器学习基础与实践 [主编 李晓峰 胥文婷 李云波]
- 大模型应用实战 DeepSeek+即梦AI+剪映重塑创作 [丁红 杨彦彦 丁丁 编著]
- HarmonyOS从入门到精通 [陈赵云 周永福 杨 浪]
- 用英语发现世界:欧美文化篇 [李小丽 张薇 编著]
- 大学体育教程 [戴显岩]
- 新一代信息技术 [李佼辉 任雪冬]
- 轨道交通类专门用途英语教程 [李德华主编 商晔副主编]
- 建设工程项目团队知识异质性对团队绩效的影响研究 [胡可]
- 新时代元阳梯田 云南现代化高原立体灌区 前世 今生 未来 [云南省水利水电勘测设计研究院 ]
- 网络工程师章节习题与考点特训(适配第6版考纲) [夏杰 编著]
- 零基础商业插画设计与AI表现 [主编 汤彦萱]
- 电工与电子技术(第三版) [主编 王梅 唐翠微 杨晓珍]
- 虚拟现实(VR)模型制作技术及应用 [主编 高文铭 祝海英]
- 大学生就业指导与创新教育 [主编 田克明 杨超 郭明钢]
- 新时代人工智能素养 [主编 徐永冰 张帅]
- 电子商务文案策划与写作 [主编 卢海涛 夏颖 黄璐云]
- 信息技术与人工智能 [主编 王锦]
- 信息技术基础(活页式) [主编 赵金考 禹晨 张尼奇 王宏斌]
- 计算机程序员教程 [主编 李学国 任小平]
- 水利水电工程施工组织设计 [主编 胡建春 钱波 何茜]
- 信息技术 [主编 任洪亮 邢海燕]

