• 欢迎光临~

中文文本分类实例

开发技术 开发技术 2022-10-18 次浏览

中文文本分类【参考https://github.com/lijqhs/text-classification-cn】

文本分类(Text Classification)是自然语言处理中的一个重要应用技术,根据文档的内容或主题,自动识别文档所属的预先定义的类别标签。文本分类是很多应用场景的基础,比如垃圾邮件识别,舆情分析,情感识别,新闻自动分类,智能客服机器人的知识库分类等等。本文分为两个部分:

- Part 1: 基于scikit-learn机器学习Python库,对比几个传统机器学习方法的文本分类。[Blog Post](https://lijqhs.github.io/2019/05/text-classification-scikit-learn/)
- Part 2: 基于预训练词向量模型,使用Keras工具进行文本分类,用到了CNN。[Blog Post](https://lijqhs.github.io/2019/05/text-classification-pretrained-keras-cnn/)
Text Classification
  • Part 1: 基于scikit-learn机器学习的文本分类方法
    • 1. 语料预处理
    • 2. 生成训练集和测试集
      • 生成数据集
    • 3. 文本特征提取:TF-IDF
    • 4. 构建分类器
      • Benchmark: 朴素贝叶斯分类器
      • 对新文本应用分类
    • 5. 分类器的评估
      • 构建Logistic Regression分类器
      • 构建SVM分类器
  • Part 2: 基于预训练模型的CNN文本分类方法-Keras
    • 1. 读取语料
    • 2. 加载预训练词向量模型
    • 3. 使用Keras对语料进行处理
    • 4. 定义词嵌入矩阵
      • Embedding Layer
    • 5. 构建模型
    • 参考资料


程序员灯塔
转载请注明原文链接:中文文本分类实例
喜欢 (0)
违法和不良信息举报电话:022-22558618 举报邮箱:dljd@tidljd.com