word2vec 以及 paragraph2vec 学习笔记 Posted on 2017-03-26 Edited on 2023-02-20 1. 介绍有这么一句话,长文本用CBOW,短文本用lstm。CBOW就是Word2Vec的一种训练方法。doc2vec和topic model是一个层次的东西。 首先在word2vec之前,做NLP的都是使用BOW或者n-gram。用BOW会损失上下文信息,用n-gram导致数据维度太高和稀疏问题。而doc2vec和word2vec是无监督学习,完全可以当做pre-train。 Read more »
Gensim使用指南 Posted on 2017-03-20 Edited on 2023-02-20 1. 介绍Gensim是一个python的包可以自动提取文档语义主题。主要用来对于原始未标记文档进行处理。包括Latent Semantic Analysis, Latent Dirichlet Allocation, Random Projections。这些算法都是unsupervised意味着不需要人工输入。 一旦概率模式被发现,原始文档可以有效地进行语义表示,并且可以进行主题查询。 本文主要参考Gensim官网教程。 Read more »
统计学习方法 笔记 Posted on 2017-02-05 Edited on 2023-02-20 虽然之前已经看过一遍这本书,但一直没有留下笔记,很多东西又有遗忘,所以记下一下重要的东西。 Read more »
Spring Session 以及 Redis 配置 Posted on 2017-02-05 Edited on 2023-02-20 1 介绍本文介绍如果使用Spring Session以及Redis连接配置。 Read more »
LDA解析 Posted on 2017-02-05 Edited on 2023-02-20 1. 介绍Latent Dirichlet Allocation(LDA)。是在文本建模中很著名的模型,可以用于浅层语义分析,在文本语义分析中是一个很有用的模型。这个模型涉及数学知识包括Gamma函数,Dirichlet分布,Dirichlet-Multinomial共轭,Gibbs Sampling,Variantional Inference(变分推理) Read more »