主页

词嵌入经典方法:one-hot,TF-IDF,Bag of words

词嵌入的经典方法-独热编码(one hot),词袋模型(bag of words),词文档-逆文档频率(TF-IDF) 1 one-hot(独热编码) intuition(核心思想) ​ 文档中每个单词的出现都是独立的,每个词都有独一无二的含义,与其它词无关。对单词编码后的向量中只有数字 0 和 1,且其中只有一个维度是 1 案例: ​ 给出一句话,I ate an apple and played the piano。输出词典表示 劣势 ​ 稀疏矩阵;高维;无法学习语义,向量间的距离无法反映语义差异, 应用: ​ 输出类别标注 2.bag of words intuition(核心思想):文...

阅读更多

词嵌入直观理解

1. 什么是词嵌入(word embedding) 将词/字符转化为有意义可计算的数值。比如有两组词{蜜蜂,鹅,鹰},{直升机,无人机,火箭},用具有意义的数值(具有词义)来表示他们。 怎样才算有词义呢?合乎现实的假设:飞得高的东西对应的数值大。比如在天空(sky)这个维度上,{蜜蜂,鹅,鹰}数值从小到大依次是 鹅=2→蜜蜂=3→鹰=4;{直升机,无人机,火箭}数值从小到大依次是 无人机=2→直升机=3→火箭=4 2. 问题导向:为什么需要词嵌入?-以情感分析任务为例 事实上NLP的大多任务(如事件抽取、自动问答、语义角色标注)都需要词嵌入,在这里以一个情感分析任务为例 句子:我的脚打羽毛球骨折了,国庆期间只能孤独的呆宿舍,我EMO了。 目标:对该句子进行情感分类,正向...

阅读更多

词向量空间建模中的维度理解:如何选择合适的词向量维度?

知识需要:词嵌入 看完篇文章能获得什么: ​ 对词嵌入的深入理解,共现矩阵、Word2vec(skip-gram or CBOW) ​ 训练下游NLP任务时,选择合适的词向量维度 ​ maybe 词嵌入方法创新的一丢丢启发 这是原文链接: https://aegis4048.github.io/understanding_multi-dimensionality_in_vector_space_modeling 词向量维度是多少比较合适呢? 1. 为什么要多维向量空间? 向量空间建模≈词嵌入 Such technique, representing words in a numerical vector space, is called Vector Spa...

阅读更多

skip-gram

词嵌入的目标 获取词在向量空间中的表示,用向量去表示词义→ 获取一个关于词典的矩阵 0. 写在前面 基础知识需要:词嵌入的简单理解(可以我看之前的文章或者视频),统计学的一点点基础概念,神经网络的一丢丢了解 内容预览: skip-gram 的核心思想 skip-gram从直觉上的通俗解释 skip-gram 损失函数的数学推导 1. 从直觉(intuition)上通俗理解skip-gram ​ 最合乎直觉(intuition)的假设-分布假设:相似的词往往出现在同一语境中(例如,在眼睛或检查等词附近)。 ​ ==语义相似的词往往会相邻出现,不相似的词不会相邻出现== ​ 案例: ​ ==颜色标记...

阅读更多

GloVe-全局共现词频信息嵌入

why? From LSA(latent semantic analysis) and skip-gram to GloVe LSA: 基于全局词频的稀疏矩阵, 在词义推理任务上表现较差、 skip-gram: 局部共现,没能利用全局统计信息 GloVe: 全局统计信息+共现=全局共现词频 GloVe: Global Vectors for Word Representation 理论基础: ①在指定窗口大小内共同出现的词$w_i,w_j$具有相似的语义 ②$w_i,w_j$共现的次数越多,语义越相似 ③$w_i,w_j$之间的距离$d$越远,语义越不相似 已有信息: 语料,及其共现矩阵$X$, ...

阅读更多

FastText-考虑子词信息

本文为 A Visual Guide to FastText Word Embeddings (amitness.com)的翻译版 如何让你的词嵌入模型能理解这几个词abandon,-s,-ed,-ing的意思是类似的呢? 1. why 要提出FastText: Word2Vec的局限 不能处理训练中未出现的词(Out of Vocabulary, OOV) ​ 例如:tensor,flow 已在Word2Vec的词典出现过,但tensorflow未出现过→OOV error 无法处理形态相同的词(morphology),即词根相同的词 ​ 对于具有相同词根(eat)的词,eaten,eating,eats,他们之间较难同时出现,不能实现参数共享,即...

阅读更多

旅行

我是Glenn1Q84 当下我是一名有一点点理想的准数据分析工程师。 喜欢捣鼓一些看起来没什么用的东西,尤其是现实世界与专业知识彼此有交集的东西,比如发朋友圈的时候怎么获得更多的点赞呢?用学术的话来说就是什么样的因素或者特征能获得更多的社会支持呢? 希望通过出视频Push自己学习的up主 人总是需要各种理由,比如学习需要动力。研二的时候我一度以为我是一颗正在冉冉升起的学术星星,但社会引力的存在让我担心我总有一天会摆烂,所以选择一星期出一期技术视频的方式来Push自己学习,每天看到来自粉丝们的一键三连应该就会动力满满。 虽然一键三连并不多,但视频发布的时候真的让我非常有成就感,当然,后面因为找工作、肝毕设的事情让我果然成了鸽子精。 当下和以后会做点什么 ...

阅读更多

关于我

我是Glenn1Q84 当下我是一名有一点点理想的准数据分析工程师。 喜欢捣鼓一些看起来没什么用的东西,尤其是现实世界与专业知识彼此有交集的东西,比如发朋友圈的时候怎么获得更多的点赞呢?用学术的话来说就是什么样的因素或者特征能获得更多的社会支持呢? 希望通过出视频Push自己学习的up主 人总是需要各种理由,比如学习需要动力。研二的时候我一度以为我是一颗正在冉冉升起的学术星星,但社会引力的存在让我担心我总有一天会摆烂,所以选择一星期出一期技术视频的方式来Push自己学习,每天看到来自粉丝们的一键三连应该就会动力满满。 虽然一键三连并不多,但视频发布的时候真的让我非常有成就感,当然,后面因为找工作、肝毕设的事情让我果然成了鸽子精。 当下和以后会做点什么 工作是数据分析嘛,数据科...

阅读更多