GitHub - sayuriTakeda/Word2vec: TAP Word Embedding

title

output

author

Word Embedding

html_document

keep_md
true

Sayuri Takeda

Word Embedding

Técnica de NLP onde palavras são mapeadas para vetores.

É dificil representar a ideia de contexto. Também existe uma limitação em representar palavras idiomáticas.

Exemplo de palavra idiomática:

Duas possíveis aplicações de word embedding podem ser:

extrair contexto de uma palavra em um documento
determinar relação com outras palavras

Futuro com Word Embedding...

Facebook AI Research (FAIR)

One Hot Encoding

É possível representar palavras de um determinado vocabulário utilizando one hot encoding, vamos ilustrar um exemplo:

O TAP é bom
O TAP é ótimo

Vocabulário ={"O", "TAP", "é", "bom", "ótimo"}

Representando o vocabulário por one hot encoding:

O -> (1,0,0,0,0)
TAP -> (0,1,0,0,0)
é -> (0,0,1,0,0)
bom -> (0,0,0,1,0)
ótimo -> (0,0,0,0,1)

Continuação One Hot Encoding

Sabemos que, dentro do contexto, "bom" deveria ser próximo de "ótimo".

Função Softmax

Softmax pega um vetor não normalizado e retorna um vetor normalizado baseado em uma distribuição de probabilidade.

Word2vec

A forma mais popular de se trabalhar com word embedding é o word2vec que utiliza rede neural e foi criado por Thomas Mikolov da Google.

Continuação Word2vec

Não existe função de ativação com sigmoide, than ou relu:

Exemplo da rede

Modelo CBOW simples com apenas uma palavra do contexto.

Modelo CBOW

Modelo Skip-gram

CBOW X Skip-gram

Skip-gram

Tenta predizer o vizinho, esse é o "contexto", por exemplo:

Melhorias Skip-gram

Duas inovações que foram feitas em um segundo paper que aumentam a qualidade do resultado e reduz o esforço computacional:

Subamostra de palavras frequentes
Amostra negativa

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
CBOW.png		CBOW.png
Capture_10.PNG		Capture_10.PNG
Capture_11.PNG		Capture_11.PNG
Capture_7.PNG		Capture_7.PNG
Capture_8.PNG		Capture_8.PNG
Capture_9.PNG		Capture_9.PNG
CodeCogsEqn.png		CodeCogsEqn.png
README-unnamed-chunk-2-1.png		README-unnamed-chunk-2-1.png
README-unnamed-chunk-3-1.png		README-unnamed-chunk-3-1.png
README-unnamed-chunk-4-1.png		README-unnamed-chunk-4-1.png
README.md		README.md
Skip-Gram.png		Skip-Gram.png
Thomas.PNG		Thomas.PNG
bokeh.PNG		bokeh.PNG
ex_sofmax.PNG		ex_sofmax.PNG
formulas.PNG		formulas.PNG
formulas_2.PNG		formulas_2.PNG
france.PNG		france.PNG
functions.PNG		functions.PNG
futuro.PNG		futuro.PNG
gensim.PNG		gensim.PNG
jupyter.PNG		jupyter.PNG
new_york_times.PNG		new_york_times.PNG
opinion.PNG		opinion.PNG
simple-CBOW.png		simple-CBOW.png
skip_gram.PNG		skip_gram.PNG
skip_gram_2.PNG		skip_gram_2.PNG

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Word Embedding

Futuro com Word Embedding...

One Hot Encoding

Continuação One Hot Encoding

Função Softmax

Word2vec

Continuação Word2vec

Exemplo da rede

Modelo CBOW

Modelo Skip-gram

CBOW X Skip-gram

Skip-gram

Melhorias Skip-gram

Continuação Skip-gram

Opinion

Ideia de output:

Ideia de output:

Prática

About

Releases

Packages

sayuriTakeda/Word2vec

Folders and files

Latest commit

History

Repository files navigation

Word Embedding

Futuro com Word Embedding...

One Hot Encoding

Continuação One Hot Encoding

Função Softmax

Word2vec

Continuação Word2vec

Exemplo da rede

Modelo CBOW

Modelo Skip-gram

CBOW X Skip-gram

Skip-gram

Melhorias Skip-gram

Continuação Skip-gram

Opinion

Ideia de output:

Ideia de output:

Prática

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages