Zheng Gao's Wonderland: Word2Vec

1.Word2Vec basic introduction(Chinese):
http://blog.csdn.net/zhoubl668/article/details/24314769

2.java version:
http://blog.csdn.net/zhaoxinfan/article/details/11640573

3.将分好词的训练语料进行训练，假定我语料名称为test.txt且在word2vec目录中。输入命令：
./word2vec -train text8 -output vectors.bin -cbow 0 -size 48 -window 5 -negative 0 -hs 1 -sample 1e-4 -threads 20 -binary 1 -iter 100
以上命令 -train text8 表示的是输入文件是text8，-output vectors.bin 输出文件是vectors.bin，-cbow 0表示不使用cbow模型，默认为Skip-Gram模型。-size 48 每个单词的向量维度是48，-window 5 训练的窗口大小为5就是考虑一个词前五个和后五个词语（实际代码中还有一个随机选窗口的过程，窗口大小小于等于5）。-negative 0 -hs 1不使用NEG方法，使用HS方法。-sampe指的是采样的阈值，如果一个词语在训练样本中出现的频率越大，那么就越会被采样。-binary为1指的是结果二进制存储，为0是普通存储（普通存储的时候是可以打开看到词语和对应的向量的）除了以上命令中的参数，word2vec还有几个参数对我们比较有用比如-alpha设置学习速率，默认的为0.025. –min-count设置最低频率，默认是5，如果一个词语在文档中出现的次数小于5，那么就会丢弃。-classes设置聚类个数，看了一下源码用的是k-means聚类的方法。要注意-threads 20 线程数也会对结果产生影响。
注意：–min-count设置最低频率，默认是5，进行参数传递无效，我们可能是因为参数名中有-，唉我们只好在程序word2vec.c中将min-count初始化为1了。

· 架构：skip-gram（慢、对罕见字有利）vs CBOW（快）
· 训练算法：分层softmax（对罕见字有利）vs 负采样（对常见词和低纬向量有利）
· 欠采样频繁词：可以提高结果的准确性和速度（适用范围1e-3到1e-5）
· 文本（window）大小：skip-gram通常在10附近，CBOW通常在5附近

4.word2vec 的輸入必須是以空白隔開的詞
5. word2vec mathematics
sigmoid function

eg:
-cbow 1 -size 300 -window 5 -negative 3 -hs 0 -sample 1e-5 -threads 12 -binary 1 -iter 15

Zheng Gao's Wonderland

Monday, November 9, 2015

Word2Vec

No comments:

Post a Comment

Zheng Gao