[NLP经验] 无偿分享3个月NLP实习用到的专题知识

avatar 429206
ttthhb
16255
33
楼主斯坦福MS,上个暑假在一个全美资VC做NLP。没错是一个VC,不经感叹道科技的力量已经从二级市场蔓延到投资领域的各个角落。做的项目十分有趣,用snorkel做了一个weak supervision的labeling,做了一个text classifier,以及一个text clustering。具体每个project的内容就不详细说了,其实在其他领域应用早就有了,大家上网也可以找点例子,接下来我也会分享一些链接。只不过在VC做的还是比较新,据老板说在DI & Sourcing方面至少领先同行业两年。
接下来分享一些用到知识点的链接,大家以后准备NLP相关岗位面试的时候可以参考。仅限于我实习项目而言的知识点(中英都有):
首先非常推荐斯坦福NLP的IR-book,基本一应俱全:
nlp.stanford.edu

SQL tools:
hashrocket.com
wiki.postgresql.org
Pandas (非常重要,一定要熟练):
pandas.pydata.org
pandas.pydata.org
pandas.pydata.org
scikit-learn.org

1. 有监督NLP
ML pipeline (Industry 必用,跟course project最大不同):
scikit-learn.org
juejin.im

NLP:
zhihu.com
Stop words:
en.wikipedia.org
PorterStemmer:
qinxuye.me
tartarus.org
General ways to solve NLP problem:
blog.insightdatascience.com
github.com
Convolutional Neural Networks for Sentence Classification:
arxiv.org
LSTM:
blog.csdn.net
jianshu.com

Feature extraction:
scikit-learn.org
scikit-learn.org
Bert:
arxiv.org
huggingface.co
mccormickml.com
Freeze BERT:
github.com
github.com
github.com
discuss.pytorch.org

Gensim:
radimrehurek.com

Word2vec:
rare-technologies.com
machinelearningmastery.com
zhuanlan.zhihu.com
pytorch.org

Git:
atlassian.com

调参:
scikit-learn.org

Data matching:
recordlinkage.readthedocs.io
Words distance:
blog.csdn.net
blog.csdn.net
blog.csdn.net
Smith-Waterman algorithm:
baike.baidu.com
Damerau/Levenshtein Distance
jianshu.com
blog.csdn.net
blog.csdn.net
Jaro-Winkler Distance
blog.csdn.net
en.wikipedia.org
XGboost:
zhuanlan.zhihu.com
zhuanlan.zhihu.com
blog.csdn.net
huggingface.co
gtree glinear:
cnblogs.com

SVD PCA 潜在语义分析:
medium.com
scikit-learn.org
medium.com
nlp.stanford.edu
blog.csdn.net

2. 弱监督学习器、半监督:
Snorkel:
snorkel.readthedocs.io
hazyresearch.github.io
snorkel.org
snorkel.org

Semi supervised
scikit-learn.org

Active learning :
scikit-learn.org

3. 无监督NLP:
K-means:
medium.com
scikit-learn.org
towardsdatascience.com
AHC:
nlp.stanford.edu
geeksforgeeks.org
towardsdatascience.com(这个是真的舒服)

最后,知识点肯定无法涵盖NLP的各个角落,特别是一些deep Learning的应用,比如NMT,QA等等。但是一般面试一定会把最基础的东西问得很透彻(老板也只记得这些),所以越是基础的NLP越要牢牢掌握。像BERT,XLnet这些state-of-art,只要结构能说清楚,充其量用过其pre-trained model已经ok了。

祝大家找工作愉快!
  • 441
33条回复