Git常用复习
版本控制的分类 本地版本控制,如RCS。最常见,最简单的版本控制方法。 集中版本控制,如SVN。所有的版本数据都保存在服务器上,协同开发者从服务器上同步更新或上传自己的修改。必须联网。。。 分布式版本控制,如Git。所有版本信息仓库全部同步在本地的每个用户中,可以在本地查看所有版本历史,可以在本地离 ...
Read more
Docker基础学习
Docker的常用命令帮助命令docker version #显示docker的版本信息docker info #显示docker的系统信息,包括镜像和容器的数量docker 命令 --help #帮助命令 帮助文档的地址:https://docs.docker.com/engine/referen ...
Read more
《A Comparative Study of Word Embeddings for Reading Comprehension》论文阅读
众所周知,预训练好的词向量有不同的维度,比如预训练好的GloVe词向量有从50-300维等的词向量表示,但这些不同维度的表示有什么区别,以及在什么时候该用什么维度的词向量(虽然各论文中大家大多用了300维的词向量),这些问题我也确实不太清除。这篇论文解答了我的这些困惑,写的还是很精彩的。 论文原链接 ...
Read more
FastQA学习
现在大多数的阅读理解系统都是 top-down 的形式构建的,也就是说一开始就提出了一个很复杂的结构(一般经典的就是 emedding-, encoding-, interaction-, answer-layer ),然后通过 ablation study,不断的减少一些模块配置来验证想法,大多数 ...
Read more
基于NLTK的TF-IDF关键词抽取
基于nltk总结了用TF-IDF提取关键词的方法,同时总结了文本标准化(预处理),SVD分解、基于TF-IDF、词频等的关键词抽取 SVD奇异值分解from scipy.sparse.linalg import svdsimport reimport nltkimport unicodedatade ...
Read more
Word2Vec相关(用TFIDF加权词向量)
今天是快乐的清明节,而博主还在实验室敲代码,23333这次记录下Word2Vec相关的姿势~ Word2Vec模型直接用开源的gensism库进行词向量训练: import gensimimport nltkimport numpy as np#自制语料CORPUS = ['the sky ...
Read more
《基于BiDAF多文档重排序的阅读理解模型》论文阅读
0 引言目前的机器学习方法主要有两类:抽取式和生成式,抽取式通过给定问题以及相关的文章进行训练,让机器具备阅读的能力,并对提出的新问题,在相关文章中抽取出相应的答案。另一种是生成式,从理论_上来说不受知识的局限,对于问题自动生成答案,但是生成式有时产生的答案答非所问,句式不通,不能很好地体现出人类的 ...
Read more
英文文本预处理代码
贴一段在做Kaggle QIQC时别人开源的kernel英语文本预处理代码,在做英文nlp任务时还是很有用的~ import osimport reimport gcimport stringimport unicodedataimport operatorimport numpy as npimp ...
Read more
nltk---词性标注
1.POS标签器推荐使用nltk推荐的pos_tag()函数,基于Penn Treebank,以下代码展示了使用nltk获取句子POS标签的方法: sentence = 'The brown fox is quick and he is jumping over the lazy dog& ...
Read more
nltk---分词与文本预处理
参考《text-analytics-with-python》中的第三章中的处理和理解文本对nltk等常用nlp包进行总结,以供之后复习与使用~ 1.tokenize(切分词(句子))首先,标识(token)是具有一定的句法语义且独立的最小文本成分, 1.1句子切分句子切分基本技术包括在句子之间寻找特 ...
Read more