Git常用复习 2020-12-23| 后台学习 | git 版本控制的分类
本地版本控制,如RCS。最常见,最简单的版本控制方法。
集中版本控制,如SVN。所有的版本数据都保存在服务器上,协同开发者从服务器上同步更新或上传自己的修改。必须联网。。。
分布式版本控制,如Git。所有版本信息仓库全部同步在本地的每个用户中,可以在本地查看所有版本历史,可以在本地离 ...
Read more Docker基础学习 2020-12-22| 后台学习 | docker Docker的常用命令帮助命令docker version #显示docker的版本信息docker info #显示docker的系统信息,包括镜像和容器的数量docker 命令 --help #帮助命令
帮助文档的地址:https://docs.docker.com/engine/referen ...
Read more 《A Comparative Study of Word Embeddings for Reading Comprehension》论文阅读 2020-05-17| 自然语言处理 | 词向量相关 众所周知,预训练好的词向量有不同的维度,比如预训练好的GloVe词向量有从50-300维等的词向量表示,但这些不同维度的表示有什么区别,以及在什么时候该用什么维度的词向量(虽然各论文中大家大多用了300维的词向量),这些问题我也确实不太清除。这篇论文解答了我的这些困惑,写的还是很精彩的。
论文原链接 ...
Read more FastQA学习 2020-05-17| 自然语言处理 | 阅读理解 现在大多数的阅读理解系统都是 top-down 的形式构建的,也就是说一开始就提出了一个很复杂的结构(一般经典的就是 emedding-, encoding-, interaction-, answer-layer ),然后通过 ablation study,不断的减少一些模块配置来验证想法,大多数 ...
Read more 基于NLTK的TF-IDF关键词抽取 2020-05-17| 自然语言处理 | 关键词抽取 基于nltk总结了用TF-IDF提取关键词的方法,同时总结了文本标准化(预处理),SVD分解、基于TF-IDF、词频等的关键词抽取
SVD奇异值分解from scipy.sparse.linalg import svdsimport reimport nltkimport unicodedatade ...
Read more Word2Vec相关(用TFIDF加权词向量) 2020-05-17| 自然语言处理 | 词向量相关 今天是快乐的清明节,而博主还在实验室敲代码,23333这次记录下Word2Vec相关的姿势~
Word2Vec模型直接用开源的gensism库进行词向量训练:
import gensimimport nltkimport numpy as np#自制语料CORPUS = ['the sky ...
Read more 《基于BiDAF多文档重排序的阅读理解模型》论文阅读 2020-05-17| 深度学习 | 阅读理解 - 深度学习 0 引言目前的机器学习方法主要有两类:抽取式和生成式,抽取式通过给定问题以及相关的文章进行训练,让机器具备阅读的能力,并对提出的新问题,在相关文章中抽取出相应的答案。另一种是生成式,从理论_上来说不受知识的局限,对于问题自动生成答案,但是生成式有时产生的答案答非所问,句式不通,不能很好地体现出人类的 ...
Read more 英文文本预处理代码 2020-05-17| 自然语言处理 | 文本预处理 贴一段在做Kaggle QIQC时别人开源的kernel英语文本预处理代码,在做英文nlp任务时还是很有用的~
import osimport reimport gcimport stringimport unicodedataimport operatorimport numpy as npimp ...
Read more nltk---词性标注 2020-05-17| 自然语言处理 | 文本预处理 - 词性标注 1.POS标签器推荐使用nltk推荐的pos_tag()函数,基于Penn Treebank,以下代码展示了使用nltk获取句子POS标签的方法:
sentence = 'The brown fox is quick and he is jumping over the lazy dog& ...
Read more nltk---分词与文本预处理 2020-05-17| 自然语言处理 | 文本预处理 - 分词 参考《text-analytics-with-python》中的第三章中的处理和理解文本对nltk等常用nlp包进行总结,以供之后复习与使用~
1.tokenize(切分词(句子))首先,标识(token)是具有一定的句法语义且独立的最小文本成分,
1.1句子切分句子切分基本技术包括在句子之间寻找特 ...
Read more