网络知识 娱乐 【Github】2019年达观信息提取比赛第九名代码和答辩PPT

【Github】2019年达观信息提取比赛第九名代码和答辩PPT

作者:lonePatient(AINLP技术交流&竞赛群群友)

Github地址,点击阅读原文直达:

https://github.com/lonePatient/daguan_2019_rank9

datagrand_2019_rank9

2019年达观信息提取比赛第九名代码和答辩ppt

比赛地址:官网

代码目录结构

├── pydatagrand
|  └── callback
|  |  └── lrscheduler.py  
|  |  └── trainingmonitor.py 
|  |  └── ...
|  └── config
|  |  └── basic_config.py #a configuration file for storing model parameters
|  └── dataset   
|  └── io    
|  |  └── dataset.py  
|  |  └── data_transformer.py  
|  └── model
|  |  └── nn 
|  |  └── pretrain 
|  └── output #save the ouput of model
|  └── preprocessing #text preprocessing
|  └── train #used for training a model
|  |  └── trainer.py
|  |  └── ...
|  └── common # a set of utility functions
├── prepare_fold_data.py  # 数据切分
├── prepare_lm_data_mask.py  # 随机mask
├── prepare_lm_data_ngram.py  #ngram mask
├── run_bert_crf.py        # crf结构
├── run_bert_span.py   # span结构
├── train_bert_model.py  #训练bert模型

预训练模型

主要训练了8层跟12层BERT模型,采用随机mask + ngram mask两种混合动态masking模式

方案1

方案1主要采用BERT+LSTM+CRF结构

方案2

方案2在方案1的基础上增加了MDP结构

方案3

方案3主要采用BERT+LSTM+SPAN结构

结果

最终结果如下所示:

文档

十强答辩ppt下载地址: https://pan.baidu.com/s/1yvXFf5GzyvDksdBKNp9FKQ 提取码: svr2