国产AV日韩A∨亚洲AV电影,久久精品国产亚洲AV麻豆不卡,日本系列1页亚洲系列

天池下的瑞金醫院MMC人工智能輔助構建知識圖譜

網友投稿 2193 2025-03-31

淺談知識圖譜------天池下的瑞金醫院MMC人工智能輔助構建知識圖譜

前言

數據說明

問題

網絡模型和效果展示

代碼

實體的定義和處理

句子的切分和處理

代碼和數據集：

前言

知識圖譜是個很大的概念，可惜我沒數據，借用瑞金醫院的數據集，來談下命名識別。

數據說明

數據使用 brat 進行標注，每個 .txt 文件對應一個 .ann 標注文件。

txt文件對應一篇糖尿病下的論文，

ann文件有3列，以 \t 分隔，第一列為實體編號，第二列為實體類別，第三列為實體位置信息。實體位置信息共3列，以空格分隔，分別代表實體的開始位置，結束位置，實體文本。

問題

這里我引用冠軍隊伍的代碼，他們當時所面臨的問題如下：

（1）他們是對一篇文章去做實體標注，文章的字數可能很長(幾千到上萬字)，不可能直接輸入到一個 RNN 中；

（2）樣本中文章可能由于格式轉換的一些原因，沒有一個很好的句子邊界，甚至一個詞匯當中存在換行符 \n 或者句號的情況，因此用換行符或者句號去切割句子不一定合適。

（3）如果按照固定窗口大小的滑動窗口去切句子，剛好把一個實體切分成2個部分怎么辦？

中文文本，面臨是否要分詞的選擇；

下面是他們的解決方案：

網絡模型和效果展示

網絡模型為了便于上下文的關聯采用了雙向的lstm，為了使滑動的時候不丟到相關聯的詞語采用了一層CRF，作為最后最后一層的預測。

代碼

代碼主要分為三個部分，實體的定義和處理、句子的切分和處理、模型的搭建，除此之外還有預測評估的部分

實體的定義和處理

class Entity(object): def __init__(self, ent_id, category, start_pos, end_pos, text): self.ent_id = ent_id self.category = category self.start_pos = start_pos self.end_pos = end_pos self.text = text def __gt__(self, other): return self.start_pos > other.start_pos def offset(self, offset_val): return Entity(self.ent_id, self.category, self.start_pos + offset_val, self.end_pos + offset_val, self.text) def __repr__(self): return '({}, {}, ({}, {}), {})'.format(self.ent_id, self.category, self.start_pos, self.end_pos, self.text)

class Entities(object): def __init__(self, ents): self.ents = sorted(ents) self.ent_dict = dict(zip([ent.ent_id for ent in ents], ents)) def __getitem__(self, key): if isinstance(key, int) or isinstance(key, slice): return self.ents[key] else: return self.ent_dict.get(key, None) def offset(self, offset_val): ents = [ent.offset(offset_val) for ent in self.ents] return Entities(ents) def vectorize(self, vec_len, cate2idx): res_vec = np.zeros(vec_len, dtype=int) for ent in self.ents: res_vec[ent.start_pos: ent.end_pos] = cate2idx[ent.category] return res_vec def find_entities(self, start_pos, end_pos): res = [] for ent in self.ents: if ent.start_pos > end_pos: break sp, ep = (max(start_pos, ent.start_pos), min(end_pos, ent.end_pos)) if ep > sp: new_ent = Entity(ent.ent_id, ent.category, sp, ep, ent.text[:(ep - sp)]) res.append(new_ent) return Entities(res) def merge(self): merged_ents = [] for ent in self.ents: if len(merged_ents) == 0: merged_ents.append(ent) elif (merged_ents[-1].end_pos == ent.start_pos and merged_ents[-1].category == ent.category): merged_ent = Entity(ent_id=merged_ents[-1].ent_id, category=ent.category, start_pos=merged_ents[-1].start_pos, end_pos=ent.end_pos, text=merged_ents[-1].text + ent.text) merged_ents[-1] = merged_ent else: merged_ents.append(ent) return Entities(merged_ents)

天池下的瑞金醫院MMC人工智能輔助構建知識圖譜

句子的切分和處理

data_dir = 'ruijin_round1_train2_20181022/' ent2idx = dict(zip(ENTITIES, range(1, len(ENTITIES) + 1))) idx2ent = dict([(v, k) for k, v in ent2idx.items()]) # print(idx2ent) docs = Documents(data_dir=data_dir) # ShuffleSplit（）隨機排列交叉驗證，生成一個用戶給定數量的獨立的訓練/測試數據劃分。樣例首先被打散然后劃分為一對訓練測試集合。 # n_splits:劃分訓練集、測試集的次數，默認為10 # test_size: 測試集比例或樣本數量， # random_state:隨機種子值，默認為None，可以通過設定明確的random_state，使得偽隨機生成器的結果可以重復。 rs = ShuffleSplit(n_splits=1, test_size=20, random_state=2018) train_doc_ids, test_doc_ids = next(rs.split(docs)) train_docs, test_docs = docs[train_doc_ids], docs[test_doc_ids] num_cates = max(ent2idx.values()) + 1 sent_len = 64 vocab_size = 3000 emb_size = 100 sent_pad = 10 sent_extrator = SentenceExtractor(window_size=sent_len, pad_size=sent_pad) train_sents = sent_extrator(train_docs) test_sents = sent_extrator(test_docs) train_data = Dataset(train_sents, cate2idx=ent2idx) train_data.build_vocab_dict(vocab_size=vocab_size) test_data = Dataset(test_sents, word2idx=train_data.word2idx, cate2idx=ent2idx)

class Sentence(object): """ 定義被切分的句子的類： text:句子的文本 doc_id:句子所述文檔id offset:句子相對文檔的偏移距離 ents:句子包含的實體列表 """ def __init__(self, doc_id, offset, text, ents): self.text = text self.doc_id = doc_id self.offset = offset self.ents = ents def __repr__(self): """ 內部魔法函數：以text顯示類 :return: """ return self.text def __gt__(self, other): #內部魔法函數：按類的offset偏移距離對類進行排序 return self.offset > other.offset def __getitem__(self, key): """ 內部魔法函數:預測結果評估時，去除句子兩端延申的部分 :param key: :return: """ if isinstance(key, int): return self.text[key] if isinstance(key, slice): text = self.text[key] start = key.start or 0 stop = key.stop or len(self.text) if start < 0: start += len(self.text) if stop < 0: stop += len(self.text) #改變實體相對于句子的偏移距離 ents = self.ents.find_entities(start, stop).offset(-start) #改變句子相對于文檔的偏移距離 offset = self.offset + start return Sentence(self.doc_id, offset, text, ents) def _repr_html_(self): """ 內部函數：網頁顯示不同的實體以不同的顏色區分 :return: """ ents = [] for ent in self.ents: ents.append({'start': ent.start_pos, 'end': ent.end_pos, 'label': ent.category}) ex = {'text': self.text, 'ents': ents, 'title': None, 'settings': {}} return displacy.render(ex, style='ent', options={'colors': COLOR_MAP}, manual=True, minify=True) class SentenceExtractor(object): #句子切分器，窗口為windows，兩端分別延申pad_size def __init__(self, window_size=50, pad_size=10): self.window_size = window_size self.pad_size = pad_size def extract_doc(self, doc): #句子切分函數，切分的時候注意每個切分的句子相對于文檔的偏移距離，預測的時候還需要還原 num_sents = math.ceil(len(doc.text) / self.window_size) doc = doc.pad(pad_left=self.pad_size, pad_right=num_sents * self.window_size - len(doc.text) + self.pad_size) sents = [] for cur_idx in range(self.pad_size, len(doc.text) - self.pad_size, self.window_size): sent_text = doc.text[cur_idx - self.pad_size: cur_idx + self.window_size + self.pad_size] ents = [] for ent in doc.ents.find_entities(start_pos=cur_idx - self.pad_size, end_pos=cur_idx + self.window_size + self.pad_size): ents.append(ent.offset(-cur_idx + self.pad_size)) sent = Sentence(doc.doc_id, offset=cur_idx - 2 * self.pad_size, text=sent_text, ents=Entities(ents)) sents.append(sent) return sents def __call__(self, docs): #內部函數：將類當成函數形式的調用 sents = [] for doc in docs: sents += self.extract_doc(doc) return sents

模型的構建

def build_lstm_crf_model(num_cates, seq_len, vocab_size, model_opts=dict()): opts = { 'emb_size': 256, 'emb_trainable': True, 'emb_matrix': None, 'lstm_units': 256, 'optimizer': keras.optimizers.Adam() } opts.update(model_opts) input_seq = Input(shape=(seq_len,), dtype='int32') if opts.get('emb_matrix') is not None: embedding = Embedding(vocab_size, opts['emb_size'], weights=[opts['emb_matrix']], trainable=opts['emb_trainable']) else: embedding = Embedding(vocab_size, opts['emb_size']) x = embedding(input_seq) lstm = LSTM(opts['lstm_units'], return_sequences=True) x = Bidirectional(lstm)(x) crf = CRF(num_cates, sparse_target=True) output = crf(x) model = Model(input_seq, output) model.compile(opts['optimizer'], loss=crf.loss_function, metrics=[crf.accuracy]) return model

代碼和數據集：

我把代碼和數據集打包了

鏈接：https://pan.baidu.com/s/1mvjPuoGRChTpIqCYrLB6VA

提取碼：z9tz

復制這段內容后打開百度網盤手機App，操作更方便哦–來自百度網盤超級會員V3的分享

醫療知識圖譜

一些干貨命令及快捷鍵（跳轉最后一行，跳轉行末等）~舒服！！！">vi/vim的一些干貨命令及快捷鍵（跳轉最后一行，跳轉行末等）~舒服！！！

2193 2025-03-31

ModelArts自動學習實現中秋月餅分類

2193 2025-03-31

【課堂筆記】C++程序設計- 第一章-緒論

2193 2025-03-31

天池下的瑞金醫院MMC人工智能輔助構建知識圖譜

一些干貨命令及快捷鍵（跳轉最后一行，跳轉行末等）~舒服！！！">vi/vim的一些干貨命令及快捷鍵（跳轉最后一行，跳轉行末等）~舒服！！！

ModelArts自動學習實現中秋月餅分類

【課堂筆記】C++程序設計- 第一章-緒論

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接