<bdo id="4g88a"><xmp id="4g88a">
  • <legend id="4g88a"><code id="4g88a"></code></legend>

    數據標注工具 doccano | 命名實體識別(Named Entity Recognition,簡稱NER)


    命名實體識別(Named Entity Recognition,簡稱NER),是指識別文本中具有特定意義的實體。在開放域信息抽取中,抽取的類別沒有限制,用戶可以自己定義。

    安裝

    詳見:數據標注工具 doccano | 文本分類(Text Classification)

    數據準備

    上傳的文件為txt格式,每一行為一條待標注文本,示例:
    corpus.txt 隨便找了幾個,一般都是垂直領域的數據標注

    (右肝腫瘤)肝細胞性肝癌(II-III級,梁索型和假腺管型),腫瘤包膜不完整,緊鄰肝被膜,侵及周圍肝組織,未見脈管內癌栓(MVI分級:M0級)及衛星子灶形成。(腫物1個,大小4.2×4.0×2.8cm)。
    患者20天前無明顯誘因出現左側胸背部持續性疼痛,于2025.02.01下城區中西醫結合醫院查胸部CT平掃示:右下肺少許炎癥;肺氣腫;慢性胰腺炎;建議追蹤復查
    雙肺透亮度可,左下肺背段見一類圓開/結節影,大小約27X28mm,周圍可見片狀密度增高影,病變局部與胸膜粘連
    

    創建項目

    UIE 支持抽取與分類兩種類型的任務,根據實際需要創建一個新的項目:

    創建抽取式任務

    image
    image

    上傳

    image
    NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四種數據上傳格式,UIE定制訓練中統一使用TextLine這一文件格式,即上傳的文件需要為txt格式,且在數據標注時,該文件的每一行待標注文本顯示為一頁內容。

    定義標簽

    構建抽取式任務標簽

    抽取式任務包含Span與Relation兩種標簽類型,Span指原文本中的目標信息片段,如實體識別中某個類型的實體,事件抽取中的觸發詞和論元;Relation指原文本中Span之間的關系,如關系抽取中兩個實體(Subject&Object)之間的關系,事件抽取中論元和觸發詞之間的關系。
    以 corpus.txt 中的第一條數據為例(醫療場景-專病結構化):
    image
    image
    image
    image

    任務標注

    命名實體識別

    image
    image
    image

    導出數據

    選擇導出的文件類型為JSONL(relation),導出數據示例:
    image

    查看數據

    image

    標注數據保存在同一個文本文件中,每條樣例占一行且存儲為json格式,其包含以下字段

    • id: 樣本在數據集中的唯一標識ID。
    • text: 原始文本數據。
    • entities: 數據中包含的Span標簽,每個Span標簽包含四個字段:
      • id: Span在數據集中的唯一標識ID。
      • start_offset: Span的起始token在文本中的下標。
      • end_offset: Span的結束token在文本中下標的下一個位置。
      • label: Span類型。
    • relations: 數據中包含的Relation標簽,每個Relation標簽包含四個字段:
      • id: (Span1, Relation, Span2)三元組在數據集中的唯一標識ID,不同樣本中的相同三元組對應同一個ID。
      • from_id: Span1對應的標識ID。
      • to_id: Span2對應的標識ID。
      • type: Relation類型。

    應用實例

    PaddleNLP UIE -- 藥品說明書信息抽取(名稱、規格、用法、用量)

    posted @ 2024-06-24 15:30  VipSoft  閱讀(249)  評論(0編輯  收藏  舉報
    免费视频精品一区二区_日韩一区二区三区精品_aaa在线观看免费完整版_世界一级真人片
    <bdo id="4g88a"><xmp id="4g88a">
  • <legend id="4g88a"><code id="4g88a"></code></legend>