[發明專利]文本處理方法、文本處理裝置、存儲介質與電子設備在審
| 申請號: | 202210177332.1 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114548075A | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 張玉皓 | 申請(專利權)人: | 北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/232;G06F40/151 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 王輝 |
| 地址: | 100176 北京市大興區北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 存儲 介質 電子設備 | ||
本公開提供了一種文本處理方法、文本處理裝置、計算機可讀存儲介質與電子設備,屬于自然語言處理技術領域。所述方法包括:獲取待處理文本;提取所述待處理文本中的拼音序列,并將所述拼音序列劃分為多個拼音單元;基于各所述拼音單元對應的候選漢字的初始概率和轉移概率,計算表征所述拼音序列的真實漢字意圖的隱藏序列的最大概率,所述初始概率為候選漢字在文本中的出現概率,所述轉移概率為當前候選漢字后面出現下一候選漢字的概率;對具有所述最大概率的隱藏序列對應的漢字序列進行糾錯處理,生成目標漢字序列。本公開可以將拼音文本轉換為漢字文本,提高拼音文本的識別準確率。
技術領域
本公開涉及自然語言處理技術領域,尤其涉及一種文本處理方法、文本處理裝置、計算機可讀存儲介質與電子設備。
背景技術
隨著信息技術等的發展,海量的文本信息成為企業提供智能化服務的基礎,例如,在各種搜索引擎中,人們可以輸入查詢文本來獲取需要的信息。
然而,當用戶輸入的查詢文本中包含錯誤或不規范的文本信息,如錯別字或拼音序列時,則需要對錯誤和不規范的文本信息進行識別和處理,才能夠識別出用戶真正的搜索意圖。現有的糾錯處理方法主要是通過深度學習技術完成的,但這種方法往往需要大規模的語料數據,模型的復雜度也比較高,并且也不具備對拼音序列進行糾錯處理的能力。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開提供了一種文本處理方法、文本處理裝置、計算機可讀存儲介質與電子設備,進而至少在一定程度上改善現有技術無法實現拼音文本的識別的問題。
本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據本公開的第一方面,提供一種文本處理方法,所述方法包括:獲取待處理文本;提取所述待處理文本中的拼音序列,并將所述拼音序列劃分為多個拼音單元;基于各所述拼音單元對應的候選漢字的初始概率和轉移概率,計算表征所述拼音序列的真實漢字意圖的隱藏序列的最大概率,所述初始概率為候選漢字在文本中的出現概率,所述轉移概率為當前候選漢字后面出現下一候選漢字的概率;對具有所述最大概率的隱藏序列對應的漢字序列進行糾錯處理,生成目標漢字序列。
在本公開的一種示例性實施方式中,所述將所述拼音序列劃分為多個拼音單元,包括:基于預設的最大匹配長度,沿固定方向對所述拼音序列進行搜索,確定所述拼音序列中與預設拼音表中的拼音匹配的拼音串,以得到所述多個拼音單元。
在本公開的一種示例性實施方式中,所述基于各所述拼音單元對應的候選漢字的初始概率和轉移概率,計算表征所述拼音序列的真實漢字意圖的隱藏序列的最大概率,包括:按照各所述拼音單元在所述拼音序列中的順序生成包含各拼音單元的觀測序列;依據各所述拼音單元對應的候選漢字的初始概率和轉移概率,通過隱馬爾可夫模型計算所述觀測序列對應的隱藏序列的維特比概率。
在本公開的一種示例性實施方式中,所述待處理文本包括一個或多個漢字,在對具有所述最大概率的隱藏序列對應的漢字序列進行糾錯處理前,所述方法還包括:按照所述待處理文本中各所述漢字的漢字順序和所述漢字序列中各漢字對應的拼音順序,將所述待處理文本中的各個漢字和所述漢字序列中的各個漢字進行排列,生成所述待處理文本對應的漢字文本。
在本公開的一種示例性實施方式中,在對具有所述最大概率的隱藏序列對應的漢字序列進行糾錯處理,生成目標漢字序列時,所述方法包括:按照預設的糾錯規則檢測所述漢字文本中的錯誤文本,所述錯誤文本包括所述漢字文本中的錯誤漢字、錯誤詞組和錯誤語句中的任意一種或多種;使用所述錯誤文本的候選文本替換所述錯誤文本,并計算替換錯誤文本后得到的漢字序列的困惑度評分;當所述漢字文本的困惑度評分小于困惑度閾值時,將對應的漢字文本確定為所述目標漢字序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司,未經北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://m.szxzyx.cn/pat/books/202210177332.1/2.html,轉載請聲明來源鉆瓜專利網。





