[發(fā)明專利]知識庫的構(gòu)建方法及裝置、存儲介質(zhì)、計(jì)算設(shè)備有效
| 申請?zhí)枺?/td> | 201710706041.6 | 申請日: | 2017-08-17 |
| 公開(公告)號: | CN107526795B | 公開(公告)日: | 2020-05-29 |
| 發(fā)明(設(shè)計(jì))人: | 湯奇峰;齊煒 | 申請(專利權(quán))人: | 晶贊廣告(上海)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/289 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 張振軍;吳敏 |
| 地址: | 200072 上海市閘北區(qū)靈*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 知識庫 構(gòu)建 方法 裝置 存儲 介質(zhì) 計(jì)算 設(shè)備 | ||
一種知識庫的構(gòu)建方法及裝置、存儲介質(zhì)、計(jì)算設(shè)備,所述方法包括:確定行業(yè)標(biāo)準(zhǔn)詞庫,以及與所述行業(yè)標(biāo)準(zhǔn)詞庫對應(yīng)的有用詞規(guī)則和停用詞規(guī)則;基于所述有用詞規(guī)則從原始短語中提取有用詞語;對所述原始短語進(jìn)行分詞,以得到多個詞語;如果所述多個詞語中包含與所述行業(yè)標(biāo)準(zhǔn)詞庫中的標(biāo)準(zhǔn)詞匹配的詞語,那么將所述匹配的詞語按照在所述原始短語中的位置關(guān)系組合,以得到組合詞語;將所述組合詞語與所述有用詞語組合以得到第一新短語,并將所述第一新短語加入知識庫。采用本發(fā)明技術(shù)方案能夠?qū)㈦s亂無序的文本數(shù)據(jù)處理為規(guī)范有序,具有結(jié)構(gòu)化數(shù)據(jù)格式的行業(yè)知識庫,方便后續(xù)數(shù)據(jù)處理,有利于提高行業(yè)信息和行業(yè)知識的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理領(lǐng)域,特別涉及一種知識庫的構(gòu)建方法及裝置、存儲介質(zhì)、計(jì)算設(shè)備。
背景技術(shù)
現(xiàn)代大數(shù)據(jù)處理的信息大部分來自于互聯(lián)網(wǎng)。互聯(lián)網(wǎng)數(shù)據(jù)包括互聯(lián)網(wǎng)上的公開數(shù)據(jù)或者爬蟲爬取的數(shù)據(jù)等海量數(shù)據(jù)。互聯(lián)網(wǎng)數(shù)據(jù)來源多樣,格式多樣;信息特征不明顯、不規(guī)整、不易讀,有很多干擾信息;數(shù)據(jù)存在沖突,甚至存在錯誤。這些沖突的或者錯誤的“臟數(shù)據(jù)”如果出現(xiàn)在統(tǒng)計(jì)結(jié)果中,不僅可能引起歧義,甚至也會得出錯誤的結(jié)論。因此,在基于互聯(lián)網(wǎng)數(shù)據(jù)的大數(shù)據(jù)處理中,現(xiàn)有技術(shù)一般采用數(shù)據(jù)清洗技術(shù)處理臟數(shù)據(jù)。所謂數(shù)據(jù)清洗,是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中的錯誤,對數(shù)據(jù)進(jìn)行審查和校驗(yàn)的過程。數(shù)據(jù)清洗的目的在于刪除重復(fù)和冗余信息,糾正錯誤,獲取一致性數(shù)據(jù),方便后續(xù)的數(shù)據(jù)處理和分析。
但是,如何將雜亂無序的短語數(shù)據(jù)(也即原始短語)處理為規(guī)范有序,結(jié)構(gòu)一致的行業(yè)知識庫的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題是如何將雜亂無序的原始短語處理為規(guī)范有序,結(jié)構(gòu)一致的行業(yè)知識庫。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供一種知識庫的構(gòu)建方法,包括:確定行業(yè)標(biāo)準(zhǔn)詞庫,以及與所述行業(yè)標(biāo)準(zhǔn)詞庫對應(yīng)的有用詞規(guī)則和停用詞規(guī)則;基于所述有用詞規(guī)則從原始短語中提取有用詞語;對所述原始短語進(jìn)行分詞,以得到多個詞語;如果所述多個詞語中包含與所述行業(yè)標(biāo)準(zhǔn)詞庫中的標(biāo)準(zhǔn)詞匹配的詞語,那么將所述匹配的詞語按照在所述原始短語中的位置關(guān)系組合,以得到組合詞語;將所述組合詞語與所述有用詞語組合以得到第一新短語,并將所述第一新短語加入知識庫。
可選的,所述的知識庫的構(gòu)建方法還包括:如果所述多個詞語中不包含與所述行業(yè)標(biāo)準(zhǔn)詞庫中的標(biāo)準(zhǔn)詞匹配的詞語,那么基于所述停用詞規(guī)則從所述原始短語中刪除停用詞語,以得到刪除后詞語;將所述刪除后詞語與所述有用詞語組合以得到第二新短語,并將所述第二新短語加入所述知識庫。
可選的,所述將所述刪除后詞語與所述有用詞語組合以得到第二新短語包括:如果所述刪除后詞語與所述有用詞語重復(fù),那么刪除重復(fù)的內(nèi)容后進(jìn)行組合,以得到所述第二新短語。
可選的,所述行業(yè)標(biāo)準(zhǔn)詞庫中的標(biāo)準(zhǔn)詞包括:從公開數(shù)據(jù)和/或網(wǎng)絡(luò)爬蟲爬取的數(shù)據(jù)中獲取的標(biāo)準(zhǔn)詞。
可選的,所述有用詞規(guī)則和所述停用詞規(guī)則由正則表達(dá)式定義。
可選的,所述將所述組合詞語與所述有用詞語組合以得到第一新短語包括:如果所述組合詞語中包含的匹配的詞語與所述有用詞語重復(fù),那么刪除重復(fù)的內(nèi)容后進(jìn)行組合,以得到所述第一新短語。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例還提供一種知識庫的構(gòu)建裝置,包括:確定模塊,適于確定行業(yè)標(biāo)準(zhǔn)詞庫,以及與所述行業(yè)標(biāo)準(zhǔn)詞庫對應(yīng)的有用詞規(guī)則和停用詞規(guī)則;提取模塊,適于基于所述有用詞規(guī)則從原始短語中提取有用詞語;分詞模塊,適于對所述原始短語進(jìn)行分詞,以得到多個詞語;第一詞語組合模塊,如果所述多個詞語中包含與所述行業(yè)標(biāo)準(zhǔn)詞庫中的標(biāo)準(zhǔn)詞匹配的詞語,那么所述第一詞語組合模塊適于將所述匹配的詞語按照在所述原始短語中的位置關(guān)系組合,以得到組合詞語;第一封裝模塊,適于將所述組合詞語與所述有用詞語組合,以得到第一新短語,并將所述第一新短語加入知識庫。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于晶贊廣告(上海)有限公司,未經(jīng)晶贊廣告(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://m.szxzyx.cn/pat/books/201710706041.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





