中國文獻查重檢測系統

多語種 圖文 指定高校抄襲檢測系統

基于領域的數字出版物檢測系統的實現

2019-08-07 閱讀(394)

[摘 要]數字出版物的侵權檢測可以提高數字出版物的質量,凈化數字出版市場,為數字出版物的發展提供良性循環。基于出版組織所在的領域,本文利用現有的文獻檢測技術,在句子層面實現數字出版物的相似性檢測,為出版機構提供了自己的匹配。需求檢測系統。

基于領域的數字出版物檢測系統的實現

[關鍵詞]數字出版物;侵權檢測;相似性檢測

近年來,隨著國家文化工程建設的加強和數字閱讀需求的爆發性增長,數字出版物取得了前所未有的發展。在發展的同時,許多出版組織為追求利潤而忽視了數字出版物的質量,特別是在書籍,材料和其他文獻領域。反復的內容和抄襲是嚴重的,這極大地損害了原作的利益。現有的數字出版物檢測系統貪婪無情,忽略了檢測系統對出版系統的具體,精確和深刻的具體要求,造成了嚴重的資源浪費。同時,專業領域的文獻資源往往是混合的,即有書籍,報紙,一些共同開放的文件和內部資料等,檢測系統需要執行跨文檔和交叉格式檢測。大多數現有的檢測系統僅關注紙張和網頁的檢測。檢測到的對象相對簡單,并且不涉及多種格式的文檔檢測,例如書籍,材料和內部文檔。因此,如何解決專業領域數字出版物的抄襲檢測是我們迫切需要解決的重要問題。提高數字出版物的質量,凈化數字出版市場,降低編輯審查成本,減少讀者閱讀干擾因素,建立良好的市場培養能力是一些出版機構的首要任務。首先需要解決該領域的出版物剽竊現象,加強數字出版物的相似性檢測,消除劣質數字出版物的出現。本文從數字出版物涉及的領域入手,利用數字出版物的句子作為基本單元,利用現有的編輯距離檢測方法實現數字出版物在現場的相似性檢測。該檢測系統簡單,易于操作,配置要求較低,適用于各個小型出版單位,解決現場數字出版物的抄襲問題。

1相關研究文檔相似度檢測主要涉及兩個方面:一是檢測對象,即相應的數字資源。二是采用可靠的檢測技術,主要是計算相似度。首先,從檢測技術的角度來看,在文檔檢測領域,文檔相似度的比較主要從三個方面實現。一種是使用詞頻統計來實現文檔相似性的比較。該方法通常忽略文本中的低頻詞,并使用高頻詞作為相似性檢測的對象。類似的方法用于通過組合相似單詞的詞頻并組合一些特征判斷方法來實現類似的檢測。典型的是Garia-Molina等人提出的SCAM系統。 [1995年]。這種類型的檢測系統的優點是簡單和快速,缺點是結果不理想。第二種方法是通過在結構中包括與比較對象相似的單詞來檢測文檔與文檔結構的相似性。使用文檔結構實現檢測的系統通常使用文檔的章節,段落和句子作為結構處理對象,并將句子或詞的單詞或單詞作為相似度的基礎進行組合,并通過香港科技大學的Si和Leong。 1997年開發的CHECK系統[2]使用關鍵字統計和文本結構信息來實現文本相似性檢測。宋擒豹等于2003 [3]和鮑軍鵬中提出的CDSDG系統。 2006年提出的DCDGrid系統[4]也使用檢測系統中的文檔和句子結構。楊思春提出了一種改進的句子相似度計算模型,它使用關鍵詞提取,結合同義詞比較,并使用單詞形式加詞序來計算句子相似度[5]。程克明以文本的結構和內容為檢測對象,從文本中提取目錄樹作為目錄樹,并使用關鍵詞統計和加權樹結構實現文獻的相似性檢測[6]。從結構出發可以大大提高測試結果的質量,但是檢測效率還需要提高。最后一個是使用數字指紋方法來實現文檔相似性檢測。通過對文檔的字符串執行哈希獲得數字指紋,以獲得字符串的不同哈希值,形成“數字指紋”,并在哈希表中使用相同數量的指紋或比率作為字符串的基礎相似性比較,然后獲得文件的相似性。通常,亞利桑那大學的Manber在1994年提出了一個Sif工具[7],使用字符串哈希計算作為檢測值來在大型文件系統中查找類似的文檔。 1995年,布林等人。在斯坦福大學提出了COPS系統[8]。 1996年,Heintze的KOALA系統[9]和后來的Broder's Shingling算法[10]和Charikar的Simhash算法[11]基于近似指紋特征。字符串匹配算法執行復制檢測。數字指紋識別速度快,適用于大量數據之間的相似度計算,因此被廣泛使用。近年來,隨著語義技術的發展,語義技術與相似性檢測的融合已成為相似性檢測的趨勢。中國人民大學夏季提出的xsimilarity項目實現了基于單詞的語義相似性檢測[12]。同時,相似性檢測還有許多其他相似之處。例如,斯坦福大學的Alex Aiken于1994年開發了MOSS系統,以實現各種表達語言(如代碼和文本)的相似性檢測[13]。其次,從檢測對象領域來看,大多數檢測系統不涉及書籍,報紙,資料等的檢測,只關注期刊,論文和網頁的檢測,大多數檢測系統采用全盤檢測掃描模式,沒有現場劃分。 。以中國已知網絡CNKI為例,在侵權檢測方面有三個子系統:《科技期刊學術不端文獻檢測系統(AMLC)》,《學位論文學術不端行為檢測系統(TMLC2)》,《社科期刊學術不端文獻檢測系統(SMLC)》。他們都使用《中國學術文獻網絡出版總庫》作為全文比較數據庫,可以檢測文盲和抄襲,偽造,偽造,不正當簽名,多次提交和其他學術不端行為,期刊編輯部可以使用它來測試手稿并發表文獻[14]。 。這種方法大大提高了召回率,但它也消耗了大量資源來處理不同的內容領域,即使是由于醫學,物理學和文學之間的相似性檢測,這會產生一些無意義的結果。

由于出版商(尤其是某些專業出版商)擁有相對固定的業務領域,因此他們經常需要處理特定領域的文檔,并且不需要來自其他領域的文獻作為其存儲庫的一部分。同時,由于日常工作的積累,它不僅有一些規范性文件,而且還有一些不規范的內部數據,這些文件不受許多檢測系統的支持。因此,一些當前的檢測系統不適合當前的出版組織,尤其是一些專業出版商。

當前頁數:1/2首頁上一頁12下一頁尾頁

高校知網查詢

相關文章

11选五赚钱方法