商品簡介
目標專利的權利要求項給無效掉,這不就實現人工智能自動判定專利無效了麼?一切似乎
很簡單。但照著這個思路來,我們的結果始終不行。
直到後來的一件事改變了我的想法。
那是 2019年 6月 24日,我旁觀了在清華大學舉辦的第三屆中國專利檢索技能大賽決賽,這是一個國內專利檢索領域頂尖高手齊集的盛會,專利無效的檢索和判定是競技重點。賽後我意識到,我把專利無效流程想得過於簡單了。
那麼一線審查員眼裡的專利無效流程究竟是個什麼樣子呢?
步驟仍然是專利檢索和無效判定兩步,但操作和想象中完全不同。
先說專利檢索,照我原來的想法,就是從一次檢索的結果中挑出可能的若干件對比文件就 OK了。事實上,即便對於領域知識和檢索經驗極其豐富的審查員,一出手就能寫出精確匹配到對比文件的檢索條件也是件極其困難的事情,但一旦找出第一件有效的對比文件,利用它的信息去查找其他對比文件就會容易很多,換句話說,專利檢索用的是一種類似探案的方式在查找對比文件,難點在於找到突破口,但一旦突破口有了,其他對比文件的發現只是順藤摸瓜的事。
再說無效判定,它的原因很多。例如,某項專利的說明書不支持它的權利要求項,權利要求項中提及的必要技術特徵和當前技術現狀之間缺乏必要環節,對比文件對目標專利的啟發作用顯而易見等。外加一方面專利對文字表述要求寬松,如吸塵器可以寫成“龍卷風製造裝置”、文件掃描儀被描述為“光線掃描裝置”;另一方面又對文字表述要求極嚴,如刀片製作工藝中的“切削”和“衝壓”,一詞之差,千差萬別。用機器學習技術實現專利無效判定,需要超出專利本身的書面描述,通過綜合常識和領域知識來發現不同技術之間的聯繫和區別,而這些早已超出了目前機器學習在專利挖掘上的研究水平。
雖然現實冰冷,但這並不妨礙我們站在人工智能的肩膀上,去做一些力所能及的事情,這也構成了這本書的內容。雖然從形式上說,它是一系列機器學習技術的匯總,但從內容上說,更多是在智能算法和數據視角下,對一些專利挖掘任務的解剖和重新解讀。當然,人工智能和專利數據這對組合所昭示的藍海極其浩瀚,我們的研究範圍不能覆蓋其萬一,而現階段基本成形、可以寫到專著中的內容就更少了。但我也不可能等手頭上的研究都有了明確結論再考慮出書的事,那樣的話這本書將永遠完不成,因為走得越遠就越會引出精彩的問題,而之前的研究就會越發顯得無足輕重。於是,我決定將一部分內容先整理出來,至於其他內容,可以以版本更新或者另起爐灶的方式補充進來。
但即便是這一部分內容,也充斥著各種失敗、復盤、問題診斷和算法迭代更新。畢
竟我們耕耘的是一個橫跨知識產權和人工智能兩大學科的交叉領域,我們需要一方面和知識產權從業的人們一起感受大數據帶來的困擾;另一方面緊隨人工智能不斷擴大的技術邊界,去實時刷新解決這些困擾的可能性。雖然放眼望去硬骨頭俯拾皆是,有些甚至在短期內看不到解決的希望,但長遠來看及早耕耘是必需的,即便沒有坦途,沿著曲徑通幽的小路我們依然能做很多事情,並且在不斷深化對問題的認識基礎上逼近真實答案。
這是最好的時代,每天涌現的智能技術和信息資源都有機會和知識產權服務發生激烈碰撞和融會貫通,並實現之前認為是不可能的任務。實際上,我們團隊面臨的是海量靈感和人丁單薄之間的矛盾。這並不奇怪,在整個行業要解決的問題面前,一個小小的團隊實在微不足道。但換個角度來說,能在喜歡的事情上去投入、去思考、去提出問題和尋找答案、去一睹歷經曲折才得以盡收眼底的美景,這本身就是一種極大的樂趣,你經常有機會去重新審視、反思目前的專利挖掘方法、工具和實踐經驗,條件合適時還可以動手建模和實證分析,從而獲得更深刻的理解和啟示。但話說回來,這也是一種折磨,如影隨形、無法擺脫,畢竟建模型、推公式、“擼”代碼、做實驗、復盤查錯、撰寫論文意味著巨大的工作量和結果並不確定的過程,在正向實驗結果出現之前,甚至在研究成果正式出版之前,研究者始終處於一種受苦受難的狀態:先被科學規律“吊打”,後被審稿人“吊打”。
但最終這本記錄我一個階段工作的書籍得以完成,需要感謝的人很多。首先是我的家人,感謝你們的寬容、理解和支持,我才得以免除家務活的“勞役”,業余時間宅在家裡心安理得地“打計算機”;然後是我的良師益友張靜副研究員、曹燕研究員、雷孝平研究員、贠強研究員、王弋波副研究員、牟琳高級工程師和魏超博士,也許只有被蝸居、內卷、搖號等關鍵詞纏身,才更能體會跟知識豐富、思維敏捷、豁達開朗且樂於分享的人共事是一件多麼幸運的事;感謝北京工業大學的徐碩教授、中國人民大學的楊冠燦副教授和山東理工大學的許海云教授,沒有你們,我將在天花板前躑躅相當長一段時間,而學術探索道路也會少了很多樂趣;感謝姚長青副所長、桂婕主任、屈寶強副主任等單位和部門領導的支持和信任,讓我得以參與與知識產權相關的重要工作,這些工作極大豐富了知識、開闊了視野;再就是我可愛的研究生們,他們是郭詩琪、何曉敏、茍妍、師英昭、陳利利、劉聰、余池等同學,感謝你們的辛勤工作和刻苦鉆研,許多想法才能在較短時間內完成落地驗證,更重要的是,在感受你們優秀的同時,也在倒逼著我不斷提升自己,告誡自己不要成為學生眼裡的“大廢物”;除了上述領導、老師、朋友和同學以外,還有許多指導和幫助過我,甚至在某個階段起到至關重要作用的人,這裡一並表示感謝。
最後,這本書是以研促教、教研相長的產物,它可以供從事專利挖掘、機器學習研究的高年級本科生、研究生、教師閱讀,也可以作為相關領域研究者的參考書。本書在成書過程中得到了國家自然科學基金(項目編號:71704169)、國家科學技術學術著作出版基金和我所在單位研究生部的資助,尤其感謝研究生部在這本書擬題階段經費不足時雪中送炭,為我免除了後顧之憂。本書內容涉及領域技術、法律法規、數據科學、機器學習等方方面面的知識,對研究者的能力和素質要求很高,而我水平有限,更兼國內外在這一方向的研究工作雖然百花齊放,但就現階段而言並未形成占據主導地位的方法技術、研究範式和行業生產力,可供參考的內容繁多雜亂、水平參差不齊。雖然我在本書寫作中投入了大量時間精力,但書中仍然難免存在不足和疏漏,我真誠期待各位專家學者和讀者朋友們提出寶貴的意見和建議,也希望與更多業界同人形成合力,來發現行業真問題、解決用戶真痛點,讓人工智能技術深度賦能專利挖掘,創造更為廣闊的價值空間。
目次
第1章緒論:專利挖掘研究進展一覽 001
第2章信息抽取:從專利文本中抽取結構化信息 032
第3章聯合模型:利用專利特點提升語義關係的分類效果 052
第4章主題模型:利用技術分類號輔助專利主題抽取 072
第5章姓名消歧:讓計算機高效、精準地辨別發明人 091
第6章語義主路徑:讓知識演化脈絡主題分明 106
第7章對比文件查找:知識產權領域的智能法律實踐 125
第8章前瞻:大語言模型時代的專利挖掘研究 144
附錄一各類任務上的專利數據集匯總151
附錄二PC-LDA推導過程 156
附錄三DP-BFS算法的空間複雜度推導 158
參考文獻160
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。