什么是百度的垂直搜索引擎

2019/10/12 10:24:54  /  ?????
0

介垂直搜索引擎(Vertical Search Engines),是與綜合(或通用)搜索引擎相對的一個概念,就是有針對性地為某一特定領域、某一特定人群或某一特定需求提供有專門的信息檢索服務,以滿足用戶個性化的信息需求。垂直搜索引擎也常常被稱為專業搜索引擎(Specialty Search Engines)、專題搜索引擎(Topical Search Engines),是通過對專業特定的領域或行業的內容進行專業和深入的分析挖掘、過濾篩選,信息定位為更精準的專業搜索,實際上是搜索引擎的細分和延伸。 [1] 垂直搜索引擎的價值在于其占有的信息資源的數量,能否提供全面權威的行業信息,能否最大限度擁有行業資源是垂直搜索引擎發展的關鍵。從某種意義上講,行業門戶網站是垂直搜索引擎嫡親的父母,同時也是往往不能分割的有機整體。

數據特點(1)數據來源垂直搜索引擎的數據來源有兩個方面:①來源于所處行業的相關站點。②來源于自身平臺:來源于自身平臺的搜索常被認為是“站內搜索”。但是,當某一平臺上的信息達到足夠量大的時候,其實就是一種垂直搜索。況且,垂直搜索本身就是從這些行業站點提取出數據的。(2)數據特性垂直搜索引擎的數據傾向于結構化和格式化。例如,在某個購物類的垂直搜索引擎上輸入“MP3”就會出現該產品的相關屬性,如內存、尺寸、大小、電池型號、價格、生產廠家等相關技術屬性,有的還提供比價服務。在某餐飲搜索引擎的高級搜索針對一家餐館的搜索屬性設置多達300個選項,把想到和沒想到都列出來了,這就把搜索服務專業化、細致化、個性化了 [1] 。

工作模式就垂直搜索引擎的工作模式來說,很多垂直搜索引掌是依靠人工或者半人工的方式來提取結構化信息的,但近年智能化的非結構化信息提取技術取得了重大進展,在一些領域也得到了有效應用。具體而言,垂直搜索引擎的Spider更加專業化和可定制化,其能夠定向采集與垂直搜索范圍相關的網頁,對內容相關的以及適于進一步處理的網頁進行優先采集。其信息采集可以通過人工設定網址和網頁分析等方式共同進行,在定向分字段抽取出所需要的數據并處理后再以某種形式返回給用戶。比如,購物搜索引擎的整體工作流程大致如下:在Spider抓取網頁后,對網頁中的商品信息進行抽取,抽取出商品名稱、價格、簡介等信息,然后對信息進行比較、去重、分類,最后提供給用戶搜索,還可以通過分析挖掘為用戶提供市場行情報告。 [1]

特點①實時性:垂直搜索引擎需要獲取的信息來自于某一特定領域,這比起通用搜索引擎漫無邊際的信息抓取,有一個非常大的優勢,那就是信息的實時性。由于互聯網上的信息量非常巨大,通用搜索引擎的數據更新周期短則十幾天,長則幾個月,而垂直搜索引掌的數據更新完全可以以秒為單位。②數據挖掘分析、BI、報表:行業的歷史發展、最新動向、趨勢都是行業從業人員非常關注的話題。垂直搜索引擎集中了行業海量的信息和數據,基于這些信息和數據的商務智能分析,將為行業創造非常有價值的信息增值服務。③個性化、社會化;查詢服務只是垂直搜索引擎的一部分,垂直搜索引掌在用戶的個性化方向的發展非常重要。垂直搜索引擎不能只提供一個窗口,它應該是一個用戶高度參與交互的社會化平臺。這不光是用戶粘度、忠誠度的問題,更為重要的是,垂直搜索引擎需要能夠獲取并且分析用戶的偏好信息,從而提供更加完善而且準確的數據服務。④智能化語義網:語義網(semantic web)將有可能成為下一代互聯網,此類網絡上的數據和信息將被計算機程序所理解。這將為垂直搜索引掌提供一個巨大的機會,Spider程序如果能理解網絡上的數據,將對信息的收集和整理更加準確和專業,搜索服務的查全率和查準率將更高。⑤多元化查詢:目前的搜索引擎,都只局限于關鍵字搜索,其中主要的原因是,對用戶的查詢需求無法建模,無法模式化。而關鍵字搜索帶來的問題是,搜索結果過多,并且不準確?;ヂ摼W信息量越大,這種情況越嚴重,可以說是災難 [2] 。

與通用搜索的區別(1)信息處理的區別垂直搜索引擎和普通的網頁搜索引擎的最大區別是對網頁信息進行了結構化信息抽取,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基于視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。然后將這些數據存儲到數據庫,進行進一步的加工處理,如去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。舉個例子來說明會更容易理解,比如購物搜索引摹,整體流程大致如下:抓取網頁后,對網頁商品信息進行抽取,抽取出商品名稱、價格、簡介……甚至可以進一步將筆記本式計算機簡介細分成品牌、型號、CPU、內存、硬盤、顯示屏……然后對信息進行清洗、去重、分類、分析比較、數據挖掘,最后通過分詞索引提供用戶搜索、通過分析挖掘提供市場行情報告。在整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理后以非結構化的方式和結構化的方式返回給用戶。(2)信息采集的區別垂直搜索引擎技術同信息采集技術不同的是,信息采集主要是將采集的信息導入本地數據庫,而垂直搜索引擎主要是以網頁的形式展現給用戶。通用搜索引擎主要是利用Spider程序到網絡上搜索,一般是某個特定的周期派出一次將網頁更新,垂直搜索引擎同樣應有Spider程序,但該程序只在一些特定的網絡上爬行,并不會對每一個鏈接都感興趣。相對來說,垂直搜索引擎的收錄范圍大大縮小了,但并不意味著內容的縮小,通用搜索引擎對一些動態腳本是不敏感的。另外,由于目前網頁中的鏈接形式非常多,不但有動態腳本也有Flash做鏈接,這些鏈接方式通過傳統的Spider程序是很難解析出來的,在垂直搜索引掌中也應該解決 [2] 。

關鍵技術由于垂直搜索引擎服務具有其自身的特性,因此其技術要求特點上與通用搜索引擎有很多不同之處,主要有四大關鍵技術。(1)聚焦、實時和可管理的網頁采集技術一般互聯網搜索面向全網信息,采集的范圍廣、數量大,但往往由于更新周期的要求,采集的深度或說層級比較淺,采集動態網頁優先級比較低,因而被稱為水平搜索。而垂直搜索帶有專業性或行業性的需求和目標,所以只對局部來源的網頁進行采集,采集的網頁數量適中。但其要求采集的網頁全面,必須達到更深的層級,采集動態網頁的優先級也相對較高。在實際應用中,垂直搜索的網頁采集技術能夠按需控制采集目標和范圍、按需支持深度采集及按需支持復雜的動態網頁采集,即采集技術要能達到更加聚焦、縱深和可管控的需求,并且網頁信息更新周期也更短,獲取信息更及時。(2)從非結構化內容到結構化數據的網頁解析技術水平搜索引擎僅能對網頁的標題和正文進行解析和提取,但不提供其時間、來源、作者及其他元數據的解析和提取。由于垂直搜索引擎服務的特殊性,往往要求按需提供時間、來源、作者及其他元數據解析,包括對網頁中特定內容的提取。例如,在論壇搜索、生活服務、訂票服務、求職服務、風險信用、競爭情報、行業供需、產品比較等特定垂直搜索服務中,要求對于作者、主題、地區、機構名稱、產品名稱以及特定行業用語進行提取,才能進一步提供更有價值的搜索服務。(3)精、準、全的全文索引和聯合檢索技術水平搜索引擎并不能提供精確和完整的檢索結果,只是給出預估的數量和排在前面部分的結果信息(TOPN),但響應速度是水平搜索引擎所追求的最重要因素。在文本索引方面,它也僅對部分網頁中特定位置的文本而不是精確的網頁正文全文進行索引,因而其最終檢索結果是不完全的。垂直搜索由于在信息的專業性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結果排序方式,例如按內容相關度排序(與水平檢索的page rank不同)或按時間、來源排序。另外,一些垂直搜索引擎還要求按需支持結構化和非結構化數據聯合檢索,如結合作者、內容、分類進行組合檢索等。(4)高度智能化的文本挖掘技術垂直搜索與水平搜索的最大區別是,它對網頁信息進行了結構化信息抽取加工,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基于視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位?;诮Y構化數據和全文數據的結合,垂直搜索才能為用戶提供更加到位、更有價值的服務。整個結構化信息提取貫穿從網頁解析到網頁加工處理的過程。同時,面對上述要求,垂直搜索還能夠按需提供智能化處理功能,如自動分類、自動聚類、自動標引、自動排重,文本挖據等。這部分是垂直搜索乃至信息處理的前沿技術,雖然尚不夠成熟,但有很大的發展潛力和空間,并且目前在一些海量信息處理的場合已經能夠起到很好的應用效果 [2] 。

應用價值垂直搜索從海量的商訊中直接選出用戶最需要的供求信息、買(賣)家背景資料、交易方式、服務跟蹤等,它既是大量相關產品、企業信息的展示平臺,又是行業網站、電子商務的聚合平臺,中小企業通過它可獲得傳統門戶網站、通用搜索無法提供的閉合式網絡體驗,這種附加值就是細分市場巨大的商業價值所在??偨Y起來,垂直搜索引擎在企業中的應用價值包括:1.整合企業內外資源,打造企業競爭情報系統的核心引擎企業的競爭情報信息既包括外部的互聯網信息、商業數據庫信息等,也包括內部的辦公文檔資料、內部交流信息等。垂直搜索引擎是整合這些內外信息資源的有效手段之一,在資源整合的基礎上,形成以情報規劃、情報采集、情報加工、情報服務、評估反饋為全生命周期的、完善的、統一的企業競爭情報平臺,為企業的風險預警和決策支持提供信息服務。2.高效采集和組織管理企業內外網門戶信息,使信息共享更加便捷、有序隨著企業信息化的發展和深入,為了提高企業內部、企業和客戶、企業和供應商之間的信息傳遞和共享速度,加速企業的業務進程,大部分企業(特別是分支機構較多的大型集團性企業)都建立了內外網服務門戶,以便通過垂直搜索引擎高效地采集內外網門戶信息,為企業職工、客戶、供應商提供統一的信息檢索入口,并通過權限控制實現安全的檢索服務,使得信息的傳遞和共享更加便捷和有序。 [3]

應用領域垂直搜索引擎的應用方向很多,比如企業庫搜索、供求信息搜索、購物搜索、房產搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索、工作搜索、交友搜索等,幾乎各行各業、各類信息都可以進一步細化成各類垂直搜索引擎。(一)音樂搜索除必應外,各搜索引擎都提供了音樂搜索服務,支持各種格式的音樂文件的搜索,并提供了各種榜單、音樂專題和挑歌功能。(二)視頻搜索除了谷歌,其他的搜索引擎都有其獨立的視頻搜索頁面,并提供了視頻分類搜索。(三)新聞搜索各搜索引擎都提供了分類搜索,例如,百度提供了國際、國內、體育、娛樂等16個分類的新聞搜索。(四)圖書搜索目前僅有百度與谷歌提供了圖書搜索的服務,因為涉及到版權的關系,只有那些已不再受版權保護或出版商已授權搜索引擎的圖書,才會提供給用戶預覽。只有在某些情況下,用戶才可以查看全文內容,如公眾領域的圖書。對于那些無法預覽或下載的圖書,搜索引擎則提供了借閱或購買該書的渠道。(五)地圖搜索地圖搜索一般用于公交、行車路線的搜索,但大多數搜索引擎都集合了其他生活信息的搜索,如餐飲、住宿、出游、企業等信息的搜索。(六)財經搜索財經搜索主要提供股市報價、資訊、貨幣匯率等信息的搜索,目前僅有谷歌和百度提供了財經信息的垂直搜索。在谷歌財經的首頁上,可以看到各個主要板塊的當前行情,將鼠標移到條線圖上時可以看到該板塊的一些詳細的漲跌信息。谷歌還提供了“股票篩選器”的服務,為用戶選擇投資對象提供了便利。(七)圖片搜索各搜索引擎都提供了圖片搜索服務,并提供了內容類型、圖片尺寸、文件類型、圖片顏色、圖片版式甚至圖片風格等條件的限定搜索。必應、谷歌提供的是一頁式瀏覽結果,其他幾款搜索引擎提供的則是傳統的分頁式瀏覽。 [4]

發展趨勢隨著新技術的發展和門檻的降低,垂直搜素引擎將向著以下適應不同用戶需求的方向不斷發展。(1)目錄精細化方向發展。由于垂直搜索引擎相對于綜合搜素引擎的最大優勢,是對信息進行深度的、精細化的處理。與早期的網址分類搜索引擎相似,但垂直搜素引擎只選定了某一特定行業或某一主題進行目錄的細化分類,結合機器抓取行業相關站點的信息提供專業化的搜素服務。這種專業化的分類目錄,很容易讓用戶迅速知道自己要找的是什么,并且按目錄點擊就能找到。未來的垂直搜素引擎將會更加精細的劃分不同的行業,用戶想要什么就可以得到什么。(2)深度挖掘分析元數據。其特點是:元數據模型再組織、再整合、深度數據挖掘、互動性。通過對元數據信息進入深度加工,該類垂直搜素引擎為用戶提供綜合搜素引擎無法做到的專業性、功能性、關聯性,有的加入了用戶信息管理以及信息發布互動功能,能很好地滿足了用戶對專業性、準確性、功能性、個性化的需求。(3)向交易平臺發展。垂直搜素引擎由于自身對行業的專注,使得它可以提供行業信息深度和廣度的整合提供更加細致周到的服務。對消費領域可以推出針對某一行業的搜索交易平臺。搜索交易平臺提供行業內商家和顧客直接溝通、咨詢不再需要轉到第三方平臺再進行交易。(4)本地搜索。本地搜索的關鍵需求在于人們大多是在本地購物、就餐、娛樂、健身、修車、工作等

昆明網站制作
昆明網站建設

Give me a message

給我留言:您可以通過以下方式聯系我們,或在頁面右側給我們留言

CONTACT US

昆明網站建設公司——昆明睿騰科技有限公司
昆明網站建設公司
官方微信

(掃一掃二維碼關注官方微信)

昆明網站建設公司

136-2942-8065

咨詢熱線:0871-68365691、68365692、68365693、68365694、 68365695、68365696、68365697、68365698、68365699、68365700

傳真:0871-65127537

地址:云南.昆明市.龍泉路實力壹方城6棟1702號

業務:昆明網站建設;昆明網站制作;云南網站建設;昆明網站制作公司;云南網站制作公司;昆明網絡公司;云南網絡公司

事務郵件:294805437@qq.com

合作伙伴

友情鏈接

本站只交換PR≥4 百度BR≥1 快照≤7天的網絡公司同行網站【申請鏈接】

售前咨詢

QQ在線客服 QQ在線客服 QQ在線客服 QQ在線客服

售后服務

QQ在線客服 QQ在線客服 QQ在線客服

投訴建議

QQ在線客服
性视频一区二区三区_久久se精品一区精品二区_日韩AV无码久久精品免费_亚洲日韩视频精品一区