亚洲A级毛片一级|亚洲精品无码白丝流白浆在线播放|人人人淡人人澡人人人妻|中文字幕不卡在线v

<ul id="wmksw"></ul><menu id="wmksw"><noscript id="wmksw"></noscript></menu>
<strike id="wmksw"><code id="wmksw"></code></strike>
<dfn id="wmksw"></dfn>
<dfn id="wmksw"></dfn>
  • 首頁 > 科技 > 互聯(lián)網 > 正文

    雅虎開源web爬蟲工具Anthelion,能解析網頁結構化數據

    文章來源:IT經理網
    字體:
    發(fā)布時間:2016-07-29 14:51:46

    yahoo-alibaba-group-china

    雅虎近日宣布開源web爬蟲工具Anthelion,該工具可以解析HTML頁面中的結構化數據。

    Web爬蟲是雅虎的核心技術,因此雅虎在這個領域發(fā)布開源工具顯得不同尋常。此前雅虎剛剛宣布將剝離一些核心業(yè)務(但不包括阿里巴巴的股份),此外雅虎首席執(zhí)行官Marissa Mayer剛剛生下雙胞胎。

    去年在上海的一個信息知識管理會議上,雅虎曾在一篇論文中詳細介紹了Anthelion。該論文的作者指出:“雅虎的爬蟲技術開創(chuàng)了業(yè)界的先河,那就是專注于那些通過Microdata、Microformats或RDFa等markup語言嵌入HTML頁面的語義數據。

    Microdata和RDFa是標記不同結構化數據的句法格式,他們都兼容Schema.org的結構化數據詞匯庫,而Schema.org是谷歌、雅虎和Bing搜索引擎共同支持的項目。

    雅虎研究人員還在論文中展示了Anthelion爬蟲技術的部署如何提高了搜索查詢的相關結果數量。

    Anthelion的源代碼目前已經托管到GitHub,作為Apache Nutch開源web爬蟲項目的一個組件。

    雅虎研究人員在Tumblr發(fā)博文指出,Anthelion能定向檢索特定網頁,例如那些使用markup標記電影名稱和演員等至少兩種屬性的網頁。

    發(fā)表評論 共有條評論
    用戶名: 密碼:
    驗證碼: 匿名發(fā)表