欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

程序員6月雜志筆記

系統(tǒng) 1894 0

http://microjs.com/#

introduction.js

introduction.js

Jasmine is a behavior-driven development framework for testing JavaScript code. It does not depend on any other JavaScript frameworks. It does not require a DOM. And it has a clean, obvious syntax so that you can easily write tests.

This guide is running against Jasmine version 1.2.0 revision 1337005947 .

中國(guó)云?移動(dòng)互聯(lián)網(wǎng)創(chuàng)新大獎(jiǎng)賽

賽題4:難舍難分

下載PDF版本賽題

1.? 概述

? ? ? ?百度網(wǎng)頁(yè)搜索是影響力和覆蓋率最大的網(wǎng)頁(yè)搜索工具,每天會(huì)有數(shù)億人通過(guò)百度網(wǎng)頁(yè)搜索提交搜索詞,查看和點(diǎn)擊搜索結(jié)果,找到所求。對(duì)搜索詞進(jìn)行分析和研究,是搜索引擎的基本技術(shù)之一。我們通過(guò)它來(lái)不斷加深對(duì)用戶需求的理解,改進(jìn)搜索結(jié)果,提高用戶對(duì)搜索結(jié)果滿意率。

? ? ? ? 對(duì)搜索詞(以下簡(jiǎn)稱query)的一個(gè)研究方向就是嘗試做搜索詞分類。優(yōu)質(zhì)的搜索詞分類能夠讓我們更清晰地區(qū)分用戶需求,了解流量變化趨勢(shì)。分類問(wèn)題首先必須面向具體應(yīng)用建立合理的分類體系。

? ? ? ? 搜索詞分類涉及到多個(gè)技術(shù)領(lǐng)域,如自然語(yǔ)言處理(NLP)、機(jī)器學(xué)習(xí)、文本分類等等,是一項(xiàng)難度很高的工作。大體來(lái)說(shuō),短文本的分類難度較高,它具有表義模糊或有歧義、語(yǔ)法形式不規(guī)范、難提取有效特征等特點(diǎn)。同時(shí),百度網(wǎng)頁(yè)query的數(shù)量巨大(數(shù)十億),涉及領(lǐng)域廣,分類的類別數(shù)量多(幾百到幾千),這些特性讓該問(wèn)題更具有挑戰(zhàn)性。

2.? 數(shù)據(jù)集描述

? ? ? ? 本題目會(huì)提供給參賽者兩類文件:標(biāo)注的查詢?cè)~分類及查詢?cè)~特征數(shù)據(jù)。參賽者基于標(biāo)注的查詢?cè)~分類及這些查詢?cè)~對(duì)應(yīng)的特征數(shù)據(jù)設(shè)計(jì)算法、訓(xùn)練并檢測(cè)模型,并利用訓(xùn)練好的算法對(duì)待分類查詢?cè)~進(jìn)行分類,并給出分類結(jié)果。

? ? ? ?本題目的數(shù)據(jù)分為兩個(gè)階段公布。第一階段公布的數(shù)據(jù)用于初賽階段,數(shù)據(jù)內(nèi)容介紹如下。第二階段將會(huì)提供新的待分類查詢?cè)~及特征數(shù)據(jù),數(shù)據(jù)含有更多噪音且特征空間變大。

2.1.? 標(biāo)注的查詢?cè)~類別

? ? ? ? 初賽階段公布的用于模型訓(xùn)練和檢測(cè)的標(biāo)注查詢?cè)~包含480個(gè)分類,每類約200條查詢?cè)~。每個(gè)查詢?cè)~占一行,包括三個(gè)字段即query_id, query明文和類別標(biāo)號(hào),每項(xiàng)字段以制表符(\t)分隔開(kāi),每行以\n結(jié)尾。需要注意的是每個(gè)類別的含義并未公布,但從每個(gè)類別所含查詢?cè)~可以了解其類別含義。下面兩行為查詢?cè)~類別文件中的兩行,表明“八月桂”這個(gè)查詢?cè)~的id為22,所屬類別為185;而“百葉窗”這個(gè)查詢?cè)~的id為23,所屬類別為34。表1為查詢?cè)~類別文件中各個(gè)字段含義介紹。

?

22???? 八月桂???? 185

23???? 百葉窗???? 34

?

1 查詢?cè)~類別文件中各個(gè)字段的含義

字段

格式

含義和取值范圍

? query_id

? unsigned int32

? query的編號(hào),取值范圍為0-10,000,000

? query明文

? 字符串

? query的明文,可用于了解查詢?cè)~內(nèi)容

? class_id

? unsigned int32

? 分類類別標(biāo)號(hào),0-479

2.2.? 查詢?cè)~特征數(shù)據(jù)

? ? ? ? 查詢?cè)~特征數(shù)據(jù)分為兩類:標(biāo)注查詢?cè)~特征數(shù)據(jù)和待分類查詢?cè)~特征數(shù)據(jù),分別位于不同的文件中,但他們的文件格式相同,只是標(biāo)注查詢?cè)~特征數(shù)據(jù)與標(biāo)注查詢?cè)~類別相結(jié)合用于模型訓(xùn)練,而待分類查詢?cè)~用于題目測(cè)試。參賽者所提交的算法將對(duì)待分類查詢?cè)~的特征數(shù)據(jù)進(jìn)行處理后給出待分類查詢?cè)~的分類。

? ? ? ? 每一個(gè)查詢?cè)~的特征數(shù)據(jù)為一行,包括的字段有query_id, 特征向量長(zhǎng)度,每一個(gè)特征的特征id和特征權(quán)重。每行一個(gè)query,每項(xiàng)字段以制表符(\t)分隔開(kāi),每行以\n結(jié)尾。即:

? ? ? ? query_id \t size \t feature_id_1? \t feature_weight_1 \t? feature_id_2 \t feature_weight_2 \t ……

? ? ? ? 如下例所示查詢?cè)~id為0,含有22個(gè)特征,第一個(gè)特征的id為7797,特征權(quán)重值為4.19117,后續(xù)特征id和特征屬性依次類推。關(guān)于特征數(shù)據(jù)文件中每行每個(gè)字段含義見(jiàn)表2。

? ? ? ?0? 22????? 77597?? 4.19117 ?57907?? 2.52463 102261? 2.7777? 100179? 2.28435 100704? 4.23765 2409??? 2.80831 25442?? 2.76276 138662????? 11.8289 150839? 9.51083 87205?? 6.54339 137685? 4.13053 136771? 8.02004 79270?? 6.00066 80632?? 8.31261 51236?? 10.5543 106239????? 3.78187 102222? 6.13974 16484?? 4.27566 150014? 1.47338 69932?? 6.45025 95094?? 4.80892 113717? 13.1069

2 特征數(shù)據(jù)文件中各字段含義

字段名

格式

字段含義

query_id

unsigned int32

查詢?cè)~的編號(hào),全局唯一

size

unsigned int32

表示一個(gè)查詢?cè)~有size個(gè) <feature_id, feature_weight>的pair數(shù)據(jù)

feature_id

unsigned int32

feature_id是特征的標(biāo)號(hào),每個(gè)特征標(biāo)號(hào)的含義未公布,可以大致認(rèn)為提取的特征是中文詞語(yǔ)。特征空間是153564維度,也就是意味著feature_id的標(biāo)號(hào)是在0到153563之間。

feature_weight

float

對(duì)應(yīng)于特征屬性的特征權(quán)重,即該特征對(duì)query的重要程度,為浮點(diǎn)數(shù)

?

?

? ? ? ? 需要注意的是,每個(gè)查詢?cè)~的特征數(shù)目不等,平均約在50個(gè)左右。標(biāo)注查詢?cè)~的特征數(shù)據(jù)包含約15萬(wàn)個(gè)查詢?cè)~,而待分類查詢?cè)~特征數(shù)據(jù)包含1000萬(wàn)個(gè)查詢?cè)~,在這些文件中查詢?cè)~文本已省略。

3.? 任務(wù)描述

? ? ? ? 本題目從百度query分類體系里,選出五百個(gè)預(yù)先定義好的分類,提供訓(xùn)練樣本和測(cè)試樣本,以及所有樣本的特征數(shù)據(jù),主要是考察參賽者面對(duì)海量真實(shí)的中文query數(shù)據(jù)以及較大類別數(shù)的分類體系,如何設(shè)計(jì)算法,提高短文本的分類準(zhǔn)確率。

? ? ? ? 參賽者可以利用預(yù)先標(biāo)注好分類的query數(shù)據(jù)進(jìn)行模型訓(xùn)練和效果自評(píng)。最終評(píng)估待分類查詢?cè)~特征數(shù)據(jù)統(tǒng)一進(jìn)行。參賽者只需要提供分好類的結(jié)果文件并調(diào)用相應(yīng)的命令,則會(huì)得到結(jié)果文件分類的評(píng)估結(jié)果。

3.1.? 輸入

? ? ? ? 參賽者進(jìn)行模型訓(xùn)練時(shí)可以使用標(biāo)注的查詢?cè)~類別和標(biāo)注的查詢?cè)~特征數(shù)據(jù)兩個(gè)文件。參賽者需要應(yīng)用所得到的算法和模型對(duì)待分類查詢?cè)~特征數(shù)據(jù)文件進(jìn)行處理后給出待分類查詢?cè)~的類別。

? ? ? ? 在競(jìng)賽所提供的Hadoop平臺(tái)的/share/data/qc目錄下包括本題目所需的數(shù)據(jù),名為query-to-classify-features.txt是待分類的查詢?cè)~特征數(shù)據(jù)文件,包括約1000萬(wàn)個(gè)待分類的查詢?cè)~。名為query-classified.txt是標(biāo)注的查詢?cè)~類別文件,名為query-classified-features.txt是標(biāo)注的查詢?cè)~特征數(shù)據(jù)文件。

3.2.? 輸出

? ? ? ? 參賽者給出待分類查詢?cè)~的類別。其格式為每行一個(gè)查詢?cè)~,每行包括兩個(gè)字段,第一個(gè)字段為查詢?cè)~的query_id,第二個(gè)字段為該查詢?cè)~所屬class_id,如下所示:

? ? ? ? query_id \t class_id

3.3.? 約束條件

? ? ? ? 參賽者通過(guò)參賽網(wǎng)站進(jìn)入計(jì)算平臺(tái) http://cc-ws.duapp.com (參賽網(wǎng)站有相關(guān)指示),登錄后可以操作hadoop命令。本題目所有的數(shù)據(jù)放置在HDFS的共享目錄:/share/data/qc下。這個(gè)目錄下的文件為只讀文件,參賽者在計(jì)算平臺(tái)所提供的Hadoop環(huán)境上通過(guò)MapReduce編程對(duì)數(shù)據(jù)進(jìn)行處理。

? ? ? ? 計(jì)算平臺(tái)也提供了在線評(píng)估答案的命令,其使用方式為:

? ? ? ? evaluate? - pr|qc result_file

??????? 其中evaluate為命令名,"-pr|qc"為評(píng)估的題目名稱。對(duì)于本題目選擇qc參數(shù),result_file為參賽者所輸出的最終文件在參賽者的工作目錄中的路徑及文件名。如果結(jié)果文件位于HDFS系統(tǒng)中,參賽者可以首先使用“hadoop fs –get”命令拷貝到其工作目錄中,然后調(diào)用evaluate命令。evaluate命令比較參賽者所提供的最終結(jié)果文件中的分類結(jié)果和本題目標(biāo)注的分類結(jié)果,并輸出此次分類的正確率。

??????? 參賽者必須提供相應(yīng)的源代碼,才能參與評(píng)獎(jiǎng)。相關(guān)程序的知識(shí)產(chǎn)權(quán)歸參賽選手所有(不得侵犯他人權(quán)益),大賽組委會(huì)取得的相關(guān)資料僅用于評(píng)獎(jiǎng)使用。

4.? 評(píng)價(jià)標(biāo)準(zhǔn)

? ? ? ? 在1000萬(wàn)個(gè)待分類查詢?cè)~里,我們會(huì)抽樣一部分作為評(píng)估對(duì)象進(jìn)行統(tǒng)計(jì)。抽取哪些樣本是不公開(kāi)的,但是會(huì)均勻涵蓋480個(gè)類別。我們以正確率作為分類效果的評(píng)估指標(biāo)。設(shè)總共有K個(gè)類,對(duì)于第i個(gè)類有個(gè)用于評(píng)估的查詢?cè)~,參賽者的方法正確給出?個(gè)查詢?cè)~的類別為i。則第i個(gè)類的分類正確率為。分類正確率R計(jì)為所有這些類別的分類正確率的平均值:

? ? ? ? 參賽者給出所有待分類查詢?cè)~的分類后,他可以調(diào)用“evaluate”命令來(lái)計(jì)算分類正確率。每次調(diào)用都會(huì)立刻給出分類正確率,用于評(píng)估其算法的優(yōu)劣。同時(shí),在規(guī)定的時(shí)間調(diào)用“evaluate”命令所給出的分類正確率將會(huì)記錄在案以作為成績(jī)?cè)u(píng)定的標(biāo)準(zhǔn)。

jordansissel/fpm

Effing Package Management.

? Preface

Package maintainers work hard and take a lot of shit. You can't please
everyone. So, if you're a maintainer: Thanks for maintaining packages!

? What is fpm?

It helps you build packages quickly (Packages like RPM and DEB formats).

Here is a presentation I gave on fpm at BayLISA: http://goo.gl/sWs3Z (I
included speaker notes you can read, too)

At BayLISA in April 2011, I gave a talk about fpm. At the end, I asked "What
can I package for you?"

Someone asked for memcached.

Google for 'memcached', download the source, unpack, ./configure, make, make
install, fpm, deploy.

In 60 seconds, starting from nothing, I had both an RPM and a .DEB of memcached
ready to deploy, and I didn't need to know how to use rpmbuild, rpm specfiles,
dh_make, debian control files, etc.

? Backstory

Sometimes packaging is done wrong (because you can't do it right for all
situations), but small tweaks can fix it.

And sometimes, there isn't a package available for the tool you need.

And sometimes if you ask "How do I get python 3 on CentOS 5?" some unhelpful
trolls will tell you to "Use another distro"

Further, a job switches have me flipping between Ubuntu and CentOS. These use
two totally different package systems with completely different packaging
policies and support tools. Learning both was painful and confusing. I want to
save myself (and you) that pain in the future.

It should be easy to say "here's my install dir and here's some dependencies;
please make a package"

? The Solution - FPM

I want a simple way to create packages without all the bullshit. In my own
infrastructure, I have no interest in Debian policy and RedHat packaging
guidelines - I have interest in my group's own style culture and have a very strong
interest in getting work done.

(This is not to say that you can't create packages with FPM that obey Debian or
RedHat policies, you can and should if that is what you desire)

The goal of FPM is to be able to easily build platform-native packages.

  • Creating packages easily (deb, rpm, etc)
  • Tweaking existing packages (removing files, changing metadata/dependencies)
  • Stripping pre/post/maintainer scripts from packages

Get with the download

You can install fpm with gem:

      
        gem install fpm

      
    

Running it:

      
        fpm -s TYPE -t TYPE ...

      
    

Things that are in the works or should work:

Sources:

  • gem (even autodownloaded for you)
  • python modules (autodownload for you)
  • pear (also downloads for you)
  • directories
  • rpm
  • deb
  • node packages (npm)

Targets:

  • deb
  • rpm
  • solaris
  • tar
  • directories

Need Help or Want to Contribute?

All contributions are welcome: ideas, patches, documentation, bug reports,
complaints, and even something you drew up on a napkin.

It is more important to me that you are able to contribute and get help if you
need it..

That said, some basic guidelines, which you are free to ignore :)

  • Have a problem you want fpm to solve for you? You can email the
    mailing list , or
    join the IRC channel #fpm on irc.freenode.org, or email me personally
    ( jls@semicomplete.com )
  • Have an idea or a feature request? File a ticket on
    github , or email the
    mailing list , or email
    me personally ( jls@semicomplete.com ) if that is more comfortable.
  • If you think you found a bug, it probably is a bug. File it on
    jira or send details to
    the mailing list .
  • If you want to send patches, best way is to fork this repo and send me a pull
    request. If you don't know git, I also accept diff(1) formatted patches -
    whatever is most comfortable for you.
  • Want to lurk about and see what others are doing? IRC (#fpm on
    irc.freenode.org) is a good place for this as is the
    mailing list

More Documentation

See the wiki for more docs

程序員6月雜志筆記


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 日韩成人免费观看 | 色宅男看片午夜大片免费看 | 欧美黄色片在线观看 | 国产九色在线 | 久久受www免费人成看片 | 午夜色大片在线观看 | 国产特级毛片AAAAAAA高清 | 91在线网站| 午夜影视在线观看 | 91视频链接| 欧美日韩中文字幕一区二区高清 | 男女男精品视频免费观看 | 久草福利 | av一区二区三区 | 久久亚洲欧美日韩精品专区 | 日韩欧美精品一区 | 国产亚洲精品久久久久久国模美 | 久久婷婷网| 综合久久网 | 毛片免费在线视频 | 欧美日韩视频一区三区二区 | 欧美成人午夜免费完成 | 国产福利视频一区 | 九色传媒 | 欧美激情一区二区三级高清视频 | 99国产精品2018视频全部 | 精品久久影院 | 精品av| 免费日韩视频 | 91在线激情 | 免费亚洲视频在线观看 | 亚洲99影视一区二区三区 | 一区二区三区在线 | 日本 | 噜噜噜动态图超猛烈 | 美国三级日本三级久久99 | 亚洲精品一区在线观看 | 日本亚洲a | 国产精品丝袜视频 | 91免费版在线观看 | 5月激情网 | 免费高清成人啪啪网站 |