陸道升總算趕在出發(fā)去BJ之前完成了對hao123爬蟲系統(tǒng)的改造。在原有流程上做了一些優(yōu)化,以及新增了一個在線的評審系統(tǒng)。
前世hao123創(chuàng)始人李興平是通過個人的全身心投入來保持hao123的不斷更新和迭代,每天要花十多小時在人力檢查鏈接是否失效或者被移花接木的問題上。
失效的問題對陸道升來說很好解決,就是網(wǎng)站打不開了而已,可能是暫時的網(wǎng)絡問題,也可能是確實網(wǎng)站停止服務了。
總之就是寫程序通過網(wǎng)址來請求網(wǎng)站內(nèi)容,分時段多試幾次,如果都請求不成功,那就是失效了。
最多再加一個每個時間段內(nèi)失效網(wǎng)址數(shù)量的監(jiān)控,占比不超閾值,那么就確認這是失效網(wǎng)址,如果超過閾值,可能是網(wǎng)絡問題造成網(wǎng)站集體訪問失敗,發(fā)送報警到陸道升郵箱但不做處理,等過段時間再次檢測即可。
網(wǎng)址被移花接木就很麻煩了,想通過技術手段對比會很費事,投入產(chǎn)出嚴重不值得,大頭還是靠人工。
有很多網(wǎng)站運營一段時間后難以為繼,就會關張大吉,其擁有的網(wǎng)址往往會被其他人買走另作他用。
這個另做他用對陸道升來說就很頭疼。
比如之前做游戲的網(wǎng)址被換成做娛樂,那就應該從游戲分欄里轉(zhuǎn)移到娛樂分欄。更頭疼的是還有的網(wǎng)址直接被買走搞成了涉黃網(wǎng)站,這就根本不能留了,得直接干掉。
而要做以上判斷,就需要人工審閱。
為了減少審閱工作量,陸道升特意寫過一個對比過濾的流程,即把網(wǎng)站上一次的文本內(nèi)容緩存下來,下一次爬取時進行一個對比,如果網(wǎng)頁結構和內(nèi)容變化比例沒超過閾值,則直接略過,認為可以保持原有判斷,如果超過閾值,那就整理起來輸出為列表,再由人工來一條條對比審核。
陸道升本以為針對不同的網(wǎng)址分類,可以通過設置不同的差異度閾值來進一步減少需要人工審核的數(shù)據(jù)量,結果發(fā)現(xiàn)同網(wǎng)址分類下各個網(wǎng)址的更新強度天差地別,很難得到一個大分類適用的數(shù)值,只得作罷。
另一個雪上加霜的情況就是新網(wǎng)站越來越多,新網(wǎng)站的加入都需要人工處理以確定是否有收錄的價值,以及如何分類、排序。
雖然通過技術手段已經(jīng)壓縮了絕大部分的工作,但是hao123帶來的時間開銷在不斷攀升,陸道升有些擔心自己哪怕加上左文杏的時間精力都不足以在保障好網(wǎng)吧管理系統(tǒng)開發(fā)的同時做好hao123的維護工作。
而在hao123帶來正向的廣告收入之前,這段時間股市的收益也沒有兌現(xiàn),陸道升手里的可用資金并不多,招不起人。
也不是說招不起幾個臨時工,或者找?guī)讉€網(wǎng)管就當給他們個機會賺賺外快,但是這樣的人的責任心很難保障,錢不怕多花,事兒不能做岔了,寧可等手頭充裕了挑幾個合用的。
現(xiàn)階段,就只能依靠技術優(yōu)勢暫時壓住增長的運營人力開銷了。
另一個在線的評審系統(tǒng),則是陸道升在浦外聽到人議論自己時臨時想到的,那就是能不能把hao123的審核工作給改造一下,然后變成可以分發(fā)的小塊任務,通過郵件分發(fā)給不同的人來處理,處理完成后進行結果的集中處理。
聯(lián)想的過程大概如下,聽到有人議論自己,覺得自己好厲害,心中先暗爽一會兒。
接著想到議論自己的可都是素質(zhì)極高的大學生,個人素質(zhì)過硬,這要是能憑自己現(xiàn)在的校內(nèi)名氣給請來幫自己分擔一些hao123的人工審核工作,自己可能就不用天天擔心對hao123的精力投入不足,有一天會被競爭對手干掉了。
而想到這種多人分擔工作任務的情景,陸道升立馬回想起前世出現(xiàn)的一種人工標注平臺的業(yè)務模式(比如appen.com)。
在大數(shù)據(jù)時代,為了使一些機器學習算法取得良好的效果,就需要大量的樣本數(shù)據(jù)供算法進行模型訓練。但有時候搜集不到那么多的有效樣本數(shù)據(jù),就需要人工進行諸如文章分類、圖片標注等工作,來人力產(chǎn)生足夠多的樣本數(shù)據(jù)。
也有一些靠機器學習算法解決不了的問題,比如色情圖片,惡意評論等等,也需要人力審核來進行捕獲。
以上這些事情,大大小小的互聯(lián)網(wǎng)公司都有需求,但是絕大多數(shù)公司都不會親自雇人來做這個事情,而是會轉(zhuǎn)交給專門從事標注工作的第三方公司來完成。
標注工作在參與人員上也有講究,那就是不能人員數(shù)量太少且固定。如果就是雇傭幾十上百個人,然后去標注百千萬的數(shù)據(jù),那么很可能會出現(xiàn)認知偏見。最好是能有更多的不相關的人來參與標注,這樣累積出來的數(shù)據(jù)才不會出現(xiàn)明顯的偏向性,才能讓機器學習算法訓練出適用性最強的預估模型。
為此,這些標注公司演化出了一種分派式的業(yè)務模式。
即先從需要對數(shù)據(jù)進行標注的公司那里獲取待標注的數(shù)據(jù)合集,然后將數(shù)據(jù)合集分割成一個個數(shù)量很少適用于單人的問卷,再將這些問卷通過自己構建的平臺分發(fā)給平臺上的答題人。
一份問卷會多次分配給不同的答題人,以降低回答結果因為個人偏見而離實際太遠的概率。
這些答題人可能是在校學生、可能是家庭主婦、可能是待業(yè)青年、可能是公司白領等等等等,總之只要在平臺上注冊了答題人賬戶,且通過了一些很基本的測試,就可以獲取分派的標注問卷,通過回答問卷來獲取一定的金錢報酬。
雖說這種在大數(shù)據(jù)時代興起的標注平臺需要互聯(lián)網(wǎng)普及帶來的上網(wǎng)便利,加上電子支付的發(fā)展帶來的支付便利,此時不能直接照搬,但是這種思想還是可以借鑒的。
hao123的日常維護工作并沒什么特別的技術含量,主要就是耗時耗力,完全可以采取類似的方案進行工作切分和派發(fā)。
不僅能解放自己,更重要的是可以集眾人之偏好綜合評斷,就算出現(xiàn)李興平這樣對用戶需求具備深刻洞察的競爭者,在陸道升這種直接聆聽大眾用戶反饋的方法面前,也占不到太多便宜了。
系統(tǒng)開發(fā)暫告一段落,陸道升給芮青打了通電話告知行程后,收拾好行裝就坐上火車開始一路向北。
火車上,陸道升皺著眉頭回想著和芮青的通話。
電話是撥給芮青在BJ的住處,也就是自己幫芮青找的地方。
只是在互道再見準備放下電話時,陸道升似乎還聽到了另一個女人的聲音。
……