作者: 3ldk 時間: 2017-7-25 14:38 標題: 如何filter走D bot?
我有個網站想計下人流
咁我係php最開頭記錄低, $_SERVER['HTTP_USER_AGENT'], 同埋ip
但後來發現好多都係bot, 咁我再加多個if, check到有個bot字, 就唔記錄
但又發現好多無個bot字的bot, 仲有好多都唔肯定係唔係bot的記錄
咁樣統計資料就好唔準, 有無辦法可以filter走, 唔記錄非真正user的request?
除此之外, 我仲發現好多非page的request, 例如
/apple-touch-icon.png
/favicon.ico
又係會另到個結果多左好幾倍, 有無方法避免?
作者: 梁炳 時間: 2017-7-25 15:08
用google analytics...完
作者: 3ldk 時間: 2017-7-25 15:23
未完, 因為唔可以比user見到係client side的code加多左樣野, 所以唔work
作者: dllm2048 時間: 2017-7-25 16:40
google analytics係國內係廢的.
作者: kasterli 時間: 2017-7-25 16:59
Frontend 可以考慮 Augluar / React 之類或 Ajax 做 async API call, 之後個 analytics 喺 API Level 度做,bots / scraper / spiders 唔會走去 call 你個 api
作者: 3ldk 時間: 2017-7-25 18:11
或者講清楚少少, 個網站係記念一個網站而整出黎的復刻網站
一開始已經應承user係100%還原, 所以client side一係個js function都唔可以加
莫講話js function, 就連1px的img都唔得
所以任何js solution都唔岩用
作者: 7h1r733n 時間: 2017-7-25 19:00
Google analytics廢咪用Baidu tongji囉..
作者: tsangwailam 時間: 2017-7-25 20:44
You can install analytics software in your server. Like https://piwik.org
作者: snoopy11hk 時間: 2017-7-25 21:23
pure server side 要用 ml 做呀.......
你識唔識寫 ml? 個客俾唔俾得起錢做 ml?
作者: 梁炳 時間: 2017-7-25 21:31
本帖最後由 梁炳 於 2017-7-25 21:34 編輯
有無咁高technical要求...加少少睇唔到既野都唔得?
咁你等於自己寫個analytics出來
建議你乜都紀錄左先,之後先用program再set rules刨logs
用Apache既話,應該有現成工具識讀log,甚至自動gen report,唔用Apache就...自己搵下啦
你真係想自己用PHP code dup出來既話,祝你好運...
除非你係公司內部網站,有特定client要求 (e.g. 打算用Windows 95+IE5來用),咁無得講
否則放出街既網,我諗唔到點解唔可以加個簡單google analytics...
作者: snoopy11hk 時間: 2017-7-25 22:30
其實我以前做過呢 D study... pure server side 的 analytics 係好 limited
作者: hihihi123hk 時間: 2017-7-26 02:50
回覆 6# 3ldk
Developer 要短時間 Reinvent the wheel
Client 又睇得少流量/又唔準嘅 Information,仲要用土炮介面
可以話係 Lose Lose 雙輸局面
同埋照你咁講
1. Single Page Application 已經完全無可能 Track 唔到 (可能你本身嗰個唔係啦)
2. 你應該淨係 Track 有 Render HTML Template 嘅 PHP Request 而唔係乜 Request 都 Track
3. Google/ Yahoo/ Bing ... 大量 Crawler 要 Exclude
4. 假設真係比你做到「啲野」出黎,你點樣証明你個 Track 嘅流量係準確無誤?
作者: vibu 時間: 2017-7-26 09:21
captcha
作者: whitelove1 時間: 2017-7-26 11:02
回覆 13# vibu
BOT都過到captcha的。
作者: KinChungE 時間: 2017-7-26 12:48
reCAPTCHA
作者: vibu 時間: 2017-7-26 13:15
過到都無計, 但要寫learning比較煩, 現成的又要錢, 除非你個webpage好有價值, 如果唔係應該唔會花太多心機時間去破你reCAPTCHA
作者: 3ldk 時間: 2017-7-26 15:00
回覆 3ldk
Developer 要短時間 Reinvent the wheel
Client 又睇得少流量/又唔準嘅 Information,仲要 ...
hihihi123hk 發表於 2017-7-26 02:50
係喎, 你點醒左我, 我應該係route入面save, 而唔係php頭幾句就save, 咁起碼可以減少左js, image, css的記錄
data暫時係比我自己睇, 唔洗証明好準確都OK, 盡量準就OK了
===============================
既然無純server的solution, 咁我將來有需要時, 都可能會考慮下js solution
但就需要盡量減少係頁面加上既野
例如會唔會有D係self host? 咁我就可以既係embed一個js file就搞掂, 而且又可以改到個file名同function名等人唔知係用黎analytics
又例如會唔會有無咁出名既service/library, 起碼無咁覺
作者: Ferrari2010 時間: 2017-7-26 21:38
本帖最後由 Ferrari2010 於 2017-7-26 21:41 編輯
你可以去browser cap download返個browser list, 然後用get_browser去analyze 個user agent.
你可以睇browser type, 佢地會定義左幾種比你既,
有一個係Bot/Crawler , 最普遍係Browser, 其他有例如Email Client, Application, 那些你自己睇下計唔計.
個ini file會不定期更新, 最新既browser可能會unlist.
作者: stly1015 時間: 2017-7-26 22:59
想知點過google隻captcha?
作者: kasterli 時間: 2017-7-27 07:42
有興趣可參考吓
https://www.blackhat.com/docs/as ... le-reCAPTCHA-wp.pdf
作者: 3ldk 時間: 2017-9-1 17:42
本帖最後由 3ldk 於 2017-9-1 17:43 編輯
轉左用google analytics一排發現出問題, GA唔係乜都做得到
例如server而家加左一個subdomain, 經依個subdomain行的request全部都無web介面, 咁點加ga?
作者: kof2002 時間: 2017-9-2 16:20
如果係用selenium 呢類扮browser behavior 的bot, 有無方法detect?
via HKEPC Reader for Android
作者: tsangwailam 時間: 2017-9-3 11:40
回覆 21# 3ldk
可以用serverside tracking,node 可用 https://github.com/peaksandpies/universal-analytics
作者: procapitalist 時間: 2017-9-3 14:41
如果係用selenium 呢類扮browser behavior 的bot, 有無方法detect?
via HKEPC Reader for Android ...
kof2002 發表於 2-9-2017 16:20
應該唔得...Selenium系要系local PC run既,距自己開browser,自己瀏覽特定網頁
作者: procapitalist 時間: 2017-9-3 14:42
有無lum過用d咁既野


