痞客邦的數據精靈(PIXBOT) @ Kent 的部落格

為什麼我們需要建置數據精靈(PIXBOT)

痞客邦是目前在華人地區最大創作平台，每天有 770萬UV及2800萬PV，這些相當都多網友們每天都在使用我們的服務，進而產生大量的數據資料，而這些資料都是經由內部所研發的一套系統 PIXinsight 進行收集及運算。內部各營運單位相常依賴這些數據來作一步的服務優化與商業決策，例如內部我們有個廣告系統 Falcon 其目標族群指向投遞就是透過 PIXinsight 所大量分析網友瀏覽習性來一一辨識這些網友們(未登入狀態下)。雖然上述內部的營系統已經開始大量使用 PIXinsight，但是要讓營運人員能快速(一分鐘內) 進行 ad-hoc query 取得分析資料是很因難的，因為不管是使用者需要多次的介面操作或者是因為功能的複雜度造成系統複雜都是原因之一。再來由於是新進使用者的學習成本，因為不是所有人的都善於使用操作數據軟體，如何拉近數據科技與使用者的距離也是推行 Data Driven Company 其中一項關鍵因素。

資料科學是火星科技？如何拉近使用者與數據之間的距離

基於上述的一些在公司內部的觀察及多年的工作經驗發現主要以下問題

操作軟體太複雜: 一般使用者對於大量設定選項及大量的資料有先天上的抗拒，過多的頁面與資料會產生所謂的 Information overload 的現像，故通常這樣系統需要有經驗(受過訓練)使用才能進行操作，所以一時間過多的圖表資訊往往超過 Human Bandwith 的限制，反而造成使用者心中的反感進而無法順利取得寶貴的資訊。
資料運算跑太久等於沒有資料 : 在目前快速變化的社會裡，使用者耐心等待時間越來越短。假設一位使用者要進行一張圖或表的資料查詢通常等待 10 secs 尚未出現，這時通常很有可能放棄查詢及感到厭煩，這是因為人類 Short-term_memor y 時間上限約在 10 秒左右，所以這如果系統軟體反應超過此時間，接受度會大幅度的降低。
萬事起頭難: 內部營運分析師常常需要分析各種不同領域的議題，但每個術業有專攻如果被指派到不熟悉的領域常常不知道如何下手。故此系統如果有效快速提供想法的小種子，可大幅降低初期探索未知領域的時間

設計方向

綜合上述觀察到的問題，提出了以下的設計方向

undefined

簡單：盡量設計在 1~2 點擊下即可得到初步結果
快速 : ５秒內
一張圖或表 : 真的就只有一個
隨時取得 : 在捷運上拿著手機就可以用

主要功能

根據上述的設計方向，陸續加入了以下功能及採用以下的系統架構

以關鍵字為主軸: 痞客邦擁有大量(7.1 億篇)的文章及大量使用者(770萬UV/Day)的搜尋紀錄，其中最直覺方便調閱資料的方式就是從關鍵字下手，從目前 Google AD Network 的 Keyword Planner 及 Yahoo 關鍵字廣告可以看到的出來都是從關鍵字出發所產生的數據及相關字作為廣告下單的依據。故數據精提供了以以關鍵字分析出發的分析功能。
- 搜尋關聯字：透過 Google Search Console 可以收集到使用者在 Google Search Bar 上所輸入的字串，故我們可以利用這些歷史資料來得知哪些詞是常常一起被收尋的，例如輸入"沖繩"所得到的結果為 ”飯店,推薦,自由行,酒店,租車,hotel,美食,住宿,天氣,國際通,必買,美國村,景點,旅遊,outlet”。
- 同義字: 近年來 Word Embedding 的相關技術發展蓬勃，其中又以 Tomas Mikolov 所提出來的 Word2Vec 最具代表性，可以快速有效運算將的大量的詞給予向量化，進而透過此模型計算出大量詞與詞之間的關系，以下為其中的一個示範，當使用者輸入 "Okinawa" 這個英文單字是從日文"沖縄"的發意拼音而來的，故同義於沖縄"，故輸出結果為”沖繩自由行、日本沖繩、沖繩自駕遊、ryukyu、沖繩自駕、ishigaki、沖繩縣、nago、沖繩親子遊”。
- 從上述兩個結果來看 : 搜尋關聯字可以快速得知瀏覽者對於某個主題更延伸的想法，而同義字可以讓資料分析師可以快速理解到這件事同等於代表(關連)哪些其它的事件。
文章關鍵字萃取 : 當人們要快速的分析上百篇以上的文章是有其難度，根據成人每分鐘閱讀速度約 200 ~230 字，如果以痞客邦文章字數約在 1000 字上下，故閱讀完的時間約在 5 分左右這樣換算下來，一個小時也約只能看完12 篇文章，這對於站內的編輯人員及資料分析是極大的負擔，故因而有此類功能的開發。
- 單篇文章分析 : 使用 TF-IDF 來萃取單篇文章的關鍵字，本系統將 IDF 改為 Inverse log(document frequncy)。故當使用者給定一篇文章，先行計算出 Term Frequency ，再除上 Log(Document Frequency) 。以下為範例
  - 輸入網址: http://lohas.pixnet.net/blog/post/31423623
- 多篇文章文章: 利用 Search Console 所收集到的使用者下了哪些 Keyword 找到這些網頁。有了這些搜尋紀錄就可以針對一群網頁產出相對應的關鍵字的列表。
使用者行為分析 : 對於內部經營單位會想要關心站上閱讀者的分佈狀況，包含以下不同查尋情境
- 某一篇文章的閱讀者也再閱讀了哪些文章：這項資訊可以用策展主題規劃上，可以知道知道針對這類主題族群都在看哪些文章
  - 舉例來說欲觀察【2017大阪自由行5天4夜懶人包】附PDF行程規劃及美食地圖總整理的讀者也再看(關心)那些文章，可以對 PIXBOT 下 cf http://chahabi77.pixnet.net/blog/post/436715527 即可得出以下數據
  - 從上面的數據可以看出，可以快速看出這群讀者可能正在研究如何去關西旅遊，故都在看相關關西懶人包的文章
- 欲觀察某一位作者的瀏覽者(受眾)，也都在關心哪些其它的作者。因為每一位作者通常所撰寫的內容會有特定取向，藉由這樣的觀察可以得知這些作者在瀏覽者中的分佈狀況，更直白的說可以利用此資訊將眾多作者給予分類或者是群聚。針對摳鬼旅遊大全(eatNplay) 我們快速的得知，類似的作者是哪些。以下是其中的查尋範例 cf eatnaplay
- - 從數據上可以得知道大方小梨(judyer101010)等作者與摳鬼旅遊大全(eatNplay)　是有同樣的受眾，白話的說可以說是這幾位作者是隸屬國外旅遊類的創作者。
除了上述這些主要功能目前數據精靈(PIXBOT)已經累積 14 道不同的指令，一個月平均呼叫機器人次數將近千次，是目前目前各營單位非常依賴資料快速探索工具。