短視訊如何進行內容定位
談到抖音網路輿情監測,很多人都覺得不可能,因為抖音是出了名的反爬蟲比較厲害的媒體,更何況監測抖音上面的視訊文字資訊,但是就有這麼一些公司可以做到這個事情,今天小編專訪了甲魚網路輿情監測軟體,他們是如何做到的,這個監測主要分2大塊,第一大塊視訊的全面性,第二大塊,把監測到的視訊進行切片,然後對圖片上面的文字用OCR技術進行識別,這樣就實現了短視訊的監測,下面小編就來給大家詳細的分析一下吧。
1、抖音全面性監測是怎麼樣做到的?
首先把抖音目前有的8億多個賬號全部採集到,然後對每個賬號進行定向監測,一旦賬號發資訊就可以馬上監測到,這個就是抖音的全面性監測,原理很簡單,但是其中的過程有多難想必大家不知道,第一個難點是8億多個抖音賬號怎麼採集到,而且還有很多殭屍賬號,一般的輿情監測軟體廠商根本沒有辦法做到。第二個難點就是對8億多個賬號進行實時採集,這個對伺服器的需求是非常大的,同時多個賬號進行併發是一個非常大的難題,利用傳統的演算法根本沒有辦法解決這個問題,這個都是採用新的爬蟲演算法解決的。
2、如何進行抖音的視訊裡面的文字監測?
把抖音裡面的每個視訊都通過資訊流技術進行一定的切片,然後利用OCR圖片識別進行短視訊裡面的文字識別,想必很多人會問這麼多的視訊下載下來,要多少伺服器,還需要多少伺服器去切片,這個就是這個專案最大的難點,但是才用資訊流的技術可以利用極少的伺服器資源實現該需求。
3、抖音釋出的定位如何監測到
這個其實是最簡單的了,只要釋出者公佈的定位資訊才可以採集到,沒有公佈的定位資訊是採集不到的。視訊都可以採集到,還會差一個定位嗎?這個是沒有一點難度的。