你需要知道的關於貝葉斯垃圾郵件過濾

by Heinz Tschabitscher

了解統計信息如何幫助您保持收件箱清潔

貝葉斯垃圾郵件過濾器根據郵件的內容計算郵件為垃圾郵件的概率。與簡單的基於內容的過濾器不同，貝葉斯垃圾郵件過濾從垃圾郵件和良好郵件中學習，從而產生非常健壯，適應性強和高效的反垃圾郵件方法，最重要的是，它幾乎不會帶來任何誤報。

你如何識別垃圾郵件？

想想你如何檢測垃圾郵件。快速瀏覽通常就足夠了。你知道垃圾郵件是什麼樣子的，你知道郵件是什麼樣的。

垃圾郵件看起來像好郵件的概率大約為零。

對基於內容的過濾器進行評分不適應

如果自動垃圾郵件過濾器也能這樣工作，它會不會很好？

對基於內容的垃圾郵件過濾器進行評分就是為了嘗試。他們尋找垃圾郵件的典型詞彙和其他特徵。每個特徵元素都會被分配一個分數，並且整個消息的垃圾郵件分數是從各個分數中計算出來的。一些評分過濾器還會查找合法郵件的特徵，從而降低郵件的最終分數。

評分過濾器方法確實有效，但它也有一些缺點：

特徵列表由過濾器工程師提供的垃圾郵件（以及良好的郵件）構建而成。為了更好地掌握任何人可能得到的典型垃圾郵件，必須在數百個電子郵件地址收集郵件。這削弱了過濾器的效率，特別是因為好郵件的特性對於每個人都是不同的 ，但是這不被考慮在內。
要尋找的特徵或多或少都是石頭 。如果垃圾郵件製造者努力適應（並使其垃圾郵件看起來像郵件過濾器一樣），則必須手動調整過濾特徵 - 這是一項更大的努力。
分配給每個單詞的分數可能基於良好的估計，但它仍然是任意的。就像特徵清單一樣，它也不適應垃圾郵件不斷變化的世界，也不適應個人用戶的需求。

貝葉斯垃圾郵件過濾器調整自己，變得更好，更好

貝葉斯垃圾郵件過濾器也是一種基於內容的過濾器。儘管如此，他們的方法消除了簡單評分垃圾郵件過濾器的問題，並且它從根本上做到了。由於評分過濾器的弱點在於手動建立的特徵列表和它們的分數，所以這個列表被消除。

相反，貝葉斯垃圾郵件過濾器自己構建列表。理想情況下，您從一大堆您已歸類為垃圾郵件的電子郵件開始，並從另一堆好郵件開始。過濾器會查看並分析合法郵件以及垃圾郵件，以計算垃圾郵件中出現各種特徵的可能性以及良好的郵件。

貝葉斯垃圾郵件過濾器如何檢查電子郵件

貝葉斯垃圾郵件過濾器可以查看的特徵可以是：

信息正文中的單詞，當然和
它的頭部（例如發件人和消息路徑！），還有
其他方面，如HTML / CSS代碼（如顏色和其他格式），甚至
單詞對，短語和
元信息（例如，特定短語出現的位置）。

如果一個詞，例如“笛卡爾”，從未出現在垃圾郵件中，但通常在您收到的合法電子郵件中，“笛卡兒式”指示垃圾郵件的概率接近於零。另一方面，“碳粉”只會出現在垃圾郵件中，而且經常出現在垃圾郵件中。 “碳粉”在垃圾郵件中發現的可能性非常高，不會低於1（100％）。

當一條新消息到達時，它將通過貝葉斯垃圾郵件過濾器進行分析，並且完整郵件是垃圾郵件的可能性是使用個人特徵進行計算的。

假設消息包含“笛卡兒”和“墨粉”。單從這些詞來看，我們是否有垃圾郵件或合法郵件尚不清楚。其他特徵（希望和最可能）表示允許過濾器將郵件分類為垃圾郵件或好郵件的概率。

貝葉斯垃圾郵件過濾器可以自動學習

現在我們有了一個分類，這個消息可以用來進一步訓練過濾器本身。在這種情況下，“笛卡兒式”表示好郵件的可能性降低（如果包含“笛卡兒”和“碳粉”的郵件被發現是垃圾郵件），或者必須重新考慮“碳粉”指示垃圾郵件的可能性。

使用這種自適應技術，貝葉斯過濾器可以從他們自己和用戶的決定中學習 （如果她手動糾正了過濾器的錯誤判斷）。貝葉斯過濾的適應性也確保它們對於單個電子郵件用戶最有效。儘管大多數人的垃圾郵件可能具有類似的特徵，但合法郵件在每個人身上都有不同的特徵。

垃圾郵件發送者如何獲得過去的貝葉斯過濾器？

合法郵件的特徵與垃圾郵件的貝葉斯垃圾郵件過濾過程同等重要。如果過濾器專門針對每個用戶進行培訓，那麼垃圾郵件製造者將更加努力解決每個人（甚至大多數人）的垃圾郵件過濾器問題，並且過濾器可以適應幾乎所有垃圾郵件發送者的嘗試。

如果垃圾郵件的垃圾郵件看起來完全像每個人都可能得到的普通郵件，垃圾郵件發件人只會使其通過訓練有素的貝葉斯過濾器。

垃圾郵件發送者通常不會發送這樣的普通郵件。讓我們假設這是因為這些電子郵件不起垃圾郵件的作用。所以，當普通，枯燥的電子郵件是通過垃圾郵件過濾器的唯一方式時，他們很可能不會這樣做。

但是，如果垃圾郵件發送者轉而使用大多數普通電子郵件，我們將再次在我們的收件箱中看到大量垃圾郵件，並且電子郵件可能會變得像在貝葉斯前的日子（或更糟糕的日子）一樣令人沮喪。但它也會破壞大多數垃圾郵件的市場，因此不會持續很長時間。

強指標可能是貝葉斯垃圾郵件過濾器的跟腱＆＃39; 腳跟

對於垃圾郵件發送者來說，即使他們有通常的內容，也可以通過貝葉斯過濾器工作。根據貝葉斯統計的性質，經常出現在良好郵件中的一個詞或特徵可能如此重要，以至於將任何郵件從垃圾郵件看起來像被過濾器評定為火腿。

如果垃圾郵件發送者通過使用HTML回執來查看您打開的郵件的方式來確定您的郵件內容 - 例如，他們可以將其中一個垃圾郵件包含在垃圾郵件中，訓練有素的貝葉斯過濾器。

John Graham-Cumming試圖通過讓兩個貝葉斯過濾器互相作用來實現這一點，這個“壞”的過濾器適應於哪些消息被發現通過“好”過濾器。他表示它很有效，儘管這個過程非常耗時和復雜。我們認為我們不會看到大部分情況發生，至少不是大規模的，並且不適合個人的電子郵件特徵。垃圾郵件發送者可能會（試圖）為組織找出一些關鍵字（比如IBM的某些人的“Almaden”）。

通常情況下，垃圾郵件將永遠與常規郵件（顯著）不同，或者它不會是垃圾郵件。

底線：貝葉斯過濾的力量可能是其弱點

貝葉斯垃圾郵件過濾器是基於內容的過濾器 ：

經過專門培訓，可以識別個人電子郵件用戶的垃圾郵件和優秀郵件 ，使其非常有效，難以適應垃圾郵件發送者。
可以不斷地進行，而且不需要太多努力或手動分析就能適應垃圾郵件發送者的最新技巧。
考慮到個人用戶的好郵件，誤報率很低 。
不幸的是，如果這會導致對貝葉斯反垃圾郵件過濾器的盲目信任，那麼偶爾會出現更嚴重的錯誤 。 錯誤否定 （垃圾郵件看起來與普通郵件完全相同）的相反作用有可能打擾和阻止用戶。