如何在Google圖書中使用'Ngram Viewer'工具

Ngram(通常也稱為N-gram)是文本或語音內容的統計分析,用於查找文本中某種項目的n (一個數字)。 它可以是各種各樣的東西,如音素,前綴,短語或字母。 儘管N-gram在研究人員之外有些模糊,但它實際上用於各種領域,對於使計算機程序理解並用自然語言作出回應的人有很大的影響。 簡言之,Google會對這個想法感興趣。

在Google Books Ngram Viewer中,要分析的文本來自Google從公共圖書館掃描的大量圖書以填充其Google圖書搜索引擎。 對於Google Books Ngram Viewer,它們將您要搜索的文本稱為“語料庫”。 Ngram Viewer中的下士按語言劃分,儘管您可以單獨分析英式和美式英語,或將它們組合在一起。 從英國到美國使用術語並查看圖表變化,它最終變得非常有趣。

Ngram如何工作

  1. 請前往Google圖書Ngram查看器,網址為books.google.com/ngrams。
  2. 項目區分大小寫,與穀歌網絡搜索不同,所以一定要大寫專有名詞。
  3. 輸入您想要分析的任何短語或短語。 一定要用逗號分隔每個短語。 谷歌建議,“愛因斯坦,福爾摩斯,弗蘭肯斯坦”讓你開始。
  4. 接下來,輸入日期範圍。 默認值是1800到2000,但有更新的書籍(2011年是最近在Google文檔中列出的,但可能已更改)。
  5. 選擇一個語料庫。 您可以搜索外文文本或英文,除了標準選項外,您還可以在底部看到諸如“英語(2009年)或美國英語(2009年)”之類的內容。 這些是谷歌自更新以來的舊語料庫,但您可能有理由對舊數據集進行比較。 大多數用戶可以忽略它們並關注最近的語料庫。
  6. 設置你的平滑水平。 平滑指的是圖表最終的平滑程度。 最準確的表示將是平滑0級,但可能難以閱讀。 默認設置為3.在大多數情況下,您不需要調整它。
  1. 按下“ 搜索大量書籍”按鈕。 (您也可以在搜索提示中按回車。)

Ngram展示的是什麼?

Google圖書Ngram Viewer將輸出一個圖表,表示圖書中特定短語的使用情況。 如果您輸入了多個單詞或短語,則會看到用顏色編碼的線條來對比不同的搜索詞。 這與Google趨勢非常相似,只是搜索涵蓋了更長的時間。

這是一個真實的例子。我們最近對醋餡餅很好奇。 他們在Laura Ingalls Wilder的草原系列小房子中被提及,但我們從未聽說過這樣的事情。 我們首先使用Google的網絡搜索來了解更多關於醋餡餅的信息。 顯然,他們被認為是美國南部美食的一部分,真的是用醋製成的。 他們重新回到了不是每個人都能在一年中的任何時候都能獲得新鮮農產品的時代。 這是整個故事嗎?

我們搜索了谷歌Ngram Viewer,並且在19世紀早期和晚期都有一些提到這個派,在20世紀40年代有很多提及,並且近來有越來越多的提及(可能是一些派鄉情)。好吧,有一些數據處於平滑水平3的問題。在19世紀提及的數據有一個平台。 五年來,每年有沒有同樣數量的提到一個特定的餡餅? 發生了什麼事是因為在那段時間內沒有出版很多書籍,而且我們的數據設置得很流暢,所以它扭曲了圖片。 可能有一本書提到了醋餡餅,它只是平均,以避免高峰。 通過將平滑設置為0,我們可以看到情況正是如此。 穗位於1869年,1897年和1900年又出現了穗。

剩下的時間沒有人談論醋餡餅嗎? 他們可能確實談論過這些餡餅。 有可能食譜漂浮在這個地方。 他們只是沒有在書中寫出關於他們的文章,這是對這些Ngram搜索的限制。

高級Ngram搜索

請記住我們如何說Ngrams可以包含各種不同的文本搜索? Google允許您使用Ngram Viewer深入鑽研。 如果你想搜索動詞而不是釣魚名詞,你可以通過使用標籤來實現。 在這種情況下,你會搜索“fish_VERB”

Google提供您可以在其網站上使用的命令和其他高級文檔的完整列表。