暢銷書是可以預測的？──未經包裝的書稿見真章

文／茱蒂．亞契、馬修．賈克斯

回顧 2010 年春天，史迪格．拉森的經紀人簡直意氣風發。 6 月 13 日，《直搗蜂窩的女孩》甫上市便登上《紐約時報》精裝書暢銷榜第一名，《龍紋身的女孩》盤踞平裝本冠軍，《玩火的女孩》則屈居第二。這個系列合稱「千禧年三部曲」，在美國已持續了四十九週的優異表現，在歐洲更是整整三年屹立不搖，叫人怎麼能不跩？

隔月，拉森打破紀錄成為首位賣出一百萬冊 Kindle 電子書的作家，在接下來的兩年內，各種版本合計賣出七千五百萬冊。這位作家來自瑞典，原本是位無人知曉的政治狂熱分子，後來才開始寫小說。他的處女作有個很不討喜的書名叫《憎恨女人的男人》，內容還有殘酷的強暴情節與酷刑。小說被翻譯成英文之後改名為《龍紋身的女孩》，竟然成為當年轟動三十餘國的超級暢銷書。

媒體完全不懂這幾本書為何大賣，大報紛紛邀請書評來探究書市異象。為什麼讀者會喜歡這本書？熱潮是怎麼形成的？祕密在哪裡？誰能預料？

沒有人回答得出來。這幾本書從結構、文字、劇情到人物都有問題，就連英文翻譯也不對勁。書評搔頭皮拍腦袋也沒有答案，只能怪讀者品味不好。

這種情況在書市極為罕見。如果拉森的熱潮能夠年年來，出版業必定樂不可支。繼拉森之後再度引爆銷售狂潮的書是《格雷的五十道陰影》，但作者E. L. 詹姆絲可是親自去各地造勢宣傳，不像拉森在小說出版前就過世了。沒有作者親自宣傳，「千禧年三部曲」締造的成績簡直是奇蹟，毫無道理，也毫無徵兆。

如果成功不必靠運氣而是有模式可循，那豈不是很棒？

白天鵝

本書最狂發言：《紐約時報》暢銷書可以預測，想登榜不必碰運氣。

暢銷書之所以能預測並不是像大家想的那樣，靠作家名氣、靠行銷預算、靠砸大錢做宣傳。事實上，成功背後另有原因。

別再擔心封面設計了，也別再派小編上臉書和推特發文，找名人推薦也免了吧。這些事情都不會影響到你是不是「下一個諾拉．羅伯特」或「下一個大衛．鮑爾達奇」。暢銷書之所以暢銷和這些因素都沒有關係。

新書有沒有登上主流媒體，檔期選在春夏秋冬哪一季出版也無所謂。這些都是裝飾雞尾酒杯的小紙傘，都是無關緊要的東西，只會轉移焦點。

要預測一本小說能不能大賣，最重要的依據還是書稿，白紙黑字，未經包裝。

但光有書稿不夠，還需要一套電腦模型，它能閱讀、辨識，並從成千上萬本小說中歸納出數千種寫作特徵，這樣才能準確預測哪一本書能在市場中勝出。本書會解釋我們如何開發出這套電腦模型，以及我們為什麼想做這件事；也會說明我們如何運用電腦模型來預測暢銷書，並達到 80%～90% 的準確度。

大家來看這些數字。根據電腦模型的預測，丹．布朗的最新力作《地獄》暢銷指數有 95.7%；麥可．康納利的《林肯律師》（即電影《下流正義》的原著小說）更高達 99.2%。兩本書都是《紐約時報》精裝書暢銷榜冠軍，這可是出版界的兵家必爭之地，能登冠就有無上榮耀。

不僅如此，電腦還能預測不同類型的小說。在麥特．戴蒙想演出電影之前，《火星任務》的暢銷指數就已經有 93.4%；米奇．艾爾邦的心靈成長小說《來自天堂的第一通電話》有 99.2%；查德．哈巴赫的處女作《防守的藝術》有 93.3%；希維雅．黛的情慾羅曼史小說《謎情柯洛斯Ⅰ：坦誠》則有 91.2%。

這些數字的存在，以及精準到小數點的程度，的確讓某些人很興奮，但也激怒了某些人，更讓許多人心生懷疑。其實他們會有這樣的反應也很合理，因為電腦的預測結果很暴力、超乎尋常。對某些業界資深前輩來說，這種預測簡直荒唐。但這套預測方法可能會顛覆整個出版業，從根本改變你對暢銷書為何暢銷的想法。

J. K. 羅琳在找到出版社簽約之前，《哈利波特》曾經慘遭十二家出版社退稿，還有人佛心勸她「別辭掉工作」。誰知道，《哈利波特》品牌目前的估值有 150 億美元。凱瑟琳．史托基特一共被六十位經紀人回絕，才終於找到有人願意代理《姊妹》，結果這本小說一上市就在《紐約時報》暢銷書榜蟬聯了一百週。

任何一個能和讀者或作家圈沾上邊的人，總會有某個朋友的朋友，他也許會花上好幾個月，每天凌晨四點起床，利用上班前的時間寫小說；也許會在看完一部殺手小說後靈感乍現；又或許他信手拈來便珠圓玉潤；或許他已經把稿子寄給紐約市各大出版社，既期待又興奮，結果收到的卻是制式退稿信。

這些朋友的朋友都還沒碰過真正的毒舌。有位編輯在讀完《冷戰諜魂》的手稿之後，表示約翰．勒卡雷想當作家絕對沒前途。威廉．高汀的《蒼蠅王》被退稿了二十一次。經典作品《在路上》也難逃批評，曾有一位經紀人寫信給傑克．凱魯亞克：「我一點都不想看這本書。」娥蘇拉．勒瑰恩被退稿的理由是「根本看不下去」，結果這部根本看不下去的小說連續獲得兩項大獎。就連喬治．歐威爾的中篇小說《動物農莊》也被退稿，而且拒絕出版這本書的正是後來拿到諾貝爾文學獎的詩人艾略特。《動物農莊》雖被奉為政治諷刺文學經典巨作，但在當年大文豪的眼中卻是「毫無說服力」。

要不要出版一本書是個大學問。而這一行就是在說故事，想要準確預測誰能大紅大紫，就得推敲數十萬不同讀者的情感與自我。這可不容易，而決策背後的理由聽起來往往都很有道理。

舉例來說，拒絕《龍紋身的女孩》的美國編輯（我們真的採訪了其中幾位）認為，美國讀者才不會對瑞典政治感興趣。以女主角的設定來說，莎蘭德有點陰晴不定而且好鬥善戰，書中還有許多殘暴情節，不但有強暴和肛交，莎蘭德還拿著紋身針頭一心尋仇。編輯相信，主流市場的讀者不會喜歡這些東西──他們會有這種反應也是情有可原。

難怪有些編輯在掏心掏肺的時刻會坦承，要預測哪本書會大賣，只能舔舔手指舉起來測風向，要不然就得去膜拜收入最高的那些出版人藏在辦公桌底下的神祕水晶球。除非作者已經享譽盛名，否則選書根本就和賭骰子一樣。

但是當電腦開始有能力讀書之後，一切都大為不同了；電腦對暢銷書的預測，精準到讓人瞠目結舌。

為了對書籍的熱愛

讓我們回顧那些屢遭退稿但是後來家喻戶曉的作家。我們的電腦模型認為羅琳的暢銷指數有 95%，葛里遜有 94%，派特森有 99.9%；預測的準確度應該已不證自明。但是電腦模型卻沒料到史托基特的《姊妹》會暢銷。

我們的電腦有 15% 的機率會誤判，《姊妹》就是其中之一，它的暢銷指數只有 50%。電腦在深入閱讀之後，認為《姊妹》的文字風格很適合美國讀者，主題也很好，但描述情緒的語彙和刻意使用的動詞不符合其他暢銷書的模式。這本書出版之後引起廣大迴響，原因是白人作者竟能如此熟悉黑人角色的方言和用字。

你可能很好奇，優秀稱職的編輯已經很會選書了，為什麼還要開發一套電腦模型來做編輯的工作呢？

這個嘛，我們想預測哪本書會大賣，並不只是為了錢。我們認為，各種關於人類與機器合作的討論確實很重要，尤其是在創作領域裡。出版業現今飽受威脅，若我們有機會發掘出更多受讀者喜愛的小說，或許能讓產業繼續欣欣向榮。

說得更務實一點，我們想發掘新作家，想鼓勵出版社把花在老作家身上的錢拿來栽培年輕作家，因為總有一天後浪會推前浪。我們希望所有作家，不分寫作資歷，都能得到更多資訊和幫助。有些有潛力的新秀想出版卻沒有門路，我們希望能將他們的作品介紹給讀者。

正因為電腦模型不在乎你有沒有出過書、有沒有拿過藝術創作碩士學位，也不管你是西班牙裔或亞裔、是男是女、長得正不正、年輕或老邁，所以，我們的工作其實是想讓更多人能接觸到寫作這一行。

《紐約時報》暢銷書榜是最有公信力的排行榜，我們在本書裡要探討的主要對象就是《紐約時報》暢銷書。我們這麼做也是在公開呼籲所有本書讀者，無論你是學者或小說迷，都可以一起來討論與思考，究竟這些大家都在讀的小說對社會文化有什麼意義。

讀到這裡，也許你已經感覺得出來，我們兩位作者對書籍和閱讀充滿熱情，研究與教授文學的時間加起來超過五十年，也曾花上好幾年的時間在大型出版社工作。我們教大家賞文賞書，也捍衛讀者熱愛或憎恨一本書的權利，當然你也可以又愛又恨。我們完全相信閱讀小說與創作小說可以帶來解放現實和教化社會的力量。閱讀是寫作的基礎，而以我們對書籍痴迷的程度，相信你一定會懷疑，我們怎麼會把閱讀的重任交給電腦？

電腦怎麼讀書？

我們的電腦模型叫做「暢銷書量表」，它能有現在的成果，最驚訝的莫過於我們自己了。說實話，這項研究的開始不過是一股憑恃直覺的衝動。我們兩人每日合作，持續四年，最後的結果連我們自己都想不到。

我們假設暢銷書都暗藏著一組獨特而微妙的訊號，姑且稱之為「暢銷書密碼」。與其瞎猜哪本書會賣，我們的想法是，或許讀者已經在不知不覺中解開了這些密碼。暢銷書榜看似五花八門，但它是讀者每週集體公投的結果，反映了讀者的喜好。所以我們能不能從暢銷書榜學到什麼？我們的電腦能不能在雜訊中淘選出有意義的訊號？這些成功吸引大眾注意的小說，不論是大學課堂裡的指定讀物或海灘日光浴的隨身讀物，它們之間有沒有共同點？

如果這些答案都是肯定的，那我們或許就能找到暢銷書密碼。如果真能如此，出版界長期認為暢銷書無法預測的觀念就顯然錯了；我們也許真的可以開始預測暢銷書。

於是我們開始教電腦閱讀。

※ 本文摘自《暢銷書密碼》，立即前往試讀►►►