(題圖來源:漫威官網)

【劇透預警:請注意,看過《復3》的請直行,尚未觀影的請走右邊出口。】

復聯好cp:口頭禪揭秘漫威基友情

《復仇者聯盟3:無限戰爭》的14,000,605的可能結局中,為什麼偏偏弄死了那幾個呢?

答案就在人物關係中。

現在有這麼一張沒標名號的英雄人物關係圖,情智雙高的你一定能猜出誰是誰。

下圖中每個圓圈表示復聯中的一個人物,箭頭表示誰喜歡呼叫誰,從叫人者指向被叫者,呼叫別人越多的,圓圈顏色越深。呼叫與被呼叫的連線,近似人物之間的影響關係。

復聯好cp:口頭禪揭秘漫威基友情

這張圖如果讓滅霸他老人家拿到,肯定會先深後淺:上來先滅了那個深綠色的社交大蝴蝶A,然後拳打眉來眼去的B和C,腳踢自娛自樂那位D,最後再收拾那幾個單向呼叫和孤苦伶仃的,多麼按部就班啊!

在填名字之前,先交代一下這張圖怎麼來的。

首先得感謝有位資料女掃了前面三部漫威電影的劇本。

話說2018年4月,Elle O‘Brien作為女漫威迷,焦急地等待著《復3》的公映。她在

http://

Medium。com

的簽名檔是「計算機科學家、軟體開發者和科技作家

」。

為了提高預習效果,她找來了前面三部展現復仇者們群像的電影的英文劇本,進行了文字分析。這三部電影是:

《復仇者聯盟》(2012),

復聯好cp:口頭禪揭秘漫威基友情

海報來源:時光網

《復仇者聯盟2:奧創紀元》(2015),

復聯好cp:口頭禪揭秘漫威基友情

海報來源:時光網

和《美國隊長3:英雄內戰》(2016)。

復聯好cp:口頭禪揭秘漫威基友情

海報來源:時光網

O’Brien文字分析的目的是:找出每一位人物的臺詞中什麼詞彙的使用頻率顯著比別的人物高。這裡她採用的量化指標是

「對數優勢比」(log odds ratio)

這是地球人衡量「某人的某特徵是否比其他人突出」的一個小套路:對於某位人物A,一個詞的

優勢比

,就是「A說這個詞的機率」與「別人說這個詞的機率」之比。然後再取自然對數,得到一個無量綱的指標叫「對數優勢比」:

指標如果是0,表示A同學說該詞的機率跟全班其他同學沒什麼不同;

指標如果是1,表示A說該詞的機率是其他同學說該詞機率的2。718。。。倍。

對了,這個無理數2。718。。。就是「自然對數的底」,咱們地球人管它叫「e」,在漫威宇宙各星球上可能叫別的,但肯定也是這個數兒。(不信查資料:張戎:數學裡的 e 為什麼叫做自然底數?是不是自然界裡什麼東西恰好是 e?)

用這個方法,O‘Brien真的發現:復男復女們每位都有自己的招牌臺詞!比如誰愛吐髒字,誰老是支支吾吾賣萌,誰老害怕,誰老裝。O’Brien有一個特別長的大表總結了他們各自最愛念的臺詞。

但是資料表太囉嗦顏值又低。這樣,咱就揀重要的,把每位最愛碎碎唸的五個詞兒挑出來,來張復聯眾神口頭禪一覽圖。

幸好有一位可視男已經幫咱把口頭禪一覽圖做好了。

這位可視男叫Matt Winn,他用一個叫R的東西,把O‘Brien的結果和我們熟悉的那十幾張臉,組合成這張一目瞭然的口頭禪圖。

翻譯成中文後是這個畫風:

復聯好cp:口頭禪揭秘漫威基友情

Elle O’Brien資料,Matt Winn製圖,張戎國產化。

你仔細看,發現什麼秘密了嗎?

對!他們愛說的詞兒裡,有好些都是同夥的名字啊!而且有的叫得不嫌肉麻,有空可以對照一下英文原版。比如黑寡婦,別人都叫她娜塔莎,就鷹眼個別,呼喚她「Nat」!鷹眼叫美隊也不好好叫,直呼「Cap」。

甭管肉麻不肉麻,咱要的東西就在這兒了。誰經常叫誰,暴露的就是這幫人的關係!

根據口頭禪資料中的呼叫關係,我們提取了復聯團伙的關係圖。

復聯好cp:口頭禪揭秘漫威基友情

資料來源:Elle O‘Brien。Gephi視覺化:張戎。

瞧瞧這個隊形是不是很明顯?

最綠的社交大蝴蝶是美隊,喜歡叫人也常被人叫;

黑寡婦和鷹眼關係不一般;

綠巨人除了叫寡婦就是跟自己的雙重人格較勁,大便乾燥即視感;

鋼鐵俠自命不凡,最常叫的是自己管家;

雷神對兄弟洛基不錯,可惜沒得到回報;

紅女巫看樣子要撩幻視。。。

那麼看完電影的你,覺得滅霸掌握了這張圖嗎?

復聯好cp:口頭禪揭秘漫威基友情

在談結局之前,先回答劇本迷、程式設計迷、做圖迷們的問題吧。

Q1. 「三部影片的英文劇本哪裡找?」

這裡,拿走不謝。

英文劇本:Avengers, The (2012)

英文劇本:Avengers: Age of Ultron

英文劇本:Captain America: Civil War

Q2. 「口頭禪一覽圖的英文原版在哪?看看你翻得靠不靠譜。」

不靠譜。反正只要名字、小名、暱稱能找準,關係圖就有了。其它那些口頭禪的翻譯,英文原版在這裡,看看有沒有更地道的翻法?

復聯好cp:口頭禪揭秘漫威基友情

英文原版口頭禪一覽圖。來源:mattwinn。com

另外,O’Brien的英文原文在這:I analyzed Marvel movie scripts to learn what each Avenger says most。這是Elle O‘Brien的頭像。

復聯好cp:口頭禪揭秘漫威基友情

Elle O’Brien。來源:mattwinn。com

Q3. 「做這種帶照片的條形圖都用到R裡的哪些包?」

R我也沒玩過。你可以去看可視男Matt Winn寫的配方。他說就用了八個包:

library(dplyr)

library(grid)

library(gridExtra)

library(ggplot2)

library(reshape2)

library(cowplot)

library(jpeg)

library(extrafont)

完整配方的連結在此:

Winn口頭禪圖譜視覺化:Avengers: What do they talk about?

復聯好cp:口頭禪揭秘漫威基友情

可視男Matt Winn。來源:mattwinn。com

Q4. 「哪裡有優勢比的嚴謹定義?要帶公式的!」

維基百科湊合能看嗎?優勢比:Odds ratio - Wikipedia

Q5. 「哪裡有漫威世界中英對照表?」

這有一個:幫助:譯名對照表 - 漫威電影宇宙資料站 - 灰機wiki

Q6. 「人物關係網圖用什麼做的?」

一個叫Gephi的免費工具。這裡可以下載:The Open Graph Viz Platform

這有一個快速上手的說明:

http://

derekgreene。com/slides/

derekgreene_gephi_slides。pdf

Q7. 「做Gephi人物關係網圖需要準備什麼樣的資料?」

這種簡單的Gephi圖有兩張CSV表就可以。一個叫

節點

表(Nodes),就是那些圓圈;一個叫

表(Edges),就是那些連線。

這裡的節點有20個:

復聯好cp:口頭禪揭秘漫威基友情

節點表

這裡的邊有16條,從源(Source)指向目標(Target),用節點表中的人物編號標明呼叫者和被叫者:

復聯好cp:口頭禪揭秘漫威基友情

能堅持看到這兒的,是不是隻剩下彩蛋強迫症患者了?

剛才聊攻略這會,有靈感的資料工作者@劉超-YM同學列印了一張關係圖,用紅筆勾了勾,轉身默默地離開了。

原來,他雖然手無時間原石,卻用這張圖就發現了那個驚天大秘密:

14,000,605的可能結局中,為什麼偏偏是這一個?

大家看,這是他勾過的圖:

復聯好cp:口頭禪揭秘漫威基友情

劉超標記的《復3》結局

你看到了什麼?

打紅框的都是滅霸1/2「隨機」湮滅弄死的英雄。

而這根本就不是隨機的!

被弄死的英雄都是顏色最淺和次淺的圓圈。

死誰都沒有死核心,聯盟戰隊必然能捲土重來。

奇異博士肯定看到了這個的結局,才那麼痛快交出時間原石。

無限手套肯定是復仇者聯盟一夥安插的。

看來滅霸並沒有事先掌握這張圖,所以我們後面還有《復4》看!

本文鳴謝 @Peabody 專業取名

大資料|人工智慧|自然語言處理:更多文章關注專欄:

資料冰山

更多回答請看:

張戎