一、背景

隨著中國電影市場發展成熟,電影成為我們日常文化生活重要的一部分,豐富了我們的業餘生活。通常,業界以電影的

票房收入

作為評價一步電影是否成功或優秀的指標。近些年來,有許多影片在票房上取得了空前的成功,例如2011年上映的《變形金剛3》、《功夫熊貓2》,2012年上映的《泰囧》,2014年上映的《捉妖記》、《速度與激情7》等。一部電影的票房收入不僅僅是大家津津樂道的談論話題,更是電影投資方確保投資回報的保障。

因此,電影票房的預測一直具有重要的意義,本文將針對國內電影市場介紹一種利用大資料做電影票房預測的方法。

二、票房影響因素

電影票房會受到多種因素的共同影響,國內外很多學者和研究機構都對票房的影響因素做過分析工作,其中比較著名的是上世紀80年代,美國的

巴里·李特曼

(Barry Litman)的票房分析模型。

李特曼

以80年代在美國上映的電影為樣本,對票房的影響因素進行研究,將影響因素分為創意、發行和營銷能力三類。其中創意因素指電影本身的一些資訊,如影片型別(冒險、喜劇、犯罪、科幻等),MPAA分級(G、PG、R等),故事熟悉程度(是否改變自小說等其他媒介),

生產成本

等;發行因素指與電影發行上映相關的因素,如是否為大發行商發行,發行檔期(聖誕檔、暑期檔等),發行模式等;營銷能力因素指發行公司的營銷能力,以及影片是否獲得過一些獎項或提名等。

透過對這些因素進行分析,李特曼發現一部影片的明星演員、頂級導演、大發行公司、科幻片等因素會對影片的票房產生較大的影響。本文的票房預測也將基於李特曼的研究結果來選擇國內票房的影響因素。

我們從網際網路上收集到2013年到2015年已上映的2200部影片資訊,包括影片名、導演、主演、上映時間、觀眾評分、型別等。針對這2200部電影,我們還收集到了其中1036部電影的上映的週數、上映首周的票房收入和場均人次以及最終的票房收入。基於獲取到的這1036部影片的資料,我們參考李特曼的票房預測模型選擇國內電影票房的影響因素,包括:

1) 電影評分

,範圍為1-10,由觀影觀眾給出,數值越大表示影片越受歡迎;

2) 電影時長

,一部電影的放映時長;

3) 是否為改編

,影片是否來自小說或漫畫的改編;

4) 上映檔期

,是否在

賀歲檔

、暑期檔、五一檔或國慶檔上映;

5) 電影型別

,是否為喜劇、驚悚、劇情或科幻;

6) 電影上映週數

,電影在影院放映的週數;

7) 上映首周平均日票房

,由上映首周的票房收入和首週上映天數得到;

8) 上映首周的場均觀影人次

,上映首周內平均每場的觀影人次;

三、電影票房預測模型

以上選取的因素為特徵,作為票房預測的自變數,以電影總票房作為因變數。從資料中抽取這些特徵生成訓練集和測試集,訓練集和測試集的資料比例為8:2。本文采用

線性迴歸模型

和決策樹迴歸模型來分別訓練票房預測模型,利用訓練集訓練得到模型,然後利用測試集對模型預測效果進行評價,主要透過R2來評價模型擬合效果,其數值越接近1表示模型的

擬合效果

越好。

經過訓練,線性迴歸模型和決策樹迴歸模型的R2都達到了0。87,表明兩個模型對於實際票房的擬合程度都較好。但在實際預測效果方面,如下圖所示為票房預測模型的預測值與實際值的誤差,可以看出決策樹迴歸模型所得預測值與實際值的誤差要小於線性迴歸模型的預測誤差,一般情況下決策樹迴歸模型所得的預測誤差在10%-40%之間。

利用大資料做電影票房預測

利用大資料做電影票房預測

下面兩張表分別是線性迴歸模型和決策樹迴歸模型在一些電影票房預測的結果(票房單位為萬元),同樣可以看出

決策樹迴歸

模型的預測效果要好於線性迴歸模型。

利用大資料做電影票房預測

利用大資料做電影票房預測

表1 線性迴歸模型預測結果

利用大資料做電影票房預測

利用大資料做電影票房預測

表2

決策樹

迴歸模型預測結果

四、總結與展望

本文從網際網路上獲取國內電影市場的影片資訊和票房資料,基於李特曼的分析並針對國內電影市場的特點提取

特徵值

,利用線性迴歸和決策樹迴歸模型對電影票房進行預測,獲得了與實際情況擬合程度較高的預測模型,利用該模型對電影的國內票房可以做出相對準確的判斷,供大家參考。

然而,影響電影票房的因素有很多,但我們現有的模型特徵更偏向於影片本身的資訊。受限於網際網路上資料的不全面等原因,諸如發行公司實力、營銷能力等電影發行、營銷方面的因素沒有完全加入到我們的預測模型中。顯然,這些因素也會對票房收入產生重大的影響。因此這也是我們今後在票房預測方面努力的方向——透過更全面的資料集來進行更準確的票房預測。

(以上僅為個人探索,不妥之處歡迎批評指正~)