時系列のメモ

時系列解析はある時間点の関係に関係を見出すこと

 
y_tの分布だけでのはなく、y_t-kの同時分布を見てどのような関連があるかをしらべる必要がある
時系列データの各時間点での依存関係を時間不変性と呼ぶ
これを定常性とする
 
なにを普遍にするかによって、
弱定常性と強定常性に分類される
 
この2つの仮定の下で、構成される
 
コレログラムで青のところは95%信頼区間
 
推移関係を排除した直接的な今月の値と先々月の値の関係性を
調べるためには、先月の影響を除去した自己相関係数を調べる方法が必要
これを偏自己相関係数と呼ぶ
 
 
定常性
 
時系列モデルの根幹にあるのが、定常性という概念
時間不変性を調べることは、いわばデータの並び順に意味を見出すこと
 
データの並びを考慮せず、
データが独立に抽出された標本という前提条件に基づいたら、
時系列解析できることは限られる
 
 
時間依存を考慮して、分析するためにはどのような
前提を立てるべきなのか
 
確率過程には
弱定常性と強定常性の2つがある
 
 
弱定常性
・平均が一定
・分散が一定
・自己共分散はラグkのみに依存する
 
 
強定常性
・任意のtとkに対して、同時分布が同一である
 
 
弱定常性は自己共分散は時点には依存せずに時間差kのみに依存する
弱定常性を満たすとき、自己相関も時点に依存しなくなる
 
強定常性の条件を見ると、同時分布が不変であることを要求する
各時点の確率分布が等しいことが条件となっている
 
過程の分散が有限であるならば、強定常は弱定常
 
 
ホワイトノイズ
平均0,分散がある一定の値をとり,すべての自己共分散が0となっているものを指す
すべての時点において期待値が0で、かつ分散が一定であり、さらに自己相関をもたないことを
必要とする
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

x-learnerってなにかわからないからメモだけ取ってみた

因果推論と機械学習

 
機械学習と因果推論はなにをしているのか
・結果と傾向スコアを機械学習によって推定してから、その推定値を使用してさらに
 機械学習のよって処置効果を推定する(meta learning)
 
・ランダムフォレストを使用し、傾向スコアを推定することなしに処置効果を推定する
 
 
 meta learn について
CATE(conditinal average treatment effect)を推定する
→平均処置効果をある条件に限定して算出したもの
 
 ate := E[Y(1) - Y(0)]
 
cate はm(0)とm(1)の差分がcate  となる
 
ある条件下で、施作を実施した場合はその結果を確認することができるが、
同一の条件下で、施作を実施しなかった場合の結果は確認できない
 
 
結果が確認できなかった方を機械学習で推定しようと考える
 
 
方法は大きく分けて2段階に分かれる
 
・処置あり/処置なしのそれぞれの効果を推定する
方法
・tree modelによる手法
・線形回帰による手法
 
処置を行った場合の効果と行わなかった場合の効果を推定し、その差分を推定効果とする
 
木モデルを使った場合
→ T-learner
 
線形回帰を使った場合
→S-learner
 
 
 
2段階目
・結果変数の正解データと推定した因果効果の差分も活用
・傾向スコア等での重みづけ
 
を使用して精度を高めるのが X-Learner
 
 
重み関数
実測値に近づけるために最適な重み関数を設定する
重み関数=傾向スコアとなる
(ランダムフォレスト等で推定して、共変量のバランスを調整している
 
cateを推定するために
X-Learnerが良い点
・CATEがスパースの場合でも対応しやすく、CATEの滑らかさを(微分可能性)にも対応しやすい
・データ中の処置・対照に大きな偏りがある場合にもある程度対応可能
(対照群のデータは集めやすく、処置群のデータは少ない)
 
 
Uplift Modeling の手法を用いて、どの顧客にどんなチャネルでどのような
キャンペーンを打てば、コストパフォーマンスが良いかを検証する
 
uplift modeling 
介入による効果の最大化を目的としたモデル化の手法
 
 
XーLearner 、R-Learner を改善したモデルをAUCC(Area under the uplift cover
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

ZOZOのレコメンドデータが公開された

https://press-tech.zozo.com/entry/20200818_release_zozoresearch

 

この記事すごい

バンディットアルゴリズム 使ってるのかあ

ちょっとこの内容をもっと調べてから、詳細に書いていきたい

 

やっぱり、レコメンドやってみたいなあ事業として

Recsysの論文も読みたい

効果検証入門 1章読んだ

効果検証入門 第1章について

ビジネスのKPIに与えた影響を効果とする 施作のことを因果推論の文脈では介入・処置と呼ぶ

ただ、効果を測定することはとても難しい なぜなら、瀬作の要因は、別の要因からの影響を受けるからである

そのことを考慮しないで、効果を測定し、意思決定に使用したら、 間違った解釈で意思決定を行ってしまう

そのため、他からの影響を取り除く必要がある

とあるマーケティング施作があるとする
何も施作をせずに、ユーザーが使用した金額のことを
潜在的な購買量とする

マーケティング施作をし、購買行動を観測したあとに、
この効果の分析をするとしたら、
施作を受けた人間、受けてない人間の売り上げを検証することになるが、 このような単純な比較では問題がある

なにも考えずにマーケティング施作をした場合、
その施作を受ける人間はどのような人間が選定されるだろうか??

購買見込みが高いユーザーに集中するのではないだろうか

・最近購入したユーザー
・頻繁にサイトに訪問するユーザー
・似たようなコンテンツを見ている

つまり潜在的な購買量が高いと言える

一方、施作を受けなかったユーザーはど のようなユーザーかと言えば、
・購入をしないユーザー
・サイトを全く訪問しない
・全く似ていないコンテンツを見ている

潜在的な購買量が低いと言える

この2つにマーケティング施作をし、結果を比較しようとしても、
潜在的な購買量に大きな差がありため、適切な比較ではない

そうなるとその施作が絶大な効果があると判断してしまう

このように、データから得られた結果と、本当の効果の解離をバイアスと呼ぶ
そして、比較しているグループの潜在的な傾向が違うことによって、発生するバイアスを
セレクションバイアスと呼ぶ

このセレクションバイアスに対して、なにかしらの処置を施さないと正確な分析はできない

では、理想的な検証法とはどんなものなのだろうか

それは「まったく同じサンプルで比較する」である

これは同じサンプルにおいて、介入が行われた場合と行われなかった場合の、
2つの結果を比較するということである

ただ、これは実現性を考慮しない
なぜなら、同じサンプルにおいてなど観測することができないからである

ただ、机の引き出しから青色のネコ型ロボットが現れたなら観測ができることになる

同じサンプルであるなら、潜在的な購買量は同一であるため、
施作を受けた際と、受けなかった際を分析すれば、変化を確認すれば、
介入による効果を、いとも簡単に観測することができる

サンプルが介入を受けている状態か受けていない状態のどちらかしか観測できない状態は、
因果推論の根本問題と呼ばれている

実際に実行可能であり、信頼のおきえる効果の介入方法は、
介入を無作為化することである

介入を実施する対象をランダムに選択し、その結果の平均を比較する方法である
介入の有無をランダムに選択してしまえば、全ての要因も平均的に同一になることが期待できる
この結果は、ほかの要因による影響を受けないということになる

介入の割当をランダムにすることは、両方の値を明らかにはできないが、
介入を受けたグループと受けなかったグループの比較を可能にする

この分析方法を
RCT(Random Controlled Trial、 無作為化比較試験)

この方法はA/Bテストと呼ばれる
(個人的には、世間でA/Bテストの話をする際は、
ここまで理解している人は多くないので、A/Bテストをしようとなった際に
しっかり設定できていないとおもう)

ここまでで、わかったこととして、
施作以外の要因が同一となったような状況での比較によって、
初めて知り得るということがわかった

そして、効果を実際のデータから測る方法として、
RCTを行うことが理想的な方法である

介入が行われた場合の結果と、行われた場合の結果の差に
介入の本当の効果があると考えることを
ポテンシャルアウトカムフレームワークと呼ぶ

この時の、観測されない側の結果をポテンシャルアウトカムと呼ぶ

介入の結果の平均に着目したいので、
介入を受けた場合の結果と、受けなかった場合の結果の
平均の差を分析すれば、効果がわかる
この効果を平均処置効果(Average Treatment Effect: ATE)と呼ぶ

次に、セレクションバイアスはどのような時に起きるのかを考えてみる

施作の対象となるサンプルと、対象にならないサンプルの
施作の対象にならなかった時の、結果の値の違いとなる

施作の対象を決定する方法が、潜在的な購買傾向を考慮するような方法でないと、
セレクションバイアスを0にすることができない

しかし、完全なRCTを現実で行うことは難しい
なぜなら、RCTは、効果を検証するために、介入がランダムに行われる状況を作る必要がある

分析者が対象となる事象の理解、セレクションバイアスの理解から分析を理解する必要がある

セレクションバイアスは謎な事象ではなく、介入を選択できる人やシステムが利得を高めようと
選択した結果として現れるため、これらの行動について理解できれば、誰のどのような意思決定が
セレクションバイアスを生むかをある程度、想定することができる