1 はじめに

 1-0 最新万馬券等  。下の画面は2009年5月16日東京の的中解析です。単勝が効果的に的中したようです。詳しくは私のブログへ。

 1-1 速度理論

速度理論と書いてしまうと、何か特別なものと感じられるかもしれませんが、考え方の基本は単純です。即ち、競走馬の能力を単位時間あたりの移動距離である速度として定義あるいは仮定する事です。速度はm/秒でもm/分でもKm/hrの何れでも構いません。本マニュアルでは原則として時速(Km/hr)を使用します。競馬の世界では速度(時速で60Km/hrあたりになります)を使う事は少し奇異に感じられるとは思いますが、車の性能では最大時速300Km/hrなど常用されています。このスピード感で競馬を考えるだけです。例えば車ではヘアピンカーブでは速度を落とすとか速度が落ちるとかと言う言葉は使いますが、カーブを曲がるのに時間があるいはタイムが掛かるとは余り(タイムロスは使う事はありますが)と言うか殆ど使いません。

一方競馬ではコーナーがきつくてタイムが余計に掛かるとかの表現はよく耳にしますが、速度が落ちるという言い方は車とは反対に殆ど聞きません。車と競馬では速度の感覚が違うようです。多分速度の絶対値と変動幅が違うので、このように分化したものと思われます。車では時速が20Km/hrから300Km/hrと大きく変化しますので時速を使ってもカーレースファンにアピールできるが、競馬では速度が変化すると言っても時速にすれば50Km/hrから70Km/hr程度です。最後の3F(600m)を普通60Km/hrのところを67.5Km/hrのスピードで突っ切りましたと言われても多くの競馬ファンはピンとこないと思います。それより最後の3F(600m)を普通36秒のところ32秒で突っ切りましたと言われた方が驚き納得すると思います。上がりの36秒と32秒の差は、車で言えば制限速度40Km/hrのところを120Km/hrで突っ走る程の差に相当しますが、競走馬の速さを時速表現で60Km/hrと67.5Km/hrにした場合、秒表現ほどインパクトが得られるでしょうか。

しかしながら、移動する物体(競馬の場合、競走馬)を数的に扱う場合はタイムをそのまま使う事は出来ません。運動する物体では最低限速度(単位時間あたりの移動距離)を使う必要が有ります。その必然性を言葉で表現したのが速度理論という事です。

 1-2 数量化分析

数量化分析は速度理論とは違い非常に解説するのが難しい分野です。数量化分析は、4つに分かれています。数量化T類、数量化U類、数量化V類と数量化W類です。現在使用しているのは数量化1(T)類ですが、過去クラスター分析、数量化2(U)類など色々な手法を使い競馬予想にアプローチしてきましたが、現在ではこの手法(数量化1類)が最善、最強であると感じています。その他の手法としてはニューラルネットワーク理論汎関数の変分法機械学習あるいは一般化線形混合モデルなどが考えられますが、それぞれ長所短所がある事、また完全に理解する為にはさらなる知識,知恵が必要なため今のところ手が出ません。

数量化理論は日本人学者・林知己夫先生が1940年代に創出体系化したものですが、数量化のそれぞれの手法は既に存在していた手法の変形(数量化1類はダミー変数を用いた重回帰分析)と考えられ海外では残念な事に余り高い評価は得られませんでした。細かい説明は、次項にするとして、まず割と分かり易い笑いながら覚える数量化理論解析、少し難しいのでは数量化T類と重回帰分析の関連についての解説さらに高度なものとして柔らかな情報処理のための統計的手法の応用に関する研究あたりが参考になりますので読んでください。それと、数量化分析の中で難しい概念である偏相関につきましてはアイスクリーム統計学にようこそ!が分かり易いかと思います。

 1-3 速度理論と数量化分析の融合

競馬を予想しようと思ったとき、まず何を予想対象とするかですが、通常は各競走馬の在るべき勝率、オッズあるいは着順(入線順位)ではないかと思います。私も過去、このようなものを求めようとして試行錯誤を繰り返していました。とくに着順は数量化2類と言う手法で、在るべき着順を外的基準にしてプログラムを組んだのですが、最後までG1の1着と重賞でないレースの1着を区別する方法が掴めず挫折してしまいました。そしてあるとき閃いたのです。馬の能力は速度ではないかと。即ち各競走馬の速度を外的基準として数量化1類を行う訳です。

予想ないし正確には予測を行う時に、予測対象としてどのような性質が必要かという事です。それは不動、即ち、動かないと事です。まず、勝率を考えて見ますと、闘う相手の強さによって変わってきます。例えば、中学生が大学生と100m競走を行えば中学生は殆ど勝てないでしょうし、相手が小学生であれば逆に高い勝率が得られるのは自明です。勝率は相手によって変化してしまいます。即ち不動ではありません。着順も同じ性質を持っています。従って勝率並びに着順は予測対象としては失格となります。

オッズはどうかとなりますが、オッズは基本的に2次以上の情報となりますので、競走馬の真の能力は推定出来ません。人気順位はオッズから導出されるものですので、さらに質の悪い情報となります。ところで1次情報と2次情報の区別ですが、当事者コメントとして予想対象のレースに出走する競走馬の騎手によるもの、あるいは当該競走馬を調教した調教師によるものは、競馬マスコミでは1次情報の如く扱われてしまいますが、これらは2次情報です。1次情報は当該競走馬の騎乗する騎手そのものが1次情報となります。具体的には武豊騎手のコメントは2次情報となり、騎手が武豊である事が1次情報となる訳です。数量化分析では1次情報のみを使用して、2次情報は用いません。所謂厩舎情報が間違いであるから使わないという事では無く、2次以上の情報であるから使わないだけです。それとオッズを考える際に、因果の方向が非常に重要です。即ち、馬の当該レースにおいての能力(馬そのもの能力+騎手などの能力)からオッズは生成されるがオッズから馬の真の能力は推定できない。言い換えると能力→オッズは存在するがオッズ→能力は存在しない訳です。


最後に基準タイムですが、これも残念ながら理屈の時点で破綻しています。基準タイムは同じ背景(例えば同一クラスで)を持った馬が違う競馬場で走破した時の走破タイムを平均したものが基準タイムとされる訳ですが、厳密には全く同一馬が求める要因(例えば開催場所)以外の要因(騎手、距離等等)を全く同一にして走破しなければなりませんが、このような要件を満たして走破するのは不可能です。従って基準タイムを元にしたロジックは破綻してしまう訳です。

破綻例としては中央における表開催と裏開催の関係があります。表裏とも1000万クラスであれば競走馬としては同じ能力と考えられ、求められた基準タイムは比較可能である筈ですが、表開催には有力な騎手が多く騎乗しており、良血と言われる競走馬が多く参戦しているなどの理由により表裏間にバイアスを恣意的に付けている等です。本来騎手は騎手で評価し、種牡馬は種牡馬で別々の評価して、本来求めるべき表裏の競馬場間にある環境(気候、路面の作り、コース形状などなど)差を評価すべきであるのに恣意的なバイアスを附加してしまえば、基準タイムの趣旨からすれば本末転倒で、意味のある数字とは思えません。

 1-4 予想因子

数量化1類では予想対象は速度となりますが、数学的表現では従属変数とか目的変量(変数)とか外的基準とか呼ばれる実数で、量的データとも言われ、Kg、m、Km/hrなどの単位を持つ連続変数となります。競馬では具体的には3つ存在します。一つ目はゴール前600m(3ハロン)の速度です。通常上がり3ハロンタイムと表記されています。例えば36.0秒などになります。この場合の速度は秒速であれば16.67m/sec、分速であれば1000m/min、時速であれば60Km/hrとなります。速度理論では上がり3ハロンタイムから求めた速度を上がり速度と表現します。

二つ目はスタートからゴール前600m地点の速度です。速度理論ではペース速度と表現します。例えば2000mを2分00.0秒で走破した場合、スタートからゴール前600m(3F地点)前までの距離は1400mとなり、上がりが36.0秒であれば、1400mを84秒で走破した事になります。その時の速度は秒速では16.67m/sec、分速では1000m/min、時速では60km/hrとなり、これがペース速度となります。

三つ目は全距離を走破した場合の速度です。速度理論では走破速度と表現します。前述の2000mを2分00.0秒で走破した場合は、秒速では16.67m/sec、分速では1000m/min、時速では60km/hrとなり、これが走破速度となります。

私のロジックでは、この3つの速度を別々に計算しています。特に上がり速度とペース速度は非常に多彩で興味ある情報を与えてくれます。走破速度は上がりとペースの情報が相殺されて余り面白い情報では有りません。例えば走破タイム(速度)が同じでも、前半ハイペースで上がりが掛かっていいる場合と前半スローペースで上がりを短いタイムで突っ切って場合もありますので、走破速度ではレースの内容を現しきれないません。そこで速度理論では走破速度(走破タイム)を上がり速度とペース速度から求めています。別個に計算した走破速度は予想ロジックの中では使用せずに参考値として用いています。上がり速度とペース速度から求めた走破速度(走破タイム)は別個に計算した物と区別する為に合成速度(合成タイム)と表記しています。

それでは、予想因子とは何かですが、要因、因子、説明変数あるいはファクターと呼ばれていますが、数量化1類では”アイテム(item)”と言われています。数学的な表現では質的データと呼ばれ、性別、職業など単位(Kg、mなど)を持たない離散変数となります。ところで性別では普通男と女に区分けされますが、この男と女の区分を、数量化1類では”カテゴリー(category)”と言います。競馬予想では、アイテムは騎手、調教師、種牡馬(父馬、母父馬)などとなり、カテゴリーは騎手と言うアイテムの中で武豊、安藤勝巳などの個々の騎手に相当します。ウエイトとはカテゴリーの影響度の事で、競馬では武豊の影響速度などと表現しします。具体的には武豊は他の騎手よりどれだけ、例えば時速で1km/hr(他の騎手であれば60Km/hrであるが武豊が騎乗すれば61Km/hrとなる)だけ速く走らせる事を意味します。なお、数量化1類ではウエイトの事を”スコア(score)”と表現します。また、カテゴリーの事をダミー変数と言う場合もあります。

なお、下の表を見れば分かりますように、予想因子は質的データであり、単位を持たない離散変数と言って置きながら、大量の量的データ(馬体重、ハンデキャップ-Kg)を扱っているではないかと言う疑問が湧くと思います。量的データをカテゴライズ(例えば、馬体重を430Kgから10Kg刻みで区分)して質的データとするのは理論上間違いではありませんが、このような分析手法は実験計画法に代表されるように非常に少ないサンプルを有効に利用する観点からすれば情報の取りこぼしを起こし邪道と見られています。しかし、現在では社会・経済現象あるいはグーグルの検索などサンプル数は大量に確保できる対象を分析する要求が広がって来ており、量的データをカテゴライズして質的データとして扱うのは時代の流れのような気がします。競馬データでは芝コースを例にとりますと3年で70000データ、5年では100000データ以上が確保出来ますので量的データをカテゴライズしても十分なサンプル数を供給できると考えます。

実際に速度(タイム変換可能)を求める具体的な数式は下の表に纏めました予想因子のカテゴリーウエイト(スコア-影響速度)を加算するわけです。即ち、上がり速度=F1〜F30の対応するカテゴリーのウエイト(影響速度)の合計となります。ペース速度も同様です。最後に合成速度=f(上がり速度、ペース速度)として求め必要ならばタイムにも変換します。f関数は上がり3Fの距離が600mと分かっていますので、それ程難しくはないと思います。

予想因子番号 予想因子(アイテム) 予想因子(カテゴリー) 因子設計の特長 備考
F1 年場回日ABCD 2004年1月より2008年5月5日までを使用しました。、障害では2000年1月より2008年5月日までを使用。 共線を避ける為、ゴーストカテゴリ-導入。  
F2 開催場所距馬番 芝では内外も入るので1200カテゴリーを使用、ダートでは495、障害では41を使用 障害では馬番を別因子に設定  
F3  

前走走行情報

 

前走が海外、地方である場合、そのレース着順とグレードを設定  
F4 負担重量 ハンデをそのままカテゴリーとしました。52Kgから1Kg刻みで区分 牡と牝でクロスカテゴリーを導入  
F5 平均本賞金 累計本賞金を累計レース数で除した後、各カテゴリーのサンプル数をを平準化するために常用対数に変換しました。    
F6 騎手 騎手をそのままカテゴリーとし、騎乗数の多い順で200カテゴリーを設定。障害は35カテゴリー。 201以上は逆算法でウエイトを推定  
F7 前走人気着順乖離 前走のオッズの逆数と入線順位を組み合わせたカテゴリー、この因子は馬の能力よりも騎手の心理の影響を見たものです。 F3と共線が見られた為、Ver.4.0.0で改良   
F8 天候馬場状態 晴れ、曇り、雨、小雨などの天候と良、やや重、重、不良などの馬場状態を組み合わせたカテゴリーです。    
F9 経験レース数 累計レース数を意味します。    
F10 負担重量% 馬体重と負担重量を合計したもの中で負担重量の占める%です。9.6%から0.2%刻みでカテゴリーを設定 牡と牝でクロスカテゴリーを設定  
F11 馬体重 400Kgから20Kg刻みでカテゴリーを設定 牡と牝でクロスカテゴリーを設定  
F12 馬齢(月齢) 単位が月齢で27ヶ月(満2歳3ヶ月)が最若です。43以上は3ヶ月を単位としています 牡と牝でクロスカテゴリーを設定  
F13 曜日競走番号枠番 土日での内枠・外枠の変化を見ています。  
F14 競争間隔 前走からの経過週数をカテゴリーとしています。41カテゴリーを使用 前3走までの競争間隔を調べ長期休養明け2戦目などもカテゴリ−化しています。  
F15 負担重量増減率 前走からの負担増減を競争間隔で除したもの。 短い競争間隔で急激な負担増はマイナスと考えた設計しました。  
F16 馬体重増減移動 前走からの馬体重増減を競争間隔で除したものと前走の競馬場と同じであるか否かを組み合わせてカテゴリー化。 在厩フラグとは別物です。  
F17 競走記号 競走記号をそのままカテゴリーとして用いた。 国際と九州産馬の数値の違いに注目  
F18 生産牧場 生産牧場をそのままカテゴリーとして出走数の多い順で200番目までを直接数量化演算でウエイト(影響速度)を求めた。障害は35. 201以上は逆算法でウエイトを推定  
F19 調教師 調教師をそのままカテゴリーとし、出走数の多い順で200カテゴリーを設定。障害は35カテゴリー。 201以上は逆算法でウエイトを推定  
F20 父馬 サンデーサイレンスを筆頭に出走産駒の多い順に200頭をカテゴリーとした。障害は35頭。 201以上は逆算法でウエイトを推定  
F21 母父馬 ノーザンテイストを筆頭に出走孫駒の多い順に200頭をカテゴリーとした。障害は35頭。 201以上は逆算法でウエイトを推定  
F22 取引価格・海外産地 市場取引価格と外国産地の影響度    
F23 父の父馬 サンデーサイレンスが父の父馬の中心になったので設定しました。  
F24 出産馬齢第何子 卵子と母体状況の影響を見ています。    
F25 騎手年齢+若手 騎手の年齢と若手騎手減量を組み合わせたもの    
F26 ブリンカー ブリンカーの装着有無タイミングをカテゴリー化。    
F27 消失点母 ミトコンドリア仮説に従い、基礎牝馬を基準として母系子孫の多い順で200番目までを直接カテゴリーとして採用。 201以上は逆算法でウエイトを推定  
F28 出走頭数 8頭立てから16ないし18頭立てをそのままカテゴリーとして採用。    
F29 前走1着馬とのタイム差 マイナスは当該競走馬が1着であることをあらわしています。+21は1着馬から2秒1以上離れて入線した事を意味しています。 F7と同じく騎手心理を見たものです。  
F30 雌雄生まれ月 在胎期間の長短の影響を見ています。雌雄で違う可能性がある為分離 南半球生まれは海外産地へ移動  

1-5 本ソフトの特長

HRPTV5Cは速度理論と数量化分析により競馬予想を行うフリーソフトウエアです。HRPTV5CはJRA-VAN Data Lab.(Data Lab.)対応のソフトウエア(Visual Basic 6.0を使用)で今週のレースの買い目を直接出すものです。買い目を出力する為に用いる予想因子ウエイトは予想支援データとしても第一級の価値を持ちますが、HRPTV5Cは所謂予想支援ソフトではありません。一昔前の表現を借りれば”人工頭脳”にあたります。即ち、人間の思考を代行するものです。現代的な表現を用いればデータと言う宝の山から有用なルールを探し出す”データマイニング”となります。短いスパン(期間)でも脅威的な的中率と回収率を示しますが、

長いスパン、例えば1000レースとか1年とかの期間、それも全レースを予想対象として、これは重要です例え1000レースの実績が存在してもその期間に中央のレースが1200レースあれば隠された200レースはどうであったかが?になります。何れにしましても全レースを予想対象として馬連本線6点で的中率33.3%以上、回収率100%前後を示します。なお、HRPTV5Cは非蓄積タイプのソフトですが、予想因子ウエイトは蓄積型データベースソフト(クイックソートと構造体を用いた自作ソフトでありMDBのように1GBの制限を受けません)並びに数量化分析ソフト(5000カテゴリ-100,000データセットを取り扱える自作ソフト)により別途計算されており、その結果を用いていますので、非蓄積ソフトであることにより予想性能が制限されているものでありません。即ちフルスペックの予想能力を持っています。

 1-6 サポート

当面メールにてサポートを行いたいと思います。まず”HRPTV5C(競馬の記号学)”に飛んでいただき、プロフィールからメールアドレスを取得下さい。