30 Aug
学科のUの電話で起きる。 「教室どこ?」 言っている意味が分からないのですが・・・; なんと、今日は統計の集中講義の初日だったらしい。 しかし、寝たのは5時過ぎ。今はまだ8時台じゃないか。 はい、学校行ってもムリ。授業など聞ける状態じゃない。 ってわけで、「なかったことに」 昼過ぎに起きたら、なんかみんなひたすらゲームやってた。 てか、Tさんがやって、全員見てた。 しかも、それが5時間くらい続いていたらしい。 どういう状況?(笑 その後、ぼけーっとしながらまたぷよぷよ。 ぷよぷよ好きだね、そして 「修行する」と言って借りていった人約2名。 そんなにゲームする時間なんてあるのか?...
Read more »

Tさん宅

29 Aug
サークルの先輩のTさんのところへお泊り 「理由はないけどとりあえず泊まりに行こうの会」 鍋を食べて・・・オセロやってぷよぷよやってダイアモンドゲームやって・・・ 女性が鍋を作ると、あんなに丁寧になるものなのか?食べられる状態になってから鍋に投入されてるぞ?Tさん宅の鍋でこんなに丁寧に作られるのは始めて見た。 おつかれさまです。働かせてしまって申し訳ない。 ダイアモンドゲームなんて久しぶりにやったけどなかなか面白いね。...
Read more »

いったいどれだけ・・・?

28 Aug
Self-Learningだが、いったいどれくらい学習すればいいのかさっぱり分からん; とりあえず、12時間学習した段階での強さは、Bear(強)に2石勝ち。実験用の(9手読み/CPCなし)でこの状況だから、悪くはないのでは?おとといの段階では値が発散してた状況から考えれば、進歩か?ある程度の強さまでは教師なし学習でも到達できそう。 オセロのルールを初めて知って、上手な人から教わらずに12時間でここまで強くなると考えると・・・すごいね、コンピュータって。 で、意外なのは定石。現段階で、序盤10手くらいはZebra様の定石に当てはまる。そしてそれは・・・中盤がちゃんと学習されてなくても。なぜ??...
Read more »

Self-Learning in Othello

26 Aug
久しぶりに、オセロのコードを書きました。アイディアはしばらく練ってたんだけど・・・なかなかまとまらず。 あぁみんなFFOテストをやって、探索速度の向上に努めているぞ?Oxelon(by U)の速度がやばいらしい。枝狩りが、世界的に優秀なレベル??Thell(by F)も毎日どんどん速くなっているらしい。あれれれれ? でも、それより強化学習(教師無し学習)のほうが面白そうなので先にそっちを。 とりあえず、Neothec3もOxelonもThellもvsOthaも・・・そして世界中の多くの強いオセロプログラムはある程度の強さで打たれた棋譜から学習するといういわゆる”Supervised Learning”方式なわけだが、このSupervised方式に改善の余地があることは、この前のオセロ大会で示された。 「学習に利用する棋譜を訂正すると強くなる」 これはすなわち、棋譜の間違いによって、学習に悪影響が及んでいることを意味する。つまり、現在の線形和による評価関数の形のままでもまだ評価精度を向上する余地があるということなわけである。そして、これを改善するには棋譜訂正を行うなり棋譜を生成するなり、とりあえず精度のよい棋譜を得ることが重要なわけである。 しかし、得られる棋譜の精度には限界があるのは明らかで、それを打破するにはSupervised方式を変えるしかない。 また、Uの調査によれば、探索空間中にはまったく評価値の存在しないパターンが全体の5%も存在するらしい。 たぶん、この状況でかなりちゃんと打てているのにはこんな理由があるだろう。それは・・・「常識的な打ち方をした棋譜を用いて学習したソフト同士が、戦うので、結局は重みがないような特殊な場合には陥らない」。 ということは。だ。「世界中のソフトが得意としないけど、じつはよさげなオセロの打ち方というものが存在する余地があるのではないか?」と考えるのが自然な気がする。 そのためには・・・教師無し学習しかない!と思ったわけです。 教師無し学習とはすなわち・・・事前知識を利用しない。 Supervised: オセロのルールを教わる。ある程度強い人たちの打ち方を教わる。 そして、それらを自分なりに考えて、その強い人たちよりもっと上手に打つようにがんばる。 教師無し学習: オセロのルールを教わる。必死にいろいろ試してみて、上手に打てるようになるべくがんばる。 まぁ、用は、前提知識を与えないことで、独自の方法を探してもらいたいということです。...
Read more »