No Comments »

学科のUの電話で起きる。
「教室どこ?」
言っている意味が分からないのですが・・・;

なんと、今日は統計の集中講義の初日だったらしい。
しかし、寝たのは5時過ぎ。今はまだ8時台じゃないか。
はい、学校行ってもムリ。授業など聞ける状態じゃない。
ってわけで、「なかったことに」

昼過ぎに起きたら、なんかみんなひたすらゲームやってた。
てか、Tさんがやって、全員見てた。
しかも、それが5時間くらい続いていたらしい。

どういう状況?(笑

その後、ぼけーっとしながらまたぷよぷよ。
ぷよぷよ好きだね、そして
「修行する」と言って借りていった人約2名。
そんなにゲームする時間なんてあるのか?

お邪魔しましたー。

Tさん宅

No Comments »

サークルの先輩のTさんのところへお泊り
「理由はないけどとりあえず泊まりに行こうの会」

鍋を食べて・・・オセロやってぷよぷよやってダイアモンドゲームやって・・・

女性が鍋を作ると、あんなに丁寧になるものなのか?食べられる状態になってから鍋に投入されてるぞ?Tさん宅の鍋でこんなに丁寧に作られるのは始めて見た。
おつかれさまです。働かせてしまって申し訳ない。

ダイアモンドゲームなんて久しぶりにやったけどなかなか面白いね。

「ぷよぷよ~ん」だが、ぷよぷよはいつの間にあんなに分けの分からないゲームになってたんだ?

いったいどれだけ・・・?

2 Comments »

Self-Learningだが、いったいどれくらい学習すればいいのかさっぱり分からん;

とりあえず、12時間学習した段階での強さは、Bear(強)に2石勝ち。実験用の(9手読み/CPCなし)でこの状況だから、悪くはないのでは?おとといの段階では値が発散してた状況から考えれば、進歩か?ある程度の強さまでは教師なし学習でも到達できそう。

オセロのルールを初めて知って、上手な人から教わらずに12時間でここまで強くなると考えると・・・すごいね、コンピュータって。

で、意外なのは定石。現段階で、序盤10手くらいはZebra様の定石に当てはまる。そしてそれは・・・中盤がちゃんと学習されてなくても。なぜ??

中盤の評価値は時に、Zebra様の24手読みの評価が10石以上(+5石とか+10石とかその領域で)外れる(それが、時間をかければ読みきりが可能な範囲で)。これは・・・Zebraの評価関数が不得意とする局面の存在を示唆しているのでは!?と、勝手に都合のいい解釈をしている今日この頃です。

11.5時間労働

No Comments »

しました。バイトで。疲れたー。
たくさんのパソコンに囲まれて、パソコンとスキンシップをとりまくりました。キーボードではなくパソコン本体と・・・;

Self-Learning in Othello

4 Comments »

久しぶりに、オセロのコードを書きました。アイディアはしばらく練ってたんだけど・・・なかなかまとまらず。

あぁみんなFFOテストをやって、探索速度の向上に努めているぞ?Oxelon(by U)の速度がやばいらしい。枝狩りが、世界的に優秀なレベル??Thell(by F)も毎日どんどん速くなっているらしい。あれれれれ?

でも、それより強化学習(教師無し学習)のほうが面白そうなので先にそっちを。

とりあえず、Neothec3もOxelonもThellもvsOthaも・・・そして世界中の多くの強いオセロプログラムはある程度の強さで打たれた棋譜から学習するといういわゆる”Supervised Learning”方式なわけだが、このSupervised方式に改善の余地があることは、この前のオセロ大会で示された。
「学習に利用する棋譜を訂正すると強くなる」
これはすなわち、棋譜の間違いによって、学習に悪影響が及んでいることを意味する。つまり、現在の線形和による評価関数の形のままでもまだ評価精度を向上する余地があるということなわけである。そして、これを改善するには棋譜訂正を行うなり棋譜を生成するなり、とりあえず精度のよい棋譜を得ることが重要なわけである。
しかし、得られる棋譜の精度には限界があるのは明らかで、それを打破するにはSupervised方式を変えるしかない。

また、Uの調査によれば、探索空間中にはまったく評価値の存在しないパターンが全体の5%も存在するらしい。

たぶん、この状況でかなりちゃんと打てているのにはこんな理由があるだろう。それは・・・「常識的な打ち方をした棋譜を用いて学習したソフト同士が、戦うので、結局は重みがないような特殊な場合には陥らない」。

ということは。だ。「世界中のソフトが得意としないけど、じつはよさげなオセロの打ち方というものが存在する余地があるのではないか?」と考えるのが自然な気がする。

そのためには・・・教師無し学習しかない!と思ったわけです。
教師無し学習とはすなわち・・・事前知識を利用しない。

Supervised:
オセロのルールを教わる。ある程度強い人たちの打ち方を教わる。
そして、それらを自分なりに考えて、その強い人たちよりもっと上手に打つようにがんばる。

教師無し学習:
オセロのルールを教わる。必死にいろいろ試してみて、上手に打てるようになるべくがんばる。

まぁ、用は、前提知識を与えないことで、独自の方法を探してもらいたいということです。

TD(n)っぽいような、Q-Learningっぽいようななんかそんな感じのアルゴリズムで学習させてみます。が・・・やっぱり学習時間かかるね。ま、ちょっとずつ改善させていこうと思います。

知識と給料の法則

No Comments »

ネット上で発見。

Knowledge is Power. よって、知識=力
Time is Money. よって、時間=お金
力学の法則より、仕事=力×時間
代入すると、仕事=知識×お金
変形して、お金=仕事/知識

すなわち、知識のない人ほど多くの給料を貰える・・・らしい。

ちょっとじゃなくない?

No Comments »

バイト先で、
「ちょっとお願いが・・・。」
「これなんですけど・・・。」

ん?単純計算で、理想的に進んだとしても15時間くらいかかるぞ??しかも来週の月曜まで?

むむむ・・・。まぁ、やるか。

CPUの取替えがすごく得意になりました。

Design by j david macor.com.Original WP Theme & Icons by N.Design Studio
Entries RSS Comments RSS Log in