【マイナー必見】Lyra2REv2を高速化したよ

1000 Res.　735.75456486 MONA　54 Fav.

最新版(2.2.4-mod-r4)
https://1drv.ms/u/s!Aud1FauQ46vHhz95NYbLOB2bQlOt
ソースコード
VisualStudio 2017 & CUDA9.1バージョン
https://1drv.ms/u/s!Aud1FauQ46vHhz15NYbLOB2bQlOt
VisualStudio 2013 & CUDA8バージョン
https://1drv.ms/u/s!Aud1FauQ46vHhz55NYbLOB2bQlOt

1 ：名無し名誉名人教士：2016/05/14 12:53:44 (9年前) 225.67243501MONA/20人

Lyra2REv2を高速化したよ～♪(Maxwell用だけど)
これで他者に差をつけましょう！！
GTX980,GTX970,GTX960で動作確認済み。その他は調整していないので、-iオプションでスレッド数を調整しましょう。(最適設定を教えていただければ今後のバージョンアップで反映します。)
750/750Tiでは効果が薄いかも…

高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!786&authkey=!ADMLti2H2reCM7Q&ithint=file,zip

高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!785&authkey=!AHd4-K1TfGL2qVg&ithint=file,zip

2 ：アフロ六段範士：2016/05/14 12:54:25 (9年前) 0MONA/0人

すごい！

3 ：名無し名誉名人教士：2016/05/14 12:55:24 (9年前) 0MONA/0人

AMDの方はこちらで高速化しているみたいです。

sgminer を高速化サセようぜ
http://askmona.org/4235

4 ：zori八段教士：2016/05/14 12:57:05 (9年前) 0MONA/0人

凄い！
帰ったらさっそく使わせてもらいます（＾p＾）

5 ：アフロ六段範士：2016/05/14 12:57:53 (9年前) 0MONA/0人

電気代の高い日本では、技術力で他国に勝ちたいですね

6 ：名無し名誉名人教士：2016/05/14 13:07:56 (9年前) 0MONA/0人

高速化の概要、
1スレッドあたり1536バイトのメモリを使用しますが、
シェアードメモリ(GPU内部のメモリ)を768バイト分使用することで、ボード上の低速メモリのアクセス頻度を減らしています。
一応、全部確保できるんですが、それをやると何故か遅くなります。(それでも従来よりは高速。)
750/750Tiでは、L2キャッシュが大きく、1536バイト全部が収まるため、従来のままでも十分高速で、今回の改造はあまり効果がないかもしれません。

7 ：名無し名誉名人教士：2016/05/14 13:11:39 (9年前) 0MONA/0人

あと、海外のガチ勢に渡すとクラウドマイニングのハッシュレートが跳ね上がるため、
できることなら、AskMona内にとどめておきたいかな？
日本人マイナーは電気代が切実なのよ…

8 ：もにゃ子九段錬士：2016/05/14 13:14:42 (9年前) 0MONA/0人

ちょうど家に居たので早速導入させて貰いました^^
凄いです！！！
価格下がっててウンザリしていたんで、これで又掘り堀続ける気がでました^^
僅かですがmona送らせて貰います

9 ：アフロ六段範士：2016/05/14 13:16:00 (9年前) 0MONA/0人

海外勢に渡る前に、これで掘りまくりたいですね
>>1さんの直接配布制でもいいかも
海外勢に渡らないために

10 ：もにゃ子九段錬士：2016/05/14 13:18:47 (9年前) 0MONA/0人

連投すみません
画像アップしたかったのですが　　やり方忘れました＞＜

11 ：名無し名誉名人教士：2016/05/14 13:20:49 (9年前) 0MONA/0人

GTX960

GTX970(ソロマイニング)

GTX980

12 ：名無し名誉名人教士：2016/05/14 16:49:15 (9年前) 0MONA/0人

ソロマイニング用の使い方(準備編)
まず、Walletをインストールする。1回起動していったん終了させる。
そして、Monacoin.confを以下の内容で作成する。
rpcuser=(ユーザ名)
rpcpassword=(パスワード)
rpcallowip=192.168.0.0/255.255.0.0
rpcallowip=127.0.0.1
rpcport=4444
daemon=1
server=1
gen=0

このファイルを C:\Users\(ログインユーザ名)\AppData\Roaming\Monacoin に入れる。
Walletのショートカットのリンク先にオプションとして -server を追加する。(なくてもいけるか？)そして、起動！

13 ：名無し名誉名人教士：2016/05/14 16:55:48 (9年前) 0MONA/0人

ソロマイニング用の使い方(マイナー起動)
>>1でソロマイニング用をダウンロード･展開する。
そして、バッチファイルを編集する。
(実行ファイル名) -a lyra2v2 -o (IPアドレス):(ポート) -u (ユーザ名) -p (パスワード) --no-longpoll --no-getwork --coinbase-addr=(Walletアドレス)
(IPアドレス)は>>12を起動しているアドレス、
(ポート)、(ユーザ名)、(パスワード)は、>>12のrpcport、rpcuser、rpcpasswordを入力します。
(Walletアドレス)は>>12のWalletの受取り用のアドレスのことで、要は自分の財布を意味します。(Mで始まる長ったらしい文字列)
バッチファイルが完成したら実行する。
掘り当てたときのみYes!が表示されるため、見た目では掘れているかわかりにくいです。

14 ：zori八段教士：2016/05/15 00:05:09 (9年前) 5MONA/1人

GTX950、省電力設定（-i15とか）で約4MH/s→7MH/sとかなり高速化されてた！
MAX設定では9MHs弱ぐらい出てる！
また採掘する気力が湧いたよ。
さんきゅーな！

15 ：名無し二段：2016/05/15 01:20:33 (9年前) 0MONA/0人

拙宅のリグはほとんど750Tiなのですが750Tiではマイナーが起動すらしてくれませんでした。960のリグはほぼ倍のハッシュレートが出てます。合計107M程度から142M程度まで出力がアップしました。ありがとうございます。

16 ：名無し二段：2016/05/15 01:44:41 (9年前) 3.9MONA/1人

単騎の750Ti機で立ち上げた所、起動しました。結果としては4.3M -> 4.45M程の微アップに留まりました。960のリグではGPUの指定なども不要だったのですが何か起動にはコツが要るのでしょうか...?

17 ：名無し名誉名人教士：2016/05/15 03:46:10 (9年前) 0MONA/0人

>>16
動作確認ありがとうございます。
現状、750Tiの設定は-i 19設定相当(実際にはそれよりほんのちょっと大きい)になっています。
-iオプションを変えてみて、動作するかどうかですね…

18 ：名無し名誉名人教士：2016/05/15 03:55:07 (9年前) 0MONA/0人

>>16
ちなみに、GPUの名称("GTX 960"など)を読み取って、自動で設定を変えるようにしています。(-iオプションが有効な場合、こちらが優先されます)
現状の設定値一覧(スレッド数)
GTX970～GTX980Ti⇒256*256*32(-i 21相当)
GTX750Ti⇒256*256*10(-i 19よりちょっとだけ大きい)
GTX750⇒256*256*5(-i 18よりちょっとだけ大きい)
GTX950～GTX960⇒256*256*8(-i 19相当)

19 ：名無し名誉名人教士：2016/05/15 04:00:08 (9年前) 0MONA/0人

>>14
動作確認ありがとうございます。
MAX設定の-iオプションを教えていただけないでしょうか。
パラメータ調整の参考にしたいです。
なお、-iオプションは小数表記にも対応しています。
例えば、-i 18.5の場合、スレッド数は393216となります。(-i 18の1.5倍のスレッド数。)
オプションの整数部分で大まかな最適値を探し、小数部分で微調整を行うってスタンスでOKです。

20 ：求不得苦七段錬士：2016/05/15 08:53:43 (9年前) 0MONA/0人

GTX970の省電力設定(-i18)で13.7MH/sでました。
以前は同じ設定で8.7MH/sでしたので大幅アップです。

21 ：名無し名誉名人教士：2016/05/15 09:40:21 (9年前) 0MONA/0人

ECOモードを実装してみました。
--ecoオプションを入れることで、少しだけ低速に動作させます。(-iオプションを指定するとそちらが優先されます)

ECOモードの設定値一覧(スレッド数)
GTX970～GTX980Ti⇒256*256*8(-i 18相当)
GTX750Ti⇒256*256*1(-i 16相当)
GTX750⇒256*256/2(-i 15相当)
GTX950～GTX960⇒256*256*1(-i 16相当)
設定値は適当ですので、最適値の報告をお願いいたします。(設定値の改善にご協力ください。)

高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!788&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

高速化-ソロマイニング用(1.5.77ベース)https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!787&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

22 ：名無し名誉名人教士：2016/05/15 10:31:43 (9年前) 0MONA/0人

>>21
アップロードミス
再度アップロードします。

高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!791&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!792&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

23 ：名無し初段：2016/05/15 12:08:13 (9年前) 1MONA/1人

980Ti 1枚で動作確認しました
-iオプション設定なしで 25MH/sくらい
-i 18 で23MH/sくらい出てます

また頑張れます
ありがとうございます

24 ：名無し六段：2016/05/15 13:35:12 (9年前) 1MONA/1人

http://askmona.org/3878
これと比較して8100Kh/s→8700Kh/s
750ti二枚差しです
タグのNGワードって何？

25 ：名無し名誉名人教士：2016/05/15 14:14:33 (9年前) 0MONA/0人

>>24
ここまで当該ソフト名は一度も出てないね…これって検索対策になる？

ところで、-iオプションの数値を変えてみるとどうなりますか？
初期設定がちょっと大きめのような気がして…

26 ：zori八段教士：2016/05/15 14:19:48 (9年前) 0MONA/0人

>>19
-i19～19.5ぐらいですかね。
それ以上は上げてもほぼハッシュが変わらなくて、ついでにかなり不安定になります。

コマンドプロンプト上で確認したトップスピードは8.8MH/sぐらいでした。

ちなみにmsiのgtx950を10%程度オーバークロックした状態で使ってます。

まあでもメインPCなんで他の作業も同時にしなくちゃいけないから、実質-i17ぐらいが限界ですかね

27 ：名無し六段：2016/05/15 14:24:30 (9年前) 0MONA/0人

>>25
該当ソフトとは？
-i　数値ってどれぐらいですか？

28 ：なむやん七段教士：2016/05/15 14:29:06 (9年前) 0MONA/0人

しーしーまいなー
えすじーまいなー
を英字で書いちゃアカンということでしょう
検索で来るかもしれない

29 ：名無し名誉名人教士：2016/05/15 14:30:26 (9年前) 0MONA/0人

>>28
えすじーまいなーは出ちゃってるけどね…

30 ：名無し六段：2016/05/15 14:33:10 (9年前) 0MONA/0人

なにもなして放置したら9000ぐらい-i 15なら7000
10なら4000ぐらい13で6000ぐらい

ここまで調べたけど上見たらデフォじゃ19...

31 ：名無し名誉名人教士：2016/05/15 14:33:40 (9年前) 0MONA/0人

>>27
GTX750Tiの場合、デフォルト値は-i 19.25相当です。

32 ：名無し六段：2016/05/15 14:35:17 (9年前) 0MONA/0人

>>28
なるほど！でもフェアじゃないね
別に自分はどうでもいいや
ちなみに-i 18で9100出ました

33 ：名無し六段：2016/05/15 14:35:59 (9年前) 0MONA/0人

ちなみに少数は使えますか？

34 ：名無し六段：2016/05/15 14:41:05 (9年前) 0MONA/0人

16は下げすぎ少数認識するかは知らないけど17.5もちょっと下がる(時間が短いせいかも)
17がベスト？
ちなみにグラボはhttp://kakaku.com/item/K0000625637/

35 ：名無し名誉名人教士：2016/05/15 14:45:02 (9年前) 0MONA/0人

>>33
-iに小数は使えます。計算式は、スレッド数＝2^(整数部分)×(1+小数部分)

-i 19.25の場合、スレッド数＝2^(19)×(1+0.25)＝655360 となります。

36 ：リキプロマン六段：2016/05/15 14:56:12 (9年前) 0MONA/0人

もし宜しければなのですが、当方でメインに採掘させている環境はlinuxなのでソースコードも一緒にアップロードさせて頂ければ嬉しいです。

37 ：名無し名誉名人教士：2016/05/15 14:58:59 (9年前) 0MONA/0人

現状、わかっている最適値一覧
(オーバークロックやメモリ実装量により変わる恐れがあるので、参考程度に…)
GTX980⇒-i 21 (名無し名誉名人手持ちGPUで確認)
GTX970⇒-i 21 (名無し名誉名人手持ちGPUで確認)
GTX960⇒-i 19 (名無し名誉名人手持ちGPUで確認)
GTX980Ti⇒-i 21 (>>23 確認)
GTX950⇒-i 19～19.5 (>>26 確認)
GTX750Ti⇒-i 17？(>>34 確認)
未検証 TitanX、GTX750

38 ：名無し名誉名人教士：2016/05/15 15:01:54 (9年前) 0MONA/0人

>>36
今、ちょっと改造中なので、次の更新(本日中予定)でソースコードうｐします。(でも、GitHubの使い方がわからないので、zipでおｋ？)

39 ：アフロ六段範士：2016/05/15 15:05:15 (9年前) 1MONA/1人

2ch閉鎖危機の時に、ブログラマーの方々がソース色々いじってたのを思い出した
かっこいい～

40 ：名無し六段：2016/05/15 15:22:12 (9年前) 0MONA/0人

しばらく-i 17.5 で9049Kh/sかな？

41 ：名無し名誉名人教士：2016/05/15 15:38:00 (9年前) 0MONA/0人

>>32 >>34 >>40
-i 17.5で9049kh/s
-i 18で9100kh/s
ってことで、18がよさそうですね…

42 ：名無し六段：2016/05/15 15:43:34 (9年前) 0MONA/0人

素人のがばがば検証なんで
信用はしないでほしい

43 ：名無し名誉名人教士：2016/05/15 16:46:56 (9年前) 0.1MONA/1人

GPUメモリ占有量を減らしてみました。(4096コア以上の場合は動作しません。TitanXが3072コアなので、大丈夫だと思います)
-i 21のとき、1.5625GB⇒67MB
-i 24のとき、12.5GB(実現不可)⇒515MB(実現可能)
あと、GTX750Ti/750のデフォルトを変えました。
速度向上はたぶんないので、無理に更新しなくてもおｋ

高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!793&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!794&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

ソースコード高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!795&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!797&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

44 ：名無し名誉名人教士：2016/05/15 16:50:09 (9年前) 0MONA/0人

>>43
あっ、GTX750Ti/750を-i 17で設定しちゃった…

45 ：名無し名誉名人教士：2016/05/15 16:55:38 (9年前) 0MONA/0人

できればプール用とソロマイニング用を統合したいところだけど…
私の稚拙な技術ではむりぽ…
C++は苦手…

46 ：なむやん七段教士：2016/05/15 17:08:33 (9年前) 0MONA/0人

GTX750Ti二枚挿しで1.4GHzにOC（ﾊｽﾞﾚ品含めてこれぐらいOCできる）
ソロ掘り11Mハッシュ出とります！
1割性能アップですね乙！

47 ：名無し名誉名人教士：2016/05/15 17:50:59 (9年前) 0MONA/0人

>>46
最適化によりGTX960≒GTX750Ti×2の状態になった…
コスパでGTX960が逆転しちゃった……のか？

48 ：名無し名誉名人教士：2016/05/15 17:55:49 (9年前) 0MONA/0人

ちなみに、まだ改善の余地があるんだよなー
いま、コアの半分しか使っていない状態なんだよ…
現状、SMあたり16スレッドで運用。32スレッドにすると何故か遅くなる。(そして750Ti/750では起動しなくなるはず)

49 ：なむやん七段教士：2016/05/15 18:13:06 (9年前) 0MONA/0人

GTX960 1024
GTX750Ti 640
性能は単純にCUDAの数の比ではない・・・！？

50 ：名無し名誉名人教士：2016/05/15 18:27:24 (9年前) 0MONA/0人

>>49
その比較でみると…シェアードメモリの容量は
GTX960 96kB/SMM ÷ 128コア/SMM × 1024コア＝ 768kB
GTX750Ti 64kB/SMM ÷ 128コア/SMM × 640コア＝ 320kB
GTX750Ti 2枚差しの場合、320kB×2＝640kB

GTX960 768kB 対 GTX750Ti×2 640kB
ってことでGTX960の勝利？

51 ：なむやん七段教士：2016/05/15 18:53:59 (9年前) 0MONA/0人

現実問題、空間やPCIeソケット2つ用意する事になるから、750 2つ買うなら960 1つかな

買う時期間違えたかなコリャ
750を今の内に売り払うかどうしようか

52 ：名無し名誉名人教士：2016/05/15 19:14:06 (9年前) 0MONA/0人

>>51
待った！
まだ最適化は終わってないぜ！！(ハッタリ)

53 ：名無し名誉名人教士：2016/05/15 19:16:21 (9年前) 0MONA/0人

グローバルメモリのアライメントとコアレスアクセス
SMあたり32スレッド化

まだヤることあるぜ！

54 ：CT9W七段：2016/05/15 20:00:50 (9年前) 0MONA/0人

これは凄い！
GTX980環境で1.7倍速以上になりました。

before

after

55 ：アフロ六段範士：2016/05/15 21:06:11 (9年前) 0MONA/0人

これ、深夜電力使ったら結構黒字になるのでは

56 ：zori八段教士：2016/05/15 21:12:15 (9年前) 0MONA/0人

GTX1080とか1070とかでも試してみたいンゴねぇ……。

ちょっと計算してみたけど、950でもグラボの電力だけで計算すると普通に黒字だった。他のパーツの電力を入れてトントンぐらい。

57 ：もにゃ子九段錬士：2016/05/15 21:12:53 (9年前) 0MONA/0人

私の今の環境で980 2基で42Mちょい出てます

58 ：アフロ六段範士：2016/05/15 21:34:24 (9年前) 0MONA/0人

ノートPCなのですが、やはりGPU採掘には向いてないでしょうか？
Intel(R) Graphics Media Accelerator HD
っていうのはグラボのことでしょうか？低レベルですいません

59 ：リキプロマン六段：2016/05/16 01:49:35 (9年前) 0MONA/0人

>>47
ソースコードありがとうございます！
準備できたらlinux版とwin版で比較してみますね。

60 ：名無し六段：2016/05/16 04:30:31 (9年前) 0MONA/0人

オンボードは今のは知らないけど
Scryptのときは素直にCPUで掘っていた方がいいレベルだったと思う

61 ：ねずみ五段：2016/05/16 06:34:06 (9年前) 0MONA/0人

GTX960の場合、約6Mh/sから10mMh/sと、約1.67倍向上しました。
-i19あたりが最適のようです。

62 ：鳥ちゃん九段錬士：2016/05/16 06:44:50 (9年前) 0MONA/0人

ありがとうございます！導入させていただきました。
GTX970×3個で30Mから45Mに跳ね上がりました！

63 ：アフロ六段範士：2016/05/16 07:54:09 (9年前) 0MONA/0人

>>60
ありがとうございます

64 ：名無し名誉名人教士：2016/05/16 08:59:48 (9年前) 0MONA/0人

>>59
速度向上だけを望むならlyla2/lyra2REv2.cu,lyla2/cuda_lyra2v2.cuを変更すればOK
(lyra2REv2.cuはエコモードの追加も含まれる。使わないならコメントアウトで対応可)

特にcuda_lyra2v2.cuについては意見を聞かせていただけるとありがたいです。(現在、若干迷走中…)

65 ：名無し名誉名人教士：2016/05/16 09:14:50 (9年前) 0MONA/0人

Geforceのハッシュレート考察(L2キャッシュ編)
Lyra2REv2では、lyra2の部分(？)で1536バイト確保する。これがすべてキャッシュ内に収まれば、速度は十分出るはず。
キャッシュ容量をCUDAコア数で割ると使えるキャッシュ容量が出るから…
TITAN X⇒L2 3MB、CUDAコアあたり1024バイト
GTX980Ti⇒L2 3MB、CUDAコアあたり1117バイト
GTX980⇒L2 2MB、CUDAコアあたり1024バイト
GTX970⇒L2 1.75MB、CUDAコアあたり1102バイト
GTX960⇒L2 1MB、CUDAコアあたり1024バイト
GTX950⇒L2 1MB、CUDAコアあたり1365バイト
GTX750Ti⇒L2 2MB、CUDAコアあたり3277バイト
GTX750⇒L2 2MB、CUDAコアあたり4096バイト
これにより、750Ti/750はもとから高速に動作していたことが分かる。
また、GTX980/GTX960などはコア数が多いことが逆にボトルネックとなっている。

66 ：名無し名誉名人教士：2016/05/16 09:50:52 (9年前) 0MONA/0人

Geforceのハッシュレート考察(シェアードメモリ編)
Lyra2REv2を高速化するうえで、シェアードメモリは重要なものです。
シェアードメモリはL1キャッシュと同等の速度で動作するため、非常に高速に動作します。
今回の改造では、この高速動作ではなく、低速メモリを使わないっていう観点で使用しています。
TITAN X,GTX980Ti～GTX950⇒シェアードメモリ 96kB/SMM、SMMあたり128CUDAコア⇒CUDAコアあたり768バイト
GTX750Ti,GTX750⇒シェアードメモリ 64kB/SMM、SMMあたり128CUDAコア⇒CUDAコアあたり512バイト
他プロセスでシェアードメモリを使っている可能性を考え、SMMの半分を使用していない状態(64スレッド/SMM)で、CUDAコアあたり768バイトを確保して運用しています。
(TITAN X,GTX980Ti～GTX950は利用率50%、GTX750Ti,GTX750は利用率75%)
GTX750Ti,GTX750はこれでいいとして、TITAN X,GTX980Ti～GTX950はもう少し改善の余地はあるか？

67 ：名無し名誉名人教士：2016/05/16 10:30:36 (9年前) 0MONA/0人

高速化によって、コスパ勢力図が変わったよ～！！
GTX980Ti 71k円、従来(推定)16MH/s⇒225H/s/円、今回25MH/s⇒352H/s/円
GTX980 54k円、従来 11MH/s⇒203H/s/円、今回20MH/s⇒370H/s/円
GTX970 35k円、従来 9.5MH/s⇒271H/s/円、今回15MH/s⇒429H/s/円
GTX960 21k円、従来 6MH/s⇒285H/s/円、今回10MH/s⇒476H/s/円
GTX950 18k円、従来 5MH/s⇒277H/s/円、今回9MH/s⇒500H/s/円
GTX750Ti 12k円、従来 4.3MH/s⇒358H/s/円、今回4.5MH/s⇒375H/s/円
OC版も含まれるので一概には言えないが、GTX960/950でも十分に性能を生かせますね！
そして、GTX980Ti/GTX980も、占有スロット数の少なさを考慮すると、選択肢に十分入るな…
GTX970は若干魅力が薄れたかな？750Tiは…まあ、今まで性能を活かせてたからね…

68 ：名無し名誉名人教士：2016/05/16 10:36:56 (9年前) 0MONA/0人

やべぇ、GTX750Ti/750の高速化案がいまいちまとまらない…

69 ：なむやん七段教士：2016/05/16 11:18:21 (9年前) 0MONA/0人

え....やっぱり無理かなぁ
プログラムはphp必死こいてやってるレベルだから手をつけられないし

70 ：名無し名誉名人教士：2016/05/16 11:38:58 (9年前) 0MONA/0人

CUDAコアあたりのハッシュレートを比較してみた。
GTX980Ti：CUDA2,816基、25MH/s⇒8.878kH/s/CUDAコア
GTX980：CUDA2,048基、20MH/s⇒9.766kH/s/CUDAコア
GTX970：CUDA1,664基、15MH/s⇒9.014kH/s/CUDAコア
GTX960：CUDA1,024基、10MH/s⇒9.766kH/s/CUDAコア
GTX950：CUDA 768基、9MH/s⇒11.719kH/s/CUDAコア
GTX750Ti：CUDA 640基、4.5MH/s⇒7.031kH/s/CUDAコア

OC品等もあるので、一概には言えないが、GTX950以上はほぼコア数に比例しているかな？
GTX750Tiはまだ改善の余地はあるのだろうか…

71 ：名無し名誉名人教士：2016/05/16 12:18:24 (9年前) 0MONA/0人

Geforce ワットパフォーマンス比較！！(Diff500、消費電力はTDPの1.5倍と仮定)
電力量料金29.93円/kWh(東京電力電灯B 第三段階料金)として、0.718円/W (24時間、1Wあたり)⇒1MONA=5円として0.144MONA/W
GTX980Ti：TDP250W、25MH/s⇒25000kH/s÷Diff500÷(250W×1.5)＝0.133MONA/W⇒0.133/0.144=0.924(赤字)
GTX980：TDP165W、20MH/s⇒20000kH/s÷Diff500÷(165W×1.5)＝0.162MONA/W⇒0.162/0.144=1.125(黒字)
GTX970：TDP145W、15MH/s⇒15000kH/s÷Diff500÷(145W×1.5)＝0.138MONA/W⇒0.138/0.144=0.958(赤字)
GTX960：TDP120W、10MH/s⇒10000kH/s÷Diff500÷(120W×1.5)＝0.111MONA/W⇒0.111/0.144=0.771(赤字)
GTX950：TDP90W、9MH/s⇒9000kH/s÷Diff500÷(90W×1.5)＝0.133MONA/W⇒0.133/0.144=0.924(赤字)
GTX750Ti：TDP60W、4.5MH/s⇒4500kH/s÷Diff500÷(60W×1.5)＝0.100MONA/W⇒0.162/0.144=0.694(赤字)

よし、GTX980を爆買いじゃ～！(それともPascalまで待つべきかな…)

72 ：リキプロマン六段：2016/05/16 14:35:51 (9年前) 0MONA/0人

というわけで今まで出ているccminerと一応比較してみました。

ASUS STRIX-GTX980 をリファレンス相当にダウンクロック(ベースクロック1126MHz、ブーストクロック1215MHz、メモリクロック7000MHz)
消費電力はnvidia-smiを用いて測定を行い、そこから得られた結果を平均しています。

73 ：リキプロマン六段：2016/05/16 14:36:13 (9年前) 0MONA/0人

ccminer 1.7.6(tpruvot version) https://github.com/tpruvot/ccminer/
Lyra2rev2 10.07MH/s 171W
Lyra2rev2(-i 21) 10.98MH/s 178W

ccminer 1.5.80 SP-MOD(sp-hash version) https://github.com/sp-hash/ccminer/
Lyra2rev2 10.90MH/s 172W
Lyra2rev2(-i 21) 10.97MH/s 175W

ccminer (alexis78 version)https://github.com/alexis78/ccminer
Lyra2rev2 10.08MH/s 170W
Lyra2rev2(-i 21) 11.00MH/s 177W

ccminer 1.5.80 r3(名無し名人 version) http://askmona.org/4314
Lyra2rev2 18.52MH/s 179W
Lyra2rev2(-i 23.75) 18.95MH/s 184W

74 ：リキプロマン六段：2016/05/16 14:44:30 (9年前) 0MONA/0人

ワットパフォーマンスはこの結果に乗っ取るのであれば、
GTX980：184W、18.95MH/s⇒18950kH/s÷Diff500÷(184W×1.5)＝0.137MONA/W⇒0.137/0.144=0.951
と結局赤字ですね・・・。

ところで、alexis78 versionは上2つのより若干高速ですが、これはlyra2v2を挟んで実行されているkeccakやcubehashが最適化影響なんですね。
なので、これらのソースを改造して名無し名人 versionに突っ込もうとしているのですが・・・なかなかうまく行きません。

ちなみにlinuxでのコンパイルは例のerror: expected an expressionが出てやっぱり無理でした。

75 ：名無し四段：2016/05/16 15:39:09 (9年前) 0MONA/0人

ところで今は東京電力は燃料費調整が -3.8円/kWh くらいになってたような

76 ：名無し名誉名人教士：2016/05/16 16:25:48 (9年前) 0MONA/0人

>>74
消費電力が実測値なら、1.5をかける必要はありませんよ。
でも、184Wか…TDPとさほど変わらないな。まだ性能を生かしきれてないと言うことかな？

77 ：名無し二段：2016/05/16 17:19:23 (9年前) 0MONA/0人

>>16ですが、色々試行錯誤していた所、紆余曲折の後、結局VGAのドライバが古かっただけという情けない結果で1.5.80SPModは6GPUのリグでも問題なく稼働しました。約0.1M程度のアップx6で約25Mから約26.5M程度で現在稼働しています。
1.5.69を使ってた事もあり、見落としていました。1.5.70以降でマイナーが全部立ち上がらないのに気づいてあーと思った所、こんなオチでした。

しかし750Tiに突っ込んだ資金を950に突っ込んでればと悔やまれます(笑)
仕方ないですけどね

?1

78 ：‌‌七段教士：2016/05/16 20:55:19 (9年前) 1MONA/1人

これ
http://amazon.co.jp/dp/B00IKAFH2I
をAfterburnerでOCしたら、5060～5100KH/s出ました。グラフィックを内蔵GPUにしたのが効いた?

ただ、常用は怖いので少し落として使う予定...

79 ：名無し名誉名人教士：2016/05/17 04:33:42 (9年前) 0MONA/0人

多少早くなった気がするので、上げてみます。
・if文を減らして分岐ダイバージェンスを減らしてみました。
・メモリ占有量が若干上がっています。(3MBほど増えました)
・再度、GTX750Ti/750のデフォルトを変えました。(-i 18相当)
・例によってGTX750Ti/750はテストしていません。遅くなることすら考えられます。

高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!798&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!799&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

ソースコード高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!801&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!800&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

80 ：名無し名誉名人教士：2016/05/17 04:59:02 (9年前) 0MONA/0人

これ以上の改造は根本から見直さないといけない…

とりあえず、プランだけ
・Lyra2の演算を4分割にして、スレッド化。
これまで、Lyra2を32バイト分まとめて演算を行っていたが、これをさらに4分割にする。8バイトずつ行うことで、メモリアクセスを最適化する。(8バイト×32スレッドのコアレスアクセスが可能。シェアードメモリ/L1キャッシュのバンクコンフリクト回避)
・Lyra2以外の演算を高速化
Lyra2REv2は、Lyra2を複数のアルゴリズムでサンドイッチした構造のため、Lyra2だけでなく他のアルゴリズムも最適化できれば…
・Lyra2REv2の全演算を1本化
Lyra2REv2は、アルゴリズムごとにGPUスレッドがあり、合計6回、順番に起動している。これを1本化できれば、GPUスレッド1つで一気に計算でき、各スレッドのデータのやり取りも簡略化できる。

こんなもんですかね？

81 ：名無し六段：2016/05/17 07:02:52 (9年前) 0MONA/0人

750tiで>>79試しました
設定なしで8900ちょっとぐらいでした

82 ：名無し名誉名人教士：2016/05/17 08:57:39 (9年前) 0MONA/0人

>>81
うーん、-i 18で9100だったことを考えると、やっぱり遅くなっていたか…
前のソースとの共存できるかな…
CUDAはCC(Compute capabilityの略)ごとにコードを生成する。
750Ti/750はCC5.0、950以上はCC5.2。
プリプロセッサでそれぞれ分岐して組めばいいだけなんだけど、結構大幅な更新が入っているんだよね…

83 ：名無し名誉名人教士：2016/05/17 09:06:44 (9年前) 0MONA/0人

CUDAには__shfl()という神掛かったものがあるらしい。(Keplerから実装)
並列スレッド間でデータをやり取りできるとのこと。
スレッド1で読んだデータをスレッド2に渡す…って使い方ができるってことだ。
>>80の「Lyra2の演算を4分割にしてスレッド化」にはまさに打って付けのものだな…

84 ：なむやん七段教士：2016/05/17 09:28:11 (9年前) 0.00114114MONA/1人

85 ：名無し名誉名人教士：2016/05/17 14:34:26 (9年前) 0MONA/0人

ひょっとしたら、シェアードメモリ、グローバルメモリ不要で、レジスタのみでいけるかもしれない…
32bitレジスタが1スレッドあたり255個使える。
Lyra2の演算に1536バイト使用するため、そのままでは32bitレジスタが384個必要になる。(大幅に足りない)
だけど、この演算を4スレッドに分けて行う場合、32bitレジスタは96個で済むため、その他のレジスタ使用を考慮しても何とかなりそうな容量だ。
(過去に384個レジスタを確保しようとしてものすごく遅くなった経験あり。レジスタ退避のメモリアクセスはキャッシュを経由しないようだ…)

86 ：なむやん七段教士：2016/05/17 14:58:21 (9年前) 0MONA/0人

8ビットマイコンみたい
アレもレジスタだけでやりくりしてたな

87 ：リキプロマン六段：2016/05/17 17:18:38 (9年前) 0MONA/0人

>>76
計算ミス失礼しました。計算し直すと1.429なのでやっぱり黒字でしたね。
TDP以上の負荷がかかっていないということは、やはりバンクコンフリクト等でメモリアクセスに時間がかかっているのでしょうね。
decredやquarkのアルゴリズムはTDP以上の消費電力を食いますが、そこで使われているテクニックは応用できないものでしょうか。

>>80
Lyra2REv2の全演算を1本化は、Visual Profilerで見る限りはあまり効果がなさそうに見えます。
sp-modではblakekeccakとして一本にまとめたりCCによってはしていなかったりしていますが、当方のGTX 980環境ではオーバーヘッドはそこまでありませんでした。

88 ：名無し名誉名人教士：2016/05/17 17:44:30 (9年前) 0MONA/0人

>>84
なむやん氏は萌えキャラ。確認。

>>87
1.429かー、電気代10000円使ったら、14290円帰ってくる計算(基本料を除く)。グラボ代を元を採るのはいつになることやら…
ちなみにSMあたり16スレッドで動作していますので、SMは32コアで構成されているため、単純計算でも50%しか使っていないことになります。
これが100%使えれば…(上手くいったとしても、電気代がすごいことになりそう)
とりあえず本命は「Lyra2の演算を4分割にして、スレッド化」ですかね？

89 ：ittou四段教士：2016/05/17 19:01:32 (9年前) 0MONA/0人

そのうちGPU買うけど、1080にしようか、Radeon Pro Duoを個人輸入しようか悩む。そうこうしているうちに、Polarisとか出てくるよねー。
電源も買わないと、500Wじゃ無理そうだ。

金掛かるなー

90 ：アフロ六段範士：2016/05/17 20:12:59 (9年前) 0.00114114MONA/1人

GPU採掘した後、採掘が儲からなくなったらヤフオクで売ればいいんや～

91 ：リキプロマン六段：2016/05/17 20:39:40 (9年前) 1.1MONA/2人

ccminer 1.5.80 SP-MOD(sp-hash version) と、ccminer 1.5.80 r4(名無し名人 version) でwarpとSMとの比とかいろいろ解析してみました。

上がSP-MOD、下が名無し名人さんのバージョンです。

これから言えることは、ブロックの数を少し増やせばSM毎のwarpの数も増え、より高速に処理を行えるのではないでしょうか。
プログラムの中身が大幅に変わったので、特性も変わったのだろうと思います。

もう一つのグラフ、これはwarpそのものについてのものです。

左、及び真ん中のグラフの青い部分はEligible、つまり適切な通信が行えているwarpを指します。
名無し名人versionの方がwarpそのものも減り、更にEligibleなwarpも増えていることが分かります。
最後の右のグラフはストールしてしまったwarpの内訳です。
SP-MODではメモリ関連によるストールが圧倒的ですが、名無し名人 versionではこれを綺麗に解決していることが分かります。

92 ：リキプロマン六段：2016/05/18 01:21:57 (9年前) 3.9MONA/1人

取り急ぎ、cubehashを最適化しました。大体7%程の高速化なので全体として体感できるほど早くはならないとは思います。

使い方
1、以下のurlからダウンロードする
https://www.dropbox.com/s/nomgfv0gabbp81t/ccminer-cubehashmod.zip?dl=0
2、>>79 のソースコードのフォルダにあるAlgo256フォルダの中にcuda_cubehash256.cuを上書きする。
3、VisualStudioでソースをコンパイルする。
4、コンパイルしたccminerでモナコインを掘る

93 ：名無し名誉名人教士：2016/05/18 07:15:29 (9年前) 12.00114114MONA/3人

根本的な見直しをしてみました。結構早くなったと思います。
・Lyra2の演算を4分割にして、スレッド化した。
・1ブロック32スレッドで動作するようにした。
・Lyra2のメモリ1536バイトすべてをシェアードメモリで確保した。
・GPUメモリ使用量削減(-i 24のときで512MB)
・リキプロマン氏のcubehash最適化を取り込んだ
スレッド数の最適値が変わることが予想されます。-iオプションでスレッド数を調整して、最適値を見つけていただければと思います。(GTX980では-i 23.5～24くらいでした。21.5MH/s)
高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!803&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!802&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!805&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!804&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

94 ：名無し初段：2016/05/18 07:50:55 (9年前) 0MONA/0人

>>93
すごい！GTX960のgit版で5900だったのが10900とか魔術か！

95 ：なむやん七段教士：2016/05/18 08:16:20 (9年前) 0MONA/0人

CPUZの表示を信じるなら、750Tiはデフォで消費電力半減
ハッシュレート調べる時間はちょい無かった

96 ：名無し名誉名人教士：2016/05/18 08:42:13 (9年前) 0MONA/0人

>>95
消費電力半分？
ってことは、-iオプションを上げれば、もっと速度が期待できるかもね…？

97 ：なむやん七段教士：2016/05/18 08:47:45 (9年前) 0MONA/0人

とりあえず-i 21にしたけど
もっと上げられそうかも

98 ：リキプロマン六段：2016/05/18 08:49:14 (9年前) 0MONA/0人

>>93
まさかプラン宣言から丸一日で仕上げてくるとは思いませんでした・・・。お疲れ様です。
cubehashの高速化の確認はGTX980を使ってlinux上で行ったのですが、もしかしたら他のGPUでは相性により遅くなるかもしれません。オプション扱いにしてもらえるとありがたいです。

以下cubehashのメモ。
cubehashの実装はtpruvotベースのとSP-MODの2つあり、ソースコードの最適化もSP-MODの方がより練られているように見える。
しかし、実際のところはtpruvotベースの方が10%高速である。cuda_helper.hの違いによるものかと思い探っているもののこれといった情報が見つからない。
今回の最適化はただ単にブロック、スレッド数の調整をいろいろやってなんとか7%稼いだといったところです。なのでGPUによっては遅くなる可能性もあります。

99 ：名無し名誉名人教士：2016/05/18 08:54:44 (9年前) 0.114114MONA/1人

今回の速度改善の最大のポイントは「Lyra2の演算を4分割」です。
通常、1スレッド32バイトを1単位としてメモリアクセスしていました。
今回、そのスレッドを4分割したので、1スレッド8バイト単位でアクセスします。
シェアードメモリ、L1キャッシュは8バイト32バンク構成のため、32スレッド同時アクセスで全バンクをコンフリクトなくアクセスできます。
また、1スレッド1536バイト確保していたものが、4分割により384バイトで済み、384バイト×32スレッド＝12kバイトをすべてシェアードメモリで確保することが可能となっております。
ただし、スレッド間の転送が必要となりますので、要所で同期をとることとなるため、若干待機時間が生まれるのかな？(おそらく不可避)

100 ：リキプロマン六段：2016/05/18 08:56:38 (9年前) 0MONA/0人

ちなみにリファレンス相当にダウンクロックしたGTX 980で20.85MH/s(-i 24)、消費電力は185Wでした。

101 ：名無し二段：2016/05/18 09:50:44 (9年前) 0MONA/0人

>>93
750tiではものにより差があり微増ですが、大体4.6M程度まで上がりました。
6GPUで27.2M前後です。
960では12.5M程度まで上がりました。-iオプションは取り敢えず無しでの状態です。-iオプションは取り敢えず無しでの状態です。消費電力は後ほど報告できるかと思います。もう少し様子を見てみます。

102 ：名無し名誉名人教士：2016/05/18 10:04:23 (9年前) 0MONA/0人

今回は、L2キャッシュの恩恵をほとんど受けないような改造となっております。
そのため、純粋にクロック数とCUDAコア数で速度が決定されると思われます。(メモリクロック数もあまり影響受けない…かな？)
GTX980(1216MHz,2048コア)を20.85MH/sとして考えると
GTX980Ti(1075MHz,2816コア)は20.85×(1075÷1216)×(2816/2048)＝25.34MH/s
以下、同様に
TitanX(1075MHz,3072コア)は27.65MH/s
GTX970(1178MHz,1664コア)は16.41MH/s
GTX960(1178MHz,1024コア)は10.10MH/s
GTX950(1188MHz, 768コア)は 7.64MH/s
GTX750Ti(1085MHz, 640コア)は 5.81MH/s
GTX750(1085MHz, 512コア)は 4.65MH/s
さて、この仮説はどこまで正しいのかな？(-iオプションを調整した値で試してみてね)

103 ：名無し名誉名人教士：2016/05/18 10:06:36 (9年前) 0MONA/0人

>>102 の仮説通りの結果が出ないなら、まだ改造の余地がある…って考えでいいのかな？(そろそろ改造ネタは出尽くしてきているが…)

104 ：名無し名誉名人教士：2016/05/18 10:35:34 (9年前) 0MONA/0人

>>102 の考えでお買い得なGPUを考えてみよう。
TitanX 160k円、27.65MH/s⇒173H/s/円
GTX980Ti 71k円、25.34MH/s⇒357H/s/円
GTX980 54k円、20.85MH/s⇒386H/s/円
GTX970 35k円、16.41MH/s⇒469H/s/円
GTX960 21k円、10.10MH/s⇒481H/s/円
GTX950 18k円、 7.64MH/s⇒424H/s/円
GTX750Ti 12k円、 5.81MH/s⇒484H/s/円
GTX750 10k円、 4.65MH/s⇒465H/s/円
この結果だとGTX750Tiだけど、現状はそこまで速度が出ている気がしないしな…
それならGTX960かな？GTX950,GTX970も捨てがたいが…

105 ：名無し名誉名人教士：2016/05/18 10:46:56 (9年前) 0MONA/0人

>>100
ちなみに今回のコードはLinuxでいけませんか？
(LD4G、ST4Gは使っていないので削除しても大丈夫です)

106 ：名無し名誉名人教士：2016/05/18 11:02:01 (9年前) 0MONA/0人

ネタでGTX 1080を検証してみる。
CUDAコア:2560、ブーストクロック: 1733MHzなので、単純計算すると…
20.85×(1733÷1216)×(2560/2048)＝37.14MH/s
(>>102の計算方法)
ぱねぇ…クロックが段違いだから…

価格はどうだろう…仮に90k円くらいとして…
(37.14×10^6)÷90000＝412.67H/s/円
(ハッシュレート÷価格)
GTX950買うぐらいなら、これもありじゃね？
(まだ動作するかどうかわからないが…)

107 ：ねずみ五段：2016/05/18 12:59:15 (9年前) 0MONA/0人

GTX960(Palit)で >>93 のバージョンを使った場合のハッシュレート晒します

-i kh/s
無し 12000±200
18 11000
19 11800
20 12100
21 12100
22 12100 ハングしそう

-i19～20が良さそうです。
デフォルトもそのあたり？

なお、20回に1回ほど、ハッシュレートが8500kh/s程度まで落ち込みました。

108 ：名無し名誉名人教士：2016/05/18 13:27:53 (9年前) 0MONA/0人

>>107
デフォルトは-i 19です。
PalitのGTX960は1342MHz(ブースト時)だから、
>>102の検証で行くと、
20.85×(1342÷1216)×(1024/2048)＝11.51MH/s
だから、ほぼ>>102の理論通りに出ていると考えてよさそうだな…
だとすると、>>101のGTX750Tiはもうちょっといけるはず…
ComputeCapability 5.0だからって、そんなに違いはないはず…だよね？
(GTX950以上はComputeCapability 5.2)

109 ：名無し六段：2016/05/18 13:59:15 (9年前) 0MONA/0人

-i　オプションってどういうときにあげたら高速化が見込めそうなんですか？
ちなみに750ち二枚で9260ＫＨ／ｓぐらいです

110 ：名無し六段：2016/05/18 14:06:50 (9年前) 0MONA/0人

ASIC Quality79.9%
ASIC Quality83.4%
参考程度に自分のGPU-Zのあれこれ

111 ：名無し名誉名人教士：2016/05/18 15:11:35 (9年前) 0MONA/0人

>>109
上げてみて、ハッシュレートが上がれば、さらにその上を試す。
逆に下がれば、その直前の値が上限だと分かる。

上げてみて、いきなりハッシュレートが下がれば、元の値が大きすぎるため、徐々に下げていく。

私の環境(GTX980)の場合、徐々に上げていき、-i 24で約21.5MH/sとなり、-i 25にしたら約17MH/sとなった。よって、-i 24が上限と思われる。
上限を過ぎると急激に落ちるので、何となくわかると思う。

また、当該GPUでディスプレイにつないでいる場合、上限近辺だと画面表示がカクカクするので(コマ落ちっぽい感じ)、ある程度下げた値にした方がいいと思う。

112 ：リキプロマン六段：2016/05/18 15:29:06 (9年前) 1MONA/1人

>>105
linuxでも正常にコンパイル出来、動作確認できました。これで詳しく分析することが出来そうです。
ちなみにwindowsとのハッシュレートの差はあまり無いようです。
cubehashの高速化もlinux、windows双方で検証しましたが両方共高速化されていて良かったです。

分析の結果、前回と比べてlyra2rev2で7%、cubehashで7%、それにより全体として5%の性能向上が認められました。
例によってまたグラフを見て考察してみます。上が前回(r4)、下が今回(r5)です。
実は前回は-iの値を統一していなかったため比較に意味がありませんでした。今回は-i 24に統一して比較しています。

113 ：なむやん七段教士：2016/05/18 15:45:42 (9年前) 0MONA/0人

>>1 で配布されてるやつ -i 21

>>93 で配布されてるやつ -i 22

5.5M　→ 5.6M　に微増ですな、ただし-iの数値は違いますので参考になるかは別ですね...

114 ：名無し六段：2016/05/18 15:49:34 (9年前) 0MONA/0人

>>111総当たりしかないのか…

115 ：名無し六段：2016/05/18 15:54:49 (9年前) 0MONA/0人

自分も-i 22にしたら9500ぐらいまで行けますねデフォが9260なんで
250ぐらい(一枚当たり120KH/Sぐらいアップ？

116 ：名無し名誉名人教士：2016/05/18 15:58:55 (9年前) 1MONA/1人

>>113
-i 21,22ですか…まさかそこまで上げられるなんて…
現状、750Tiは-i 18にしております。
この結果なら、デフォルト値を-i 21(エコモードで-i 18)に変更すべきですかね？

117 ：なむやん七段教士：2016/05/18 16:02:13 (9年前) 0MONA/0人

一応-i 24までできるようだけど下がるからこのぐらいが良いのかな
小数点以下をいじる気力がない。。。
あと消費電力半減は気のせいだった

118 ：名無し六段：2016/05/18 16:05:14 (9年前) 0MONA/0人

23まで上げたら一気に下がったから
まぁ21か22あたりがいいと思うまぁ2～3分つけただけだから
本調子になるともうちょっと上がるかも

119 ：リキプロマン六段：2016/05/18 16:39:31 (9年前) 3.9MONA/1人

>>112 のグラフ3、4枚めのIPCを見ると、実は改良後の方がクロック当たりに実行される命令は少ないことがわかります。
ですが、5枚目右端グラフにあるストール原因としてのMemory Dependencyが改良後は全くなくなっています。
つまり、スレッド数を増やしたことによるオーバーヘッドよりも、全てシェアードメモリ内で処理が完結するようにした恩恵のほうがやはり大きかったと言えるでしょう。
課題としては急激に増えたExecution Dependencyの対処です。これは実行したい命令に必要なデータが手元にないためストールするといったものです。
これは命令レベルの並列性を増やすことで改善に向かう傾向にあるのですが・・・

120 ：名無し名誉名人教士：2016/05/18 17:18:25 (9年前) 0MONA/0人

>>119
round_lyra_v35()内で__shfl()を使っているのが原因かな？
round_lyra_v35()はかなり使用頻度が高いもんね…

121 ：リキプロマン六段：2016/05/18 18:38:39 (9年前) 0MONA/0人

>>120
__shfl()の出現頻度は高いので恐らくそうかもしれません。
4スレッドから2スレッドに減らすことによってExecution Dependencyによるストールを減少させれば、コアレスアクセスにはなりませんが高速化する可能性はありますね。

122 ：リキプロマン六段：2016/05/18 19:51:00 (9年前) 0MONA/0人

>>121
言葉が足りませんでしたが、round_lyra_v35()だけスレッド数を2ないし1にすると効果あるのではという話でした。

123 ：リキプロマン六段：2016/05/18 20:29:37 (9年前) 0MONA/0人

lyra2rev2の全演算1本化は効果がないと言ったな。あれは嘘だ。
再度blakekeccakを検証すると、確かに速度が上がっていました。ソースも斜め読みしてみましたが、2つのアルゴリズムをただ単に接続しているわけではないようで・・・？
これにとりかかるのはちょっと大変そうですね。

124 ：名無し名誉名人教士：2016/05/19 06:06:45 (9年前) 1.00114114MONA/2人

若干速くなっていると思うので、上げます。
・if～else～を一部排除した。
・reduceDuplex、reduceDuplexRowSetupの一連をひとまとめにした。
・スレッド間データ転送を64ビットで行うようにした。(従来：32ビット×2)
・デフォルト値修正(GTX750～GTX960：-i 21、GTX970～TitanX：-i 22、エコモードは3小さい値に設定。それぞれ-i 18、-i 19)

高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!811&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!812&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!810&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!809&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

125 ：名無し名誉名人教士：2016/05/19 06:09:26 (9年前) 0MONA/0人

GTX970

GTX980

126 ：名無し名誉名人教士：2016/05/19 06:15:54 (9年前) 0.00114114MONA/1人

もう私の技量的にもこれ以上の最適化は難しいな…
リキプロマン氏の案もどのように作ればいいか見当がつかない…(round_lyra_v35のスレッド数を減らす件)

あと、書いている間になんか1ブロック掘れたようだ…

127 ：ねずみ五段：2016/05/19 06:17:06 (9年前) 0MONA/0人

>>126 掘り当ておめー

128 ：ねずみ五段：2016/05/19 06:34:36 (9年前) 0MONA/0人

GTX960(palit)でのハッシュレート晒します。
-i19のとき
r5 11900kh/s
r6 12400
と、約4％向上しました。
また、r5以前で発生していたハッシュレートの落ち込みは無くなりました。

なお、ASICは78%です。

129 ：名無し名誉名人教士：2016/05/19 06:51:02 (9年前) 1MONA/1人

・if～else～を一部排除した。
これは、もともとはグローバルメモリへのアクセスを極力減らそうと試行錯誤の結果のifだったと思います。ですが、シェアードメモリを使用する現在、このifは逆に遅くなる原因になっています。(ifブロックが動作している間、elseに該当しているスレッドはストールし、逆もまた然り。)

・reduceDuplex、reduceDuplexRowSetupの一連をひとまとめにした。
これもメモリアクセス関係。よく調べてみると、reduceDuplexでデータを書き込んだ直後、次のreduceDuplexRowSetupで同じ領域を読み込んでいるので、この一連の流れを最適化してみました。

・スレッド間データ転送を64ビットで行うようにした。(従来：32ビット×2)
__shfl()はuint2型は使用できませんでした。そのため、従来はuint32_t型を2回使用していました。これをuint64_tで行い、1回でできるようにしました。それに伴い、ソースコードの大半のuint2はuint64_tに置き換わっています。(一部例外アリ)

・デフォルト値修正(GTX750～GTX960：-i 21、GTX970～TitanX：-i 22、エコモードは3小さい値に設定。それぞれ-i 18、-i 19)
動作報告によると、どうもGTX750/750Tiの設定が小さすぎたようなので、デフォルト値を上げてみました。従来通り、-iオプションを設定すると、そちらが優先されますので、気に入らないって方はそちらを使用してください。

130 ：コダチ＠ふんわり極名人錬士尊者：2016/05/19 08:19:46 (9年前) 0MONA/0人

>>129
毎度お疲れ様です

私もr6を試してみたので曝します。

当方、異種GPUのデュアルグラフィックスというとっても変則的な環境で試してみましたが、公称どおりのパフォーマンスは出ているようです。

131 ：名無し名誉名人教士：2016/05/19 10:11:31 (9年前) 0MONA/0人

うむむ…変なこと思いついちゃった…

前段･中段･後段にカーネルを分けてみるか？(順次起動する)

中段(メモリをたくさん使う箇所)だけ4分割計算すれば、シェアードメモリをフルに使えるし(r5以降の方法)

前段･後段(Execution Dependencyが多発していると思しき箇所)は、
ほとんどメモリ使わないから、従来の方法でもメモリストールは回避できるし(r4以前の方法)

なんかよさそうな気がしてきた。
別スレで「3段撃ち」なんて言っていたのはこれのことだったのか…

132 ：リキプロマン六段：2016/05/19 13:14:32 (9年前) 0MONA/0人

>>124
まさしく日進月歩の改良、お疲れ様です。
リファレンス相当のGTX 980で21.52MH/s(-i 24)、消費電力は181Wでした(消費電力は以前と比べて明らかに減少しているようです)。
前回と比べてlyra2rev2で6%性能向上、それにより全体として2%の性能向上が認められました。

今度は必要な部分を抜き出してデータにしました。上が前回(r5)、下が今回(r6)です。

133 ：リキプロマン六段：2016/05/19 13:36:24 (9年前) 0MONA/0人

>>132
改良によってIPCは1.47から1.52に上昇しています。
一番右の表はカーネルとシェアードメモリ間の通信量を示していますが、おそらくreduceDuplexあたりの改良によってやりとりするデータそのものが減っていることがわかります。
真ん中ふたつのグラフのワープサイクルが減っているのは3つの改良がそれぞれ効果を生んでいると思うのですが、スレッド間データ転送をuint64_tにしたので転送回数はだいたい半分に減ったはずです。
その割にExecution Dependencyを原因とするストールが減らないのは不思議です。
もしかして全然別のところでストールが発生しているとか・・・？ソース辿ってデバッグしたいのですが、VisualStudio入れ替えしていていますぐには出来そうにありません;;

>>131 のアイデアは確かに良さそうです！確かに最初からスレッドを4分割する必要は無いですしね。

134 ：名無し六段：2016/05/19 13:39:54 (9年前) 0MONA/0人

新しい奴で9700ぐらいで瞬間的に9800ぐらいまで出ました
750ti二枚です
きっと夢の10000まで届けてくれそう

135 ：名無し名誉名人教士：2016/05/19 14:57:16 (9年前) 0MONA/0人

>>132
お、バンクコンフリクトが0だ。悩んだ甲斐があったな。
__shfl()はスレッド間同期が必要だからExecution Dependencyが起こると思いますが、2～3個連続する程度は影響ないのかもしれませんね…
(っていうか、これ以外の原因が思い付かない)

136 ：名無し二段：2016/05/19 17:21:46 (9年前) 0MONA/0人

R6のマイナーの結果ですが、750Tiのx1 -x16変換をかましているGPUx6のリグでは帯域の細さからか向上は直挿しの単騎のPCよりも低くなる傾向が出ました。R5では27Mのものが27.8M程度、単騎の方ではR5で4.7M、R6で5.1Mと向上幅が大きいです。もう少し馴染むまで時間がかかるかもしれないので注視しておきます。こうなると750Tiはもうお払い箱感があり、直刺しの980 1枚のほうがフットプリント的にもリグフレームも変換ケーブルも要らないのでコスパ高い感じです。

137 ：名無し六段：2016/05/19 17:34:38 (9年前) 0MONA/0人

x1から変換して使ってたらハッシュ下がるんですか？
自分の環境で-d つけたら（どっちがどっちかわからないけど4953と4943なのであまり変わらないのでは？

138 ：リキプロマン六段：2016/05/19 17:42:40 (9年前) 0MONA/0人

lyra2v2の計算はGPU-CPU間の通信をあまり行わないはずなので、帯域の細さに起因する速度低下は考えにくいと思います。
750tiそれぞれの電力消費量はどういった感じですが？6枚差しで電力供給が不安定になっている可能性があります。

139 ：名無し四段：2016/05/19 17:51:08 (9年前) 0MONA/0人

3段打ちって言ってたのizunaさんだっけ

140 ：名無し名誉名人教士：2016/05/19 17:51:33 (9年前) 0MONA/0人

ここまでGTX750(無印)の動作報告があらわれなかったので、
中古で買ってきました。
GTX750

うん、もうちょっと出てほしい感はあるんだけど…
なぜかGTX750Ti/750はハッシュレート上がりませんね…

141 ：名無し名誉名人教士：2016/05/19 17:52:35 (9年前) 0MONA/0人

ディスプレイに4K使っているからかしら？

142 ：リキプロマン六段：2016/05/19 17:59:14 (9年前) 0MONA/0人

http://www.gputechconf.jp/content/includes/gtc/redesign/asia/jp/pdf/1076.pdf?v1.0
を読みながらデバッグしようとしているのですが、コンパイルオプションで -G と -lineinfo を有効にするときちんと処理が出来ないccminerが出来上がってしまう・・・
これさえ出来ればどこのソースで問題が起きてるかわかるようになるのになぁ

143 ：名無し名誉名人教士：2016/05/19 18:04:10 (9年前) 0.00114114MONA/1人

ちょっ！
>>131の方法を試しに作ってみたんだが…
取り急ぎ画像のみ報告

GTX750

144 ：ねずみ五段：2016/05/19 18:05:49 (9年前) 0MONA/0人

>>143 !?

145 ：リキプロマン六段：2016/05/19 18:07:06 (9年前) 0MONA/0人

>>143
ハッシュレート爆上げじゃないですかやったー！

146 ：名無し名誉名人教士：2016/05/19 18:32:40 (9年前) 0.00114114MONA/1人

夢…じゃないんだよな？

GTX970 ソロマイニング用

147 ：名無し名誉名人教士：2016/05/19 18:33:41 (9年前) 0MONA/0人

まさかソースコードを適当に変更したら一発OKとか…

148 ：名無し名誉名人教士：2016/05/19 18:48:11 (9年前) 0.00114114MONA/1人

正直、何が起こったのか…にわかに信じられないが、速くなっていると思うので、上げます。
・カーネルを前段、中段、後段と3分割して、順次起動するようにした。
・前段、後段スレッドはr4のものをベースとした。なお、state配列のアクセスが多かったため、この配列をシェアードメモリで確保した。
・中段はメモリを喰うプロセスを担当。r6のものをベースとし、4分割で動作させて(スレッド数4倍)、メモリ量を減らし、シェアードメモリで確保した。
・カーネル間のデータ転送はグローバルメモリを使用(ほかに方法がない)
・デフォルト値は以前のものに修正(グローバルメモリの使用量が増え、何が起こるかわからないため)

高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!814&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!813&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!815&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!816&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

149 ：‌‌七段教士：2016/05/19 18:54:51 (9年前) 0MONA/0人

やばいです
750ti afterburnerOCなしで4.6→5.8

150 ：くらうどまいなー七段：2016/05/19 19:01:28 (9年前) 0MONA/0人

これはGTX1080を早い段階で買って試さずにはいられないな

151 ：名無し名誉名人教士：2016/05/19 19:05:38 (9年前) 0MONA/0人

GTX980はこんな感じ

152 ：名無し名誉名人教士：2016/05/19 19:06:34 (9年前) 0MONA/0人

元のやつから比べたら倍以上になってるｗｗｗ

153 ：名無し名誉名人教士：2016/05/19 19:12:50 (9年前) 0MONA/0人

クラウドマイニングよりも安価にできるんじゃないだろうか…
(このソースが海外勢に渡らなければ)

154 ：‌‌七段教士：2016/05/19 19:14:46 (9年前) 0MONA/0人

暫くしたら消して直接ファイルを送るようにするとか…流石にやり過ぎかな。

155 ：名無し名誉名人教士：2016/05/19 19:21:40 (9年前) 0MONA/0人

>>154
まあ、英語はほとんど使ってないし、検索に引っかかってもわからないでしょ…
流れたらまあ、その時はそのとき…

156 ：なむやん七段教士：2016/05/19 19:26:04 (9年前) 0MONA/0人

天安門事件天安門事件
天安門事件天安門事件
これで完璧

157 ：名無し名誉名人教士：2016/05/19 19:27:32 (9年前) 0MONA/0人

ちなみに、1スレッドあたり160バイトのグローバルメモリ確保しています。
-i 22の場合、2^22×160バイト＝640Mバイトを使用します。
そのため、-iオプションをあまり大きくすることができません。
(それでも、元よりは大きくすることはできるんだが…)

158 ：名無し名誉名人教士：2016/05/19 19:28:35 (9年前) 0MONA/0人

>>156
それでASKMona自体が消されないだろうか…？

159 ：名無し六段：2016/05/19 19:29:37 (9年前) 0MONA/0人

11600ぐらい出た！！！！！！
一時半のとき10000に届かないかな（ﾁﾗｯって言ったばっかりなのに！
今こんな感じだわ

160 ：名無し名誉名人教士：2016/05/19 19:52:04 (9年前) 0MONA/0人

GTX980を調整してみた。
-i 21 24.90MH/s
-i 22 24.95MH/s
-i 23 25.05MH/s
-i 24 25.10MH/s
なんか際限なく上がっていく感じだな…
(ちなみに-i 24.5でメモリが3840Mバイトになり、32bit版のためそれ以上は上げられない)

161 ：名無し名誉名人教士：2016/05/19 19:54:50 (9年前) 0MONA/0人

試しに64bit版をビルドしてみるか？
前に試したときは遅くなったんだが…

あと、64bit版で恩恵を受けるのがTitanXくらいしかないんじゃないかな？

162 ：名無し名誉名人教士：2016/05/19 20:03:42 (9年前) 0MONA/0人

>>150
GTX980(Palit製ブースト時1304MHz)で25MH/sだった。
これをGTX1080に置き換えると、単純計算で
25MH/s×(1733÷1304)×(2560/2048)＝41.53MH/s

これは期待せざるを得ないｗｗｗ

163 ：名無し四段：2016/05/19 20:04:19 (9年前) 0MONA/0人

http://askmona.org/4235?n=1000
の5と6
三段打ちって書いてるのやっぱizunaさんだった

これに書かれてるやり方を使ったかどうかはわからないけど

164 ：なむやん七段教士：2016/05/19 20:08:41 (9年前) 0MONA/0人

>>158
中華限定だけど金盾で弾いてくれるからねw

165 ：名無し名誉名人教士：2016/05/19 20:09:02 (9年前) 0MONA/0人

64bit版をビルドしてためしてみた。
若干落ちるが、十分性能出ているではないか。

GTX980(-i 23)

GTX1080(メモリ8GB)の準備はこれでOKか？

166 ：リキプロマン六段：2016/05/19 20:15:18 (9年前) 39MONA/1人

>>148
正直自分も驚きを隠せません。お疲れ様です。
リファレンス相当のGTX 980で24.32MH/s(-i 24)、消費電力は194Wでした。今までの傾向と違って少し消費電力が上昇したようです。
メモリ関連のデータも追加して、今回のlyra2rev2の3つのカーネルのデータをグラフにしました。（1番目のグラフの順番だけちょっと違いますね。ごめんなさい。）

これらの改良が功を奏し、軒並みIPCが上昇しています。
シェアードメモリでの通信速度も以前ではロード/ストア合わせて300GB/sほどだったのが、1番と3番では約2TB/s、2番でも約500GB/s程に高速化されました。
Execution Dependency関連のストールは相変わらず大きな割合を占めていますが、少なくとも1番と3番ではEligibleなwarpが7割以上あるため、ストール自体の数は減っていると思われます。
今後の改良として、3番目のカーネルで増えてしまったメモリ関連のストールを減らすために、2番と3番をもう一度再結合してみるというのはどうでしょうか。

167 ：リキプロマン六段：2016/05/19 20:17:57 (9年前) 0MONA/0人

>>161
そう、自分も64bitでコンパイルしてみるとwindows環境ではハッシュレート微妙に落ちるんですよね。
ただ、linux環境では64bitでのコンパイルを普通に行っているのですが、windowsでの32bit版と同等のハッシュレートが出ているんですよね。
こればかりは環境の違いでしょうか。

168 ：名無し名誉名人教士：2016/05/19 20:33:02 (9年前) 0MONA/0人

>>166
2番と3番をまとめてみた。ちょっと落ちるな…

GTX980 -i 23

169 ：リキプロマン六段：2016/05/19 20:42:42 (9年前) 0MONA/0人

>>168
申し訳ないです。よくよく見ると、2番のカーネルが一番処理に時間がかかっているのですが、その処理時間を100とした場合、
1番：15.90
3番：2.64
と全然処理時間が異なるんですね。なので、3番のカーネルがメモリ関連で遅くなっていると言ってもたかが知れてるということになります。

170 ：リキプロマン六段：2016/05/19 21:01:07 (9年前) 0MONA/0人

あと、VisualProfilerの機能で、実行時間やOccupancyとかから改善した方がいいカーネル（改善したらその分パフォーマンス上がりそうなカーネル）をランク付けしてくれるものがあるんですが、まぁ今まではlyra2v2が改善した方がいいカーネル第一位だったんですね。
そのlyra2v2カーネルが3つに分かれたことによってランクがちょっと変化しました。
4スレッドで頑張る2番カーネルが一位になる一方で、1番と3番はそこまで優先度は高くないかな？という形になりました。

171 ：名無し名誉名人教士：2016/05/19 21:44:50 (9年前) 0MONA/0人

ちょっとだけ修正(lyra2REv2.cu)
CUDA_SAFE_CALL(cudaMalloc(&d_hash2[thr_id], 4 * sizeof(uint64_t) * 4 * throughput + 128));
d_hash2[thr_id] = (uint64_t*)(((uint64_t)d_hash2[thr_id] + 127)&~127);
lyra2v2_cpu_init(thr_id, throughput, d_hash2[thr_id]);
CUDA_SAFE_CALL(cudaMalloc(&d_hash[thr_id], 8 * sizeof(uint32_t) * throughput + 128));
d_hash[thr_id] = (uint64_t*)(((uint64_t)d_hash[thr_id] + 127)&~127);

リキプロマンさんなら何処の修正か分かるはず。L1キャッシュはちゃんと使われているかな～？

GTX980

172 ：名無し二段：2016/05/19 21:58:56 (9年前) 0MONA/0人

750Tiの方は6Mちょっと、960は15M弱という感じで軒並みレートが上がっていますが同時に消費電力も750Ti1枚あたり4〜7W程度、9601枚あたり10〜20W程度、上がっていますね。
しかしスゴイな、ウチのリグ達の総ハッシュレートは合計で80M程上がりました

173 ：ねずみ五段：2016/05/19 22:06:40 (9年前) 0MONA/0人

>>156 八九民运六四运动六四 8×8 82 Eight Squared 5月35日 TSM
これで完璧

174 ：リキプロマン六段：2016/05/19 22:10:35 (9年前) 0MONA/0人

>>171
えーと、lyra2REv2.cuでハッシュ計算のdo-while文のちょっと前で呼ばれてるメモリ確保の部分ですよね？
で、確保した領域に対して127（0111 1111）を足して更に127でNANDする・・・？
この操作とL1キャッシュは何か関係はあるのでしょうか。

175 ：名無し名誉名人教士：2016/05/19 22:14:33 (9年前) 0MONA/0人

>>174
開始アドレスを128の倍数にする(アライメント)
これによりL1キャッシュ(4バイト×32バンク＝128バイト)にヒットするようになる(んじゃないかな？たぶん…)

176 ：なむやん七段教士：2016/05/19 22:51:53 (9年前) 0MONA/0人

我々はさらなる手法による、モナコインの膣圧上昇が微レ存である
白蟻の侵入を懸念、概ねの結合された、天安門に挿入開始を確認
リキプロによるアルミ侵食を歓迎、全国公開オナニー大会の開始を阻止する
さらなる改良によるカーネル三ダースの記憶確保の困難、制御不能領域
無一物唯一の現状懸念、将来性を見越してGTX750Tiの生産であることを理解
我々はあなたにとって最もすぐれたアドレスの128することができる回答であるだろう

(｀・ω・´).+ﾟ

177 ：リキプロマン六段：2016/05/19 22:52:38 (9年前) 0MONA/0人

>>175
なるほど！名無し名誉名人さんは高速化に関する引き出しが多くて尊敬します。
確かにlyra2v2の3つのカーネルのうち、L1キャッシュのヒット率はどれも高くないので、このアライメント操作でうまくいくと効果は高そうですね。

178 ：リキプロマン六段：2016/05/20 01:11:51 (9年前) 0MONA/0人

寝る前にCUDAのおべんきょして寝よう。
http://nvlabs.github.io/moderngpu/performance.html
CUDAの資料はだいたい英語だし、日本語の入門書は古くて使えないし、新しい情報載ってる奴は一冊数千円して手が届かないしで、本当にとっつきにくいなぁ。

179 ：名無し初段：2016/05/20 01:17:54 (9年前) 0MONA/0人

これ使ってEC2のGPUインスタンスとかで採算とれたりとかしないのかしら（素人考え）

180 ：ハッテン場五段：2016/05/20 04:10:18 (9年前) 0MONA/0人

ククク・・・　AMD 信者などといいつつ 750ti を９枚持ってる俺様も遠慮無く使わせてもらうぜ・・・！　ヒャッハー！！

181 ：名無し六段：2016/05/20 06:07:03 (9年前) 0MONA/0人

1080があるし980ti値段下がらないかなぁああああ
改良型と普通のマイナーじゃワッパコスパ変わるのかな？

182 ：名無し名誉名人教士：2016/05/20 06:13:41 (9年前) 0MONA/0人

>>181
今、在庫処分特価とかやってなかったっけ？
あと、中古も探してみよう。

183 ：名無し名誉名人教士：2016/05/20 06:15:20 (9年前) 0MONA/0人

とりあえず、ここまでできた。
どうやら、ローカル配列は固定長ならレジスタで確保するようだ。シェアードメモリからローカル配列に戻してみた。

GTX980 -i 23

184 ：名無し名誉名人教士：2016/05/20 07:03:16 (9年前) 39MONA/1人

微差ですが、ちょっと速度が上がったので…
・グローバルメモリのアライメント調整を行った。lyra2REv2に限らず、cubehash等のメモリアクセスを改善した。(といっても、ほとんどアクセスしていない…)
・前段･後段のシェアードメモリを使用しないようにした。(固定長配列はシェアードメモリより速いようです。レジスタで確保されるのかな？)

高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!817&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!818&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

ソースコード高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!819&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!820&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

185 ：名無し名誉名人教士：2016/05/20 07:05:15 (9年前) 0MONA/0人

今日から1週間出張だ！しばらく改造できない…
(出張先で開発環境を用意すればいいだけだけど…)

186 ：名無し名誉名人教士：2016/05/20 07:22:58 (9年前) 0MONA/0人

ついに970でも20MH/sの大台に！

GTX970 ソロマイニング用

187 ：なむやん七段教士：2016/05/20 08:34:38 (9年前) 0MONA/0人

GTX750Tiは過度な射精行為、運用実績を積算
7.2MHs確認、さらなるピストンん行為を再確認

188 ：リキプロマン六段：2016/05/20 09:24:31 (9年前) 0MONA/0人

>>184
毎度お疲れ様です。
リファレンス相当のGTX 980で24.95MH/s(-i 24)、消費電力は191Wでした。
この前のようにlyra2rev2の3つのカーネルのデータをグラフにしました。なお、1番と3番ではシェアードメモリを使わなくなったので、シェアードメモリアクセス関連の図は2番のみ掲載しています。

実は、これ前回よりもcubehash等で速度の低下が見られます。L1キャッシュのヒット率向上はどのカーネルにおいても見られませんでした。唯一値が変化したのはlyra2v2の3番カーネルですが、速度向上に寄与したと見るのは微妙な変化です。
代わりに1番、3番でシェアードメモリを使用しない変更は性能に大きな変化を与えたようです。明らかにレジスタに領域が確保されているようで、Execution Dependency関連のストールがなくなったおかげでIPCも相当上昇しました。

今後の改良出来そうなところ
・1番、3番のスレッド数を増やす
→これらはコアレスアクセスを気にする必要がなくなったため、スレッド数を増やすことでSMあたりのワープ数を増やすことが出来ます。最適な値はベンチマークで調べる必要がありますが・・・。
・2番で使用されるレジスタ数を減らす（走らせるスレッド数を増やしてその分使用するデータを分ける）
→現在、2番カーネルのスレッドは1スレッドあたり150レジスタほど消費しています。コンパイルオプションによると、スレッドあたり最大で使用できるレジスタ数は80に制限しています。（-maxregcount）多分それがOccupancyが低い原因何じゃないかなと自分は推測しているのですが・・・。なので出来るだけ2番で使用するレジスタは減らすか、スレッド数を増やして処理するデータを分割する等行うと良いのでは予想します。

189 ：リキプロマン六段：2016/05/20 09:28:00 (9年前) 0MONA/0人

>>188
あと、詳細なデータはhtmlとcsvでそれぞれ用意しました。
良かったらご覧ください。
https://www.dropbox.com/s/p69kh91g300ifrr/exam.html?dl=0
https://www.dropbox.com/s/9tllhwzexjm4lf4/exam.csv?dl=0

190 ：リキプロマン六段：2016/05/20 09:33:18 (9年前) 0MONA/0人

>>188
コアレスアクセスを気にする必要がないとか何を言っていたんだ・・・
でもまぁ、1番と3番でボトルネックになっているのはブロックやスレッドの数になっているのは間違いないと思います。

191 ：リキプロマン六段：2016/05/20 10:10:04 (9年前) 0MONA/0人

キャッシュヒット率はさほど変わらないですが、よく見るとバンド幅は1番と3番で向上しているみたいですね。
うーん、アライメント調整の効果はあるのかないのか…

192 ：名無し名誉名人教士：2016/05/20 20:20:19 (9年前) 0MONA/0人

>>188
maxregcountを変えたら、また少し速くなった。

GTX960 (r8 -i 16)

GTX960 (r8改 -i 16)

193 ：リキプロマン六段：2016/05/20 22:05:54 (9年前) 0MONA/0人

>>192
linuxのmakefileのコンパイルだと、ソースファイル毎にmaxrregcount指定出来るんですよね。
今VisualStudioでそれが出来ないか試していますが…

194 ：リキプロマン六段：2016/05/21 00:12:27 (9年前) 0MONA/0人

よく考えてみれば、maxrregcountは上限指定なのでデフォルトの80より低い値にしたい時でなければ一括変更でも良いですね。
今、lyra2v2_gpu_hash_32_2のどの辺りで処理に時間がかかっているか調べる為に、lyra2v2_gpu_hash_32_2を更に分解したカーネルを作って走らせようをしています。
その際、ホスト部分でグリッドやブロックの数を指定する数値に悩んでいます。
何か決め方というか、法則等あれば教えてもらえないでしょうか。

195 ：名無し名誉名人教士：2016/05/21 01:09:21 (9年前) 0MONA/0人

>>194
グリッド、ブロックについて、そこまで深くは考えていませんでした。
そもそも私は、warpの考え方がいまいちわかっていません…

最初は、ブロック当たりのスレッド数を16スレッド(以下、ブロックサイズとする)にすれば、グローバルメモリのアクセスはコアレス化、アライメント調整しやすく、シェアードメモリのバンクコンフリクトの対策が容易であると考えていました。
そして、ブロックサイズを32にすれば、SMをフル活用できる(SMは複数ブロック同時に実行できない。ブロックサイズ16では半分が遊んでしまう)と考えました。

196 ：ハッテン場五段：2016/05/21 06:52:56 (9年前) 0MONA/0人

皆様たいへん盛り上がってるところ実に恐縮なのですが、ccminer で出力されてるハッシュレートの数字って何かおかしくないですか？

sgminer とプールでのハッシュレートはそんなに違わないのに、ccminer はプールでのハッシュレートの数字と全然違うし。

見つけたブロック数は、３分の２くらいのハッシュレートの AMD APU + RADEON マシンよりと同じくらい。それぞれ５ヶ月動かした結果でコレです。わざとではないでしょうけど、ccminer は４割か５割くらい盛ってるんじゃないかと感じ始めてきました。

もちろんうちの環境・うちのプールでの話です。他の方はどうですか？俺の気のせいだったらすみません

197 ：ハッテン場五段：2016/05/21 06:58:03 (9年前) 0MONA/0人

説明不足ですみません。750 Ti x3 のマシン２台と AMD APU + R9 380 ２枚マシン１台、計３台を５ヶ月くらい運用してそう思いました。

198 ：名無し名誉名人教士：2016/05/21 07:41:53 (9年前) 0MONA/0人

>>196
どうだろうか？とりあえず10分程度、Vippoolで試してみたので、うｐ(ユーザID等は隠しています)

199 ：ハッテン場五段：2016/05/21 07:48:01 (9年前) 0MONA/0人

>>198
うーむ ccminer じゃなくて 750Ti の問題なんでしょかな
こっちはプールでのハッシュレートがだいたいは ccminer のよりも３分の２くらいなんです。ひどい時は半分割ってます。ブロック数の問題も頭にひっかかります。

200 ：リキプロマン六段：2016/05/21 11:27:41 (9年前) 1MONA/1人

>>199
ASICPOOL

ハッテン場

うちのGTX980のハッシュレートは29MH/sなんですが、ASICPOOLでは大体27-30MH/s位に落ち着くんですね。
ところがハッテン場では20MH/s以下に落ち込んでしまうので、恐らくマイニングプールに起因する問題じゃないかなと思います。

201 ：なむやん七段教士：2016/05/21 11:42:47 (9年前) 0MONA/0人

ちなみにMDpoolでkumaを掘ると他のpoolと比べていくらかハッシュレートが落ち込みますね

202 ：ハッテン場五段：2016/05/21 14:43:49 (9年前) 0MONA/0人

>>200
キャッ恥ずかしい！　(*´艸｀*)
RADEON 有利になるような設定なんてしてないハズなんすけどねｗ　ありがとうございます！ご迷惑かけ申した！

203 ：リキプロマン六段：2016/05/21 21:14:39 (9年前) 0MONA/0人

>>195
遅くなりました。グリッド、ブロックの数の調整方法について聞いたのは、cubehashなどの他のカーネルに比べて、デフォルトのブロック数から少しでも値を変更するとresult does not validate on CPU!エラーが発生するためです。
更にlyra2v2_gpu_hash_32_2を分割すると、デフォルトのブロック数でも例のエラーが発生します。ただ、マイニング自体はできているようなのでデバッグは出来ました。
その結果、reduceDuplexRowSetupV2がレジスタをかなり消費しているため、それに伴ってlyra2v2_gpu_hash_32_2のレジスタ数が増えることが判明しました。
reduceDuplexRowSetupV2をもともと2つに分けていたのは一度に確保するレジスタ数が多くなりすぎるから、ということみたいです。
なので改善案としては、reduceDuplexRowSetupV2をまた2つに分けてlyra2v2_gpu_hash_32_2で呼び出すことで消費レジスタも減り、一度に走らせられるスレッドも増えると思います。

204 ：リキプロマン六段：2016/05/21 21:29:21 (9年前) 0MONA/0人

>>203
reduceDuplex50も統合しているんだった！
どうやって3つに分けたらいいものか・・・
reduceDuplexRowSetupV2がなんかこう無駄がなくてバラすのがはばかられますね。

205 ：名無し名誉名人教士：2016/05/21 22:35:44 (9年前) 0MONA/0人

>>204
メモリアクセスを減らすためだけにやったんだけどね…

シェアードメモリを使わずに全部レジスタにもしてみたんだ…（遅くなったけど）

206 ：ハッテン場五段：2016/05/22 01:20:53 (9年前) 0MONA/0人

あれれ？ Vippool でも ASICPool でも試したんですが、全く同じように３分の２くらいのハッシュレートしかでませんでした。
謎が謎を呼ぶ！ワケが分からない！

207 ：名無し二段：2016/05/22 01:26:39 (9年前) 0.00114114MONA/1人

このところのハッシュレートの伸びに居ても立っても居られず
750Tix6のリグをGTX960x6+電源x2仕様にアップデートしました。
R8のマイナーで82M前後、消費電力は730W程になりました。
スレッドの調整はまた後日...

208 ：名無し名誉名人教士：2016/05/22 01:47:13 (9年前) 0MONA/0人

>>207
730Wで1か月掘り続けると… 730W×24h×30日＝525.6kWh
これを東京電力電灯Bの第三段階料金で考えると、525.6kWh×29.93円＝15732円

82MH/sでDiff500と仮定して、1か月掘り続けると… 82000÷500×30日＝4920MONA
1MONA＝5円として、4920MONA×5円/MONA＝24600円

差益 24600円-15732円＝8868円なり

…もうちょっとMONAが高くなればいいんだけど…

209 ：リキプロマン六段：2016/05/22 02:03:43 (9年前) 0MONA/0人

>>205
メモリへのアクセスを減らすかレジスタを減らすか…
このあたりのチューニングは難しいですね。うまいことバランスを取りたいものです。

210 ：名無し名誉名人教士：2016/05/22 06:53:01 (9年前) 0MONA/0人

ブロック当たりのWarp数の考察
・Warp当たりのスレッド数は32で固定
・MaxwellのSM当たりのレジスタは65536ファイル、SM当たりのシェアードメモリは96kB
・MaxwellのSMは128コアのため、SM当たりのWarp数は4の倍数である必要がある。
・MaxwellのSM当たりのレジスタは65536ファイルのため、Warp数をwとした場合、スレッド当たりのレジスタ数は、65536÷(w×32)となる。
・MaxwellのSM当たりのシェアードメモリは96kBのため、Warp数をwとした場合、スレッド当たりのシェアードメモリの最大容量は98304÷(w×32)となる。
これから、lyra2v2_gpu_hash_32_2で考えてみると…
・シェアードメモリは1スレッドあたり384バイト使うため、98304÷(w×32)≧384で、これを計算すると、w≦8となる。
・Warp数を12とすると、スレッド当たりのレジスタ数は、65536÷(12×32)≒170、Warp数を16とすると、スレッド当たりのレジスタ数は、65536÷(16×32)=128

以上のことから、lyra2v2_gpu_hash_32_2をさらに分割してシェアードメモリの使用量を減らして、なおかつ、レジスタ数が170以下であれば、Warp数を増やすことができる。
……無理じゃね？

211 ：なむやん七段教士：2016/05/22 09:52:05 (9年前) 0MONA/0人

1日3回掘れるとか羨ましい
さぞかし気分いいだろう

212 ：リキプロマン六段：2016/05/22 21:54:18 (9年前) 0MONA/0人

もっといろいろ解析してみた結果、旧reduceDuplex50に相当する部分を分離して新しくカーネルを作って実行すると、レジスタ消費量を減らすことが出来ました。分離後の消費量は40台位です。この状態でなんかうまいこと出来ないかやってみます。

213 ：リキプロマン六段：2016/05/22 22:45:16 (9年前) 0MONA/0人

lyra2v2_gpu_hash_32_2(分離前) レジスタ数 186
lyra2v2_gpu_hash_32_2(分離後 reduceDuplex50) レジスタ数 42
lyra2v2_gpu_hash_32_2(分離後 reduceDuplex50) レジスタ数 44
ハッシュレートも向上したのでアップロードしますが、result does not validate on CPUエラーをなんとか出来なかったので、アドバイスいただけると嬉しいです。

実行ファイル
https://www.dropbox.com/s/emqk4nldxq99s9y/ccminer_r8_beta.exe?dl=0

ソースコード
https://www.dropbox.com/s/jhnhpwaumzj46xg/cuda_lyra2v2.cu?dl=0

214 ：リキプロマン六段：2016/05/22 22:46:08 (9年前) 0MONA/0人

>>213
訂正します
lyra2v2_gpu_hash_32_2(分離前) レジスタ数 186
lyra2v2_gpu_hash_32_2_1(分離後 reduceDuplex50部分) レジスタ数 42
lyra2v2_gpu_hash_32_2_2(分離後 reduceDuplex50以外) レジスタ数 44

215 ：名無し名誉名人教士：2016/05/23 03:27:14 (9年前) 0MONA/0人

>>213
reduceDuplexRowSetupV2_1でstate0、state1を作って、
reduceDuplexRowSetupV2_2でstate0、state1を使っています。
この間でデータの受け渡しが必要です。
同一カーネル内の受け渡しであればシェアードメモリが使用できますが、
カーネルが異なるため、グローバルメモリでの受け渡しになります。

216 ：名無し名誉名人教士：2016/05/23 08:15:30 (9年前) 0MONA/0人

>>213
lyra2v2_gpu_hash_32_2()が分離前でレジスタ186個も使っているなら、シェアードメモリを使わずに、すべてレジスタで確保してもいいかもね？

217 ：名無し名誉名人教士：2016/05/23 11:12:49 (9年前) 0MONA/0人

CUDAではuint2とuint64_tは別物のようだ…

uint64_t devectorize(uint2 x)なんて関数がある。
やっていることはmov.b64 %0,{%1,%2};らしい。
uint64_tは、内部では64ビットレジスタ、uint2は32ビットレジスタ×2ってことになる。
混在して使おうとするからレジスタが増えていたってことかな？

218 ：リキプロマン六段：2016/05/23 12:49:34 (9年前) 0MONA/0人

>>215
Dstateがグローバルメモリに確保されていて、これを介してデータの受け渡ししているんですよね？
その辺りを考えてソースを改変したつもりなのですが・・・

>>213
どちらにしても、一度に実行できるスレッド数が減ってしまうので、レジスタ数削減が速度に影響しないとわかったら試してみようと思います。

>>217
uint64_tとuint2では使うレジスタの種類？そのものが違うんですね。
使用するならどちらかに統一すべきなのでしょうね。

219 ：電気代がペイ出来てるｗ五段：2016/05/23 16:23:17 (9年前) 0MONA/0人

ウォレットアップデートでブロックヴァージョン４になり
ソロ掘りエラー出ます＞＜

220 ：名無し名誉名人教士：2016/05/23 16:33:59 (9年前) 0MONA/0人

>>219
ここのソロマイニング用はcpuminer(CPUによるマイニング)のコードを移植しています。

cpuminerで掘れますか？
http://monacoin.org/files/miner/cpuminer-win64.zip
これで掘れるなら、コードを見直してみます。
掘れないなら…正直やりようが無い。

221 ：電気代がペイ出来てるｗ五段：2016/05/23 16:49:51 (9年前) 0MONA/0人

同じエラーがでますね～

222 ：電気代がペイ出来てるｗ五段：2016/05/23 16:50:41 (9年前) 0MONA/0人

Unrecognized block version: 4

223 ：名無し名誉名人教士：2016/05/23 17:25:41 (9年前) 0MONA/0人

>>222
さて、どうしたものか…
Litecoinではこんな感じで書いてあった。
Litecoin Core’s block templates are now for version 4 blocks only, and any mining software relying on its getblocktemplate must be updated in parallel to use libblkmaker either version v0.4.3 or any version from v0.5.2 onward.
•If you are solo mining, this will affect you the moment you upgrade Litecoin Core, which must be done prior to BIP65 achieving its 951/1001 status.
•If you are a P2Pool user, you must upgrade to the latest version which can be obtained from here.
•If you are mining with the stratum mining protocol: this does not affect you.
•If you are mining with the getblocktemplate protocol to a pool: this will affect you at the pool operator’s discretion, which must be no later than BIP65 achieving its 951/1001 status.

224 ：電気代がペイ出来てるｗ五段：2016/05/23 17:28:00 (9年前) 0MONA/0人

now for version 4 blocks...
プールは問題なしなんですけどね～

225 ：なむやん七段教士：2016/05/24 00:58:48 (9年前) 0MONA/0人

GPUZのTDPメーターを見ていて思ったが、瞬間的にTDPが100%超えるせいでセーブがかかってる？平均的には73%なんだけどね

226 ：テクノブレイカーＷ六段錬士：2016/05/24 03:05:54 (9年前) 39MONA/1人

>>220
ccminer.cppの
#define BLOCK_VERSION_CURRENT 3
を4にビルドしてください。

227 ：テクノブレイカーＷ六段錬士：2016/05/24 03:09:59 (9年前) 0MONA/0人

×を4にビルドしてください。
○を4にしてビルドしてください。

228 ：名無し四段：2016/05/24 03:13:14 (9年前) 0MONA/0人

>>226
ワタナベさん Monacoin版counterparty作るんですか？

229 ：名無し名誉名人教士：2016/05/24 05:43:11 (9年前) 0MONA/0人

>>226
情報ありがとう。これをもとにビルドしてみた。これで掘り当てた人は報告をお願いいたします。(ソロマイニングではなかなか掘り当てられないため、動作確認が難しい…)

・BLOCK_VERSION_CURRENTを4にした(1.5.77のみ。1.5.80にはこの項目は存在しない)
・CUDAコンパイルオプションでレジスタ数の制限を解除した
・デフォルト設定(-iを省略した場合のスレッド数の初期設定)をr7のものに戻した
(実験的ビルドのため、スレ上部のリンクは変更していません。)
高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!821&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!822&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!824&authkey=!AB84vRSpqP8qzgM&ithint=file,zip
ソースコード高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!823&authkey=!AB84vRSpqP8qzgM&ithint=file,zip

230 ：電気代がペイ出来てるｗ五段：2016/05/24 09:52:45 (9年前) 1.14MONA/1人

動作OKでした！ありがとうございました。

231 ：名無し名誉名人教士：2016/05/24 10:10:22 (9年前) 0MONA/0人

>>230
掘り当てて初めて動作OKになります。
掘り当てたら、再度報告お願いいたします。

232 ：電気代がペイ出来てるｗ五段：2016/05/24 10:12:20 (9年前) 0MONA/0人

がががが頑張ります！

233 ：名無し名誉名人教士：2016/05/24 18:24:14 (9年前) 0MONA/0人

GeForce GTX 1080の夜間販売が、27日（金）22時に行われるらしい…
最速で実験してくれる人いないかな～(他力本願)

234 ：ねずみ五段：2016/05/24 18:53:04 (9年前) 0MONA/0人

都市圏の方…

235 ：名無し六段：2016/05/24 20:27:55 (9年前) 0MONA/0人

どこで？

236 ：名無し六段：2016/05/24 21:42:59 (9年前) 0MONA/0人

東京か…近畿なら行ったのに

237 ：電気代がペイ出来てるｗ五段：2016/05/24 22:07:42 (9年前) 39MONA/1人

yes!!高須クリニック出たよ！

正常動作確認！忙しい中修正ありがとうございました！

238 ：名無し名誉名人教士：2016/05/25 06:56:15 (9年前) 0MONA/0人

>>237
動作確認が取れましたので、>>229 を再度うｐしなおします。

・Pre-r9をr9にリネーム(中身はPre-r9のままです)

高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!826&authkey=!AHk1hss4HZtCU60&ithint=file,zip
高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!827&authkey=!AHk1hss4HZtCU60&ithint=file,zip

ソースコード高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!829&authkey=!AHk1hss4HZtCU60&ithint=file,zip
ソースコード高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!828&authkey=!AHk1hss4HZtCU60&ithint=file,zip

239 ：名無し名誉名人教士：2016/05/25 07:04:06 (9年前) 0.1MONA/1人

いろいろ試行錯誤しているが、速度が一向に上がらない…
・シェアードメモリをレジスタに変更しても遅くなる…
・Lyra2REv2以外の部分のスレッド数を変更してwarp数を最大化しても、遅くなる…
・Lyra2REv2をさらに分割すると(元の16分割)、やはり遅くなる…
・カーネルを非同期並列起動させると、レイテンシが隠蔽されているが、全体としては若干遅くなる…

cubehashなど、周りの部分に手を出すか？

240 ：名無し名誉名人教士：2016/05/25 09:54:12 (9年前) 0MONA/0人

cubehashは分割しやすそうだ。(とりあえず8分割を試してみる)
スレッド間の値の入れ替えは、
x[0] = __shfl_xor(x[0], 4);
とかで出来ちゃうな…(この場合、スレッドIDの3ビット目を反転させた相手と値を入れ替える)

241 ：名無し名誉名人教士：2016/05/25 21:57:41 (9年前) 0MONA/0人

>>240 の方法も遅くなった…
メモリを使わない限りは並列処理しても変わらないということか…

並列処理で速くなる条件は、「並列処理によりグローバルメモリの使用量が減らせること」ってことなのかな？

242 ：なむやん七段教士：2016/05/25 22:31:53 (9年前) 0MONA/0人

ソロは計算値より掘れませんね...ﾑｽﾞｶｼｲﾃﾞｽ

243 ：名無し名誉名人教士：2016/05/27 01:20:27 (9年前) 4.014MONA/3人

久々の更新です。
・グローバルメモリの読み込みの調整を行った。
・CC3.5もコンパイルに含めた。GTX780以上、TITANシリーズ、GT640(GDDR5)、GT630v2、GT730以下、をお持ちの方は試してみてください。(動作未確認)

高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!830&authkey=!AHk1hss4HZtCU60&ithint=file,zip
高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!831&authkey=!AHk1hss4HZtCU60&ithint=file,zip

ソースコード高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!833&authkey=!AHk1hss4HZtCU60&ithint=file,zip
ソースコード高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!832&authkey=!AHk1hss4HZtCU60&ithint=file,zip

244 ：名無し名誉名人教士：2016/05/27 01:21:53 (9年前) 1MONA/1人

今回の速度アップは微差です。また、今回はx64ビルドも含めています。(x86より若干遅いです…)

GTX980 (r9 -i 23)

GTX980 (r10 -i 23)

245 ：名無し名誉名人教士：2016/05/28 21:34:48 (9年前) 0MONA/0人

現在改造中…主にKepler向け

速くなってる…のか？

246 ：名無し名誉名人教士：2016/05/28 21:41:55 (9年前) 0MONA/0人

ちなみに>>245は>>243に
cudaFuncSetCacheConfig(lyra2v2_gpu_hash_32_2, cudaFuncCachePreferShared);
の1文を追加してビルドしたもの。
これの有ると無しでえらくハッシュレートが変わる…
(Maxwellではこれによる影響はない)

247 ：名無し名誉名人教士：2016/05/29 11:00:58 (9年前) 7.80228228MONA/4人

バージョンアップです
・Keplerでのパフォーマンス向上(シェアードメモリの増量)
・1.7.6ベースの高速化バージョンを追加。Kepler初期型でも高速化する…かも？(動作未確認)…改造している間に1.8がリリースされてるし…
高速化バージョン(1.7.6ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!835&authkey=!AHk1hss4HZtCU60&ithint=file,zip
高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!834&authkey=!AHk1hss4HZtCU60&ithint=file,zip
高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!836&authkey=!AHk1hss4HZtCU60&ithint=file,zip
ソースコード高速化バージョン(1.7.6ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!839&authkey=!AHk1hss4HZtCU60&ithint=file,zip
ソースコード高速化バージョン(1.5.80ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!838&authkey=!AHk1hss4HZtCU60&ithint=file,zip
ソースコード高速化-ソロマイニング用(1.5.77ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!837&authkey=!AHk1hss4HZtCU60&ithint=file,zip

248 ：暴れ名無し二段：2016/05/29 14:12:09 (9年前) 3.9MONA/1人

>>247
gtx760ですが1300kから4000kにアップしました

249 ：名無し名誉名人教士：2016/05/29 14:25:18 (9年前) 0.1MONA/1人

>>248
Kepler初期型ですね。動作確認できてよかったです。…って、3倍速！？
ただ、GTX750Tiより遅い現実…

この高速化版では、「Funnel shift(2つの32ビット変数を連結してローテーション)」と「Warp shuffle(32スレッド内数値交換)」を使用しております。
Kepler初期型で「Warp shuffle」が搭載され、Kepler後期型で「Funnel shift」が搭載されています。
そのため、Kepler初期型は「Funnel shift」の分(Lyra部分で60回使用)だけ遅くなっています。
なお、Fermiでは「Warp shuffle」も使えないため、高速化が難航しております…

250 ：のん五段：2016/05/29 15:50:11 (9年前) 0MONA/0人

GTX670の2GBモデルですが
2000k→5000kまでアップしました

251 ：のん五段：2016/05/29 15:51:31 (9年前) 0MONA/0人

>>250
補足ですが発熱も全然無くクロック制限も受けてません

252 ：のん五段：2016/05/29 15:55:02 (9年前) 0MONA/0人

1.7.6でGTX980回しましたが温度が10度も上昇してしまい結局1.8より低いハッシュになってしまい危険ですね

253 ：のん五段：2016/05/29 15:56:55 (9年前) 0MONA/0人

https://gyazo.com/850be3db0344a6b7783b770200a97564
1.8だと670がバグるのでおかしな値になってますね
(980と670ミックス)

254 ：くらうどまいなー七段：2016/05/29 16:19:57 (9年前) 0MONA/0人

ぶん回してたらグラボがバチッと逝ってしまったので参考までー

時期なのか寿命なのか・・・

255 ：名無し名誉名人教士：2016/05/29 16:27:49 (9年前) 0MONA/0人

>>250～>>253
とりあえず状況整理を…
・1.8というのは、1.5.80(r11)のことかな？
・1.7.6でGTX670の速度向上は認められる(発熱問題なし)
・1.7.6でGTX980の温度が10度上昇する
・1.5.80では、Kepler初期型であるGTX670は正常な動作はしない。1.5.80はKepler後期型以降に対応、具体的にはGTX780/780Ti、Titanシリーズ、GT710～730、GT640(GDDR5),GT630v2、GTX750/750Ti、GTX900台
・-dオプションを使用して、2つ起動するのはどうか？
　(1.5.80ファイル名).exe -d 0 -i 21 -a lyra2v2 -u・・・
　(1.7.6ファイル名).exe -d 1 -i 18 -a lyra2v2 -u・・・
みたいな感じで。GTX980は1.5.80で、GTX670は1.7.6で実行するってことで…

256 ：名無し名誉名人教士：2016/05/29 16:38:28 (9年前) 0MONA/0人

ちなみに、1.7.6と1.5.80はほとんど同じコードです。
最後のTarget確認のみ、1.5.80は32bitで比較、1.7.6は64bitで比較、の違いがあります。
1.7.6のGTX980…何が違うんだろう…

257 ：名無し名誉名人教士：2016/05/29 17:06:12 (9年前) 0MONA/0人

うちのGTX980で試してみた(GPU温度比較)

前半(グラフ左側)が1.5.80、後半(グラフ右側)が1.7.6です。(いずれも-i 21にて実行)
確かにGPU Loadは100%に張り付く感じですね。1.7.6のほうが速度も出ているようでした。(1.5.80で23.5MH/s、1.7.6で25.5MH/s)
ただ、速度低下が発生するほど発熱量が違うのかな…？

258 ：暴れ名無し二段：2016/05/29 17:51:21 (9年前) 0MONA/0人

GTX760を1.5.80で動かしてみたところ使用率が10％以下になってしまいまともに動いてくれません(-i 16)
前に書いた1300k出てたマイナーは1.7.5-blake2s-32-bitです。
750Tiで同じく動かしてみたところ1.7.6だとクロックが上下して6500k~6600kで行ったり来たりしてしまいます。1.5.80だと6600kで安定しています(-i 22)
いずれも32bitで動かしています。
画面のつなぐ先をGTX760ではなくCPU内蔵にしてやればもう少し出るかもしれません。

259 ：名無し名誉名人教士：2016/05/29 18:27:21 (9年前) 0MONA/0人

>>258
1.5.80はKepler後期型以降の対応となります。
具体的にはGTX780/780Ti、Titanシリーズ、GT710～730、GT640(GDDR5),GT630v2、GTX750/750Ti、GTX900台が対応となります。

GTX760はKepler初期型にあたるため、1.5.80では動きません。

260 ：CT9W七段：2016/05/29 18:44:01 (9年前) 0MONA/0人

>>257
GTX980+SSDです。
1.7.6ベースで27.13MH/sに到達しました。
通常版12MH/s→高速版27MH/s＝驚異の2.25倍！

[1.7.6ベースの特徴]
起動直後からフルスピードで掘れる。
ハッシュレート表示がMH/sに変わった。
GPUコア温度が6〜8度上昇。

261 ：名無し名誉名人教士：2016/05/29 20:52:56 (9年前) 0MONA/0人

ところで、最適化によりメモリアクセスが軽減されたため、
GPUの消費電力が増えるようになった。(メモリアクセス時はGPUはお休みしていた)

これはいいことなのか、悪いことなのか…

262 ：のん五段：2016/05/29 22:58:41 (9年前) 0MONA/0人

1.7.6ベースの方で試すと最初は1.8r11越えのパフォーマンスがでるのですが1.8が80度だったのに対して90度まであがってしまい結果1.8より低いパフォーマンスになってしまいました　-iオプションは不使用です　FANスピードも80%辺りから一気に100%まで行ったので危険と判断しました
GPUはSTRIXの980です

263 ：のん五段：2016/05/29 23:02:43 (9年前) 0MONA/0人

補足
画面出力は980が担当しているのですが1.7.6を使用するとほぼ操作不能なまで負荷がかかってしまい
現在は二つのバージョンで別々に動かして対応させています
さらに補足が
670でx64版を使用するとほんの少しパフォーマンス低下がみられました

264 ：きさらぎ八段錬士：2016/05/29 23:15:51 (9年前) 0MONA/0人

ccminer-1.7.6-mod-r1
GTX680で2040kから5586k(i23)へ

265 ：名無し名誉名人教士：2016/05/30 20:58:50 (9年前) 0MONA/0人

ところで、Fermiの高速化も着手すべきか？
型番でいうと、GTX/GTの400台、500台、GT600台(メモリにGDDR3が搭載されているもの)
あれはなかなか難しそうなんだが…

ちなみに、Teslaはシェアードメモリが少なすぎて高速化は事実上不可。
型番でいうと、8000台、9000台、200台。さすがに使っている人はもういない…よね？

266 ：名無し名誉名人教士：2016/05/30 21:28:12 (9年前) 0MONA/0人

ソロマイナー向けのバージョンアップです
・1.7.6ベースにソロマイニングの機能を追加した。(プールマイニング機能も残してあります。)
動作確認は行っておりませんので、プレリリースってことで…(ソロマイニングの機能確認は時間がかかるため。人柱求む！)
今回の改造の影響で、ZR5アルゴリズムだけ、おかしな挙動をするかもしれない…Lyra2REv2高速化版だし、別にいいよね？
使い方：プールマイニングの場合
ccminer.exe -a lyra2v2 -o (IPアドレス):(ポート) -u (ユーザ名) -p (パスワード)
使い方：ソロマイニングの場合
ccminer.exe -a lyra2v2 -o (IPアドレス):(ポート) -u (ユーザ名) -p (パスワード) --no-getwork --coinbase-addr=Mxxx(Walletアドレス)xxxxxxxxxxxxxx

高速化バージョン(1.7.6ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!840&authkey=!AHk1hss4HZtCU60&ithint=file,zip
ソースコード高速化バージョン(1.7.6ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!841&authkey=!AHk1hss4HZtCU60&ithint=file,zip

267 ：きさらぎ八段錬士：2016/05/30 22:03:51 (9年前) 0MONA/0人

>>265
Fermiで採掘出来たら嬉しいです

関係ない話ですが、使えるかなと下記のものをダウンロードしたところ、
ESETにトロイの木馬として隔離されました
https://github.com/KBomba/ccminer-KBomba/releases

268 ：名無し名誉名人教士：2016/05/30 22:09:51 (9年前) 0MONA/0人

>>267
KBombaのccminerは2014年リリースになっているようですが…古過ぎね？

269 ：名無し名誉名人教士：2016/05/30 23:09:29 (9年前) 0MONA/0人

おっと、>>266にバグを見つけた！
ビルドしなおします…

270 ：名無し名誉名人教士：2016/05/30 23:16:40 (9年前) 0MONA/0人

バグを1か所修正しました。

使い方：プールマイニングの場合
ccminer.exe -a lyra2v2 -o (IPアドレス):(ポート) -u (ユーザ名) -p (パスワード)
使い方：ソロマイニングの場合
ccminer.exe -a lyra2v2 -o (IPアドレス):(ポート) -u (ユーザ名) -p (パスワード) --no-getwork --coinbase-addr=Mxxx(Walletアドレス)xxxxxxxxxxxxxx

高速化バージョン(1.7.6ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!842&authkey=!AHk1hss4HZtCU60&ithint=file,zip
ソースコード高速化バージョン(1.7.6ベース)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!843&authkey=!AHk1hss4HZtCU60&ithint=file,zip

271 ：きさらぎ八段錬士：2016/05/31 00:12:38 (9年前) 0MONA/0人

>>268
GT 540Mで採掘できるものを探していたんですが見つからなくて…

272 ：名無し三段：2016/05/31 00:17:32 (9年前) 0MONA/0人

>>268
そのファイルは知らないけど
採掘ソフトは基本アンチウイルスソフトに隔離させられるよ
昔内緒で普通のソフトにくっつけて勝手に採掘させるのがあったから

273 ：名前はまだ無い四段：2016/05/31 01:48:27 (9年前) 0MONA/0人

>>217
32bit用の演算ユニットと64bit用の演算ユニットを使い分けるために、PTXで異なるコードになっているのでしょうかね。

>>241
例の部分では、スレッドあたりのメモリ使用量を減らし、シェアードメモリを利用しやすくしたりL2キャッシュにヒットしやすくしたりして
面倒なグローバルメモリへのアクセス回数を減らす、というのが劇的に効いていると思います。
warp shuffleのスループットを考えると、そういった効果が期待できない部分ではむしろ遅くなりそうです。

>>249
「warp shuffle」の他にも「funnel shift」もあるのですか。
Kepler以降はあまり情報を追いかけていませんでしたが、便利な機能が結構増えているようですね。

274 ：名前はまだ無い四段：2016/05/31 02:38:39 (9年前) 0MONA/0人

>>261
メモリチップの温度が下がって、検索速度が上がっているならば良いのではないでしょうか。
メモリクロックが上がるとアイドル時でも消費電力が上がりますし、可能な場合はメモリのクロックや電圧を下げると良いかもしれません。

>>265
performance/wattがプロセスルールの差で2倍、利用可能な命令の差でさらに広がりそうですし、なかなか厳しいのではないかと思います。
スレッド間のデータ受け渡しにシェアードメモリを使用した実装例としての価値はありそうですけど。

>>271
OpenCLのものなら動くかと思いますが、GT 540Mだと速度は期待できないかと思います。

275 ：名無し名誉名人教士：2016/05/31 03:12:45 (9年前) 0MONA/0人

>>270 で3時間～4時間ほど動かしたら、フリーズした…
まだ何かがおかしいようだ…
バグが内包しているようなので、使用している方は>>247に戻してください。

276 ：名無し名誉名人教士：2016/05/31 09:20:28 (9年前) 0MONA/0人

>>274
Fermiは
・「Warp shuffle」が使えないため、シェアードメモリ経由でデータ受け渡しを行う必要がある。
・シェアードメモリを1バイトでも増やすとWarp数が減ってしまう。
これがネックになります。
ちなみに、L1優先設定(シェアードメモリ16kBモード)のKeplerでは、1Warpになってしまうため、動作が結構遅かった(1.7.6のr1とr2を比較してみよう)…やはりWarp数は確保する必要はあるな。

ちなみに現状、Kepler(Shared優先設定)で4Warp、Maxwellで8Warp確保できている。

277 ：名無し名誉名人教士：2016/05/31 09:35:18 (9年前) 0MONA/0人

SMとWarp Schedulerの考察

現状、MaxwellのSMはCUDAコア数が128個、Warp Scheduler数が4個の構成となっている。
Warp SchedulerはFermi(GF100,GF110を除く)以降、2Warpを処理できる(らしい)。
そのため、MaxwellのSMは1度に8Warpを受け入れ、動作することができる。(1Warp＝32スレッドのため、256スレッドの処理が可能。)
CUDAコアが128個のため、一部スレッドがレイテンシにより止まっているときに、別のスレッドが動作できる、いわゆるレイテンシの隠ぺいが行われる。
ここまでをまとめると、CUDAコア数の面では4Warpでいいが、レイテンシの隠ぺいを考慮すると、8Warpが望ましい。

同様にKeplerの場合、CUDAコア数が192個でWarp Schedulerが4個のため、CUDAコア数の面では6Warpでいいが、Warp Schedulerの面で8Warpが望ましい。

現状(1.7.6 r2において)、Maxwellは8Warp動作となり問題ないが、Keplerは4Warp動作のため、性能を活かし切れていないことになる。

278 ：名無し名誉名人教士：2016/05/31 09:49:59 (9年前) 0MONA/0人

>>277 つづき
FermiのSMはCUDAコア数が32個、Warp Scheduler数が2個の構成となっている。
ただし、Warp Schedulerはチップにより異なり、GF100,GF110は1Warpしか処理できないが、それ以降のFermiでは、2Warp処理できる。
つまり、CUDAコア数の面では1Warpでいいが、レイテンシの隠ぺいを考慮すると、GF100,GF110が2Warp、それ以降のFermiでは4Warpが望ましい。

このことを念頭に置いて1.7.6 r2の改造を考えると…
GF100,GF110では、シェアードメモリを増やしても性能は発揮できる。
それ以降のFermiでは、シェアードメモリを増やすと、本来の性能は発揮できない。

GPUはレジスタの書き込み後、すぐに読み込むことができないため、可能な限りWarp数を増やして、レイテンシを隠ぺいしたいところではあるが…

279 ：名無し二段：2016/05/31 09:59:15 (9年前) 0MONA/0人

GTX1080/1070に対応する予定はございますか？

これから買うならGTX1080/1070のどちらか買おうと考えていますが、高速化バージョンが対応する予定が無いなら、900シリーズを買おうと思います。ただGTX1080/1070は大幅に消費電力が下がっているので大変魅力的です。

280 ：名無し名誉名人教士：2016/05/31 10:56:31 (9年前) 0MONA/0人

>>279
…そのままで動かないかな？(動作未確認)
誰か動作確認してくれる人いないかな～(他力本願)

スペックをみると、SMあたり64コア、シェアードメモリ64kBなので、
64kB÷32スレッド÷384バイト＝5.333となり、4Warp構成。
64コアに4Warp(32×4＝128スレッド)なので、十分性能は活かせるはず。

動作しないとすると、CUDA Toolkit 8 RCに切り替えないといけないんだが…今夜あたりに、ちょっと試してみるかな？(でも、動作確認はできない)

281 ：名前はまだ無い四段：2016/06/01 02:22:48 (9年前) 0MONA/0人

>>276
in-flightなwarpをどう確保するかが悩ましいですね。
CUDA Occupancy Calculatorは今も使えるのでしょうか？

>>277
公式情報ではないですが、とりあえず後藤氏の解説の図を確認してみると、GF104のSMあたりのWarp Schedulerは4でWarp Dispatcherも4となっていました。
KeplerやMaxwellではSchedulerとDispatcherの比は1:2になっていました。

それらによるとそれぞれのSMの性能は、GF100は32コアで2命令発行、GF104は48コアで4命令発行、
Keperは192コアで8命令発行、Maxwellは128コアで8命令発行、のようです。

また、Keplerはuintの加算やXORのスループットは160となっているのでその辺りも考慮する必要があるかも知れません。

282 ：名前はまだ無い四段：2016/06/01 02:41:49 (9年前) 0MONA/0人

>>280
その構造はGP100のもので、GTX1080等のGP104のSMはMaxwellとかなり似ていて
128コアで8命令発行というのは変わらず、シェアードメモリが96kBに増加という話があります。
これまた公式情報ではなく、後藤氏の解説ですけど。

283 ：名無し名誉名人教士：2016/06/01 03:14:59 (9年前) 3.9MONA/1人

ソロマイニングの動作確認できましたのでうｐします。
・1.7.6ベースにソロマイニングの機能を追加した。(プールマイニング機能も残してあります。)
今回の改造の影響で、ZR5アルゴリズムだけ、おかしな挙動をするかもしれない…Lyra2REv2高速化版だし、別にいいよね？
使い方：プールマイニングの場合
ccminer.exe -a lyra2v2 -o (IPアドレス):(ポート) -u (ユーザ名) -p (パスワード)
使い方：ソロマイニングの場合
ccminer.exe -a lyra2v2 -o (IPアドレス):(ポート) -u (ユーザ名) -p (パスワード) --no-getwork --coinbase-addr=Mxxx(Walletアドレス)xxxxxxxxxxxxxx
・CUDA Toolkit 8 RCに切り替えた。これにより、Compute Capability 6.0/6.1用のコードを吐き出すようにした。(コード自体はMaxwellのものと同一です。)
GTX1080/1070を入手した人柱様は、これと、>>247とを動作確認してみてください。>>247でも動作するようでしたら、Compute Capabilityは元の状態に戻します。

高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!844&authkey=!AHk1hss4HZtCU60&ithint=file,zip

ソースコード高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!845&authkey=!AHk1hss4HZtCU60&ithint=file,zip

284 ：名無し名誉名人教士：2016/06/01 04:11:00 (9年前) 0MONA/0人

GTX1080/1070におけるハッシュレート･コスパ予測

GTX980(Palit製ブースト時1304MHz)で25MH/sだった。
GTX1080の場合　CUDAコア:2560、ブーストクロック: 1733MHzなので、単純計算すると…25×(1733÷1304)×(2560/2048)＝41.53MH/s
GTX1070の場合　CUDAコア:1920、ブーストクロック: 1683MHzなので、単純計算すると…25×(1683÷1304)×(1920/2048)＝30.25MH/s

イニシャルコストあたりのハッシュレート
GTX1080の場合　約100k円と仮定して…(41.53×10^6)÷100000＝415.3H/s/円
GTX1070の場合　約80k円と仮定して…(30.25×10^6)÷80000＝378.1H/s/円

ランニングコスト、電力量料金29.93円/kWh(東京電力電灯B 第三段階料金)、1MONA＝4円として、0.180MONA/W/日
GTX1080の場合　Diff500、180Wと仮定して(TDPと同値)…41.53MH/s⇒41530kH/s÷Diff500÷180W＝0.461MONA/W/日⇒0.461/0.180=2.561
GTX1070の場合　Diff500、150Wと仮定して(TDPと同値)…30.25MH/s⇒30250kH/s÷Diff500÷150W＝0.403MONA/W/日⇒0.403/0.180=2.239

ランニングコストはいいけど、イニシャルがな…

285 ：名無し名誉名人教士：2016/06/01 04:23:38 (9年前) 0MONA/0人

>>284 つづき、1か月あたりの収支予測

収入
GTX1080の場合　41530kH/s÷Diff500×30日×4円/MONA＝9967.2円/日
GTX1070の場合　30250kH/s÷Diff500×30日×4円/MONA＝7260.0円/日

支出
GTX1080の場合　0.180kW×24時間×30日×29.93円/kWh＝3878.9円/日
GTX1070の場合　0.150kW×24時間×30日×29.93円/kWh＝3232.4円/日

差益
GTX1080の場合　9967.2円/日-3878.9円/日＝＋6088.3円/日(黒字)
GTX1070の場合　7260.0円/日-3232.4円/日＝＋4027.6円/日(黒字)

まあ、実際には消費電力はもう少し大きいから、計算通りにはいかないけどね…

286 ：名無し名誉名人教士：2016/06/01 11:59:54 (9年前) 0MONA/0人

おっと、>>285の単位を間違えた…

誤) 円/日
正) 円/月

287 ：名無し二段：2016/06/01 12:40:37 (9年前) 0MONA/0人

毎日、GTX1080の場合だと6千円弱の黒字と言う事？毎日じゃなくて毎月?

288 ：名無し名誉名人教士：2016/06/01 12:41:05 (9年前) 0MONA/0人

>>287
単位の間違いだ。すまぬ…

289 ：名無し二段：2016/06/01 12:54:09 (9年前) 0MONA/0人

GTX1080は10万くらいだから、ROI単純計算で１７ヶ月か。

290 ：名無し名誉名人教士：2016/06/01 13:03:25 (9年前) 0MONA/0人

>>289
4円/MONAで計算したから、上がった時に売れれば、もうちょっと短くなるかな？

291 ：名無し二段：2016/06/01 13:33:19 (9年前) 0MONA/0人

モナが倍の８円で、だいたいROI6-7ヶ月ですね。

292 ：名無し初段：2016/06/01 22:19:06 (9年前) 0MONA/0人

なんかまったく起動しない。

293 ：名無し初段：2016/06/02 07:06:51 (9年前) 0MONA/0人

GTX760(Kepler)ですが一応。
1.7.6-r1は起動していたのに1.7.6-r2は起動しませんでした。

294 ：名無し名誉名人教士：2016/06/02 07:16:23 (9年前) 0MONA/0人

>>292 >>293
報告ありがとうございます。ちょっと調べてみます。
それと、最新のドライバでも試してみてください。(CUDA Toolkit 8 RCに変更したため)
それでも動かなければ、>>247 (1.7.6-r1)の方を使用してください。

確か、ソロマイニング用の改造しかしてなかったと思うけど…

295 ：名無し名誉名人教士：2016/06/02 10:44:11 (9年前) 0MONA/0人

再度確認したが、1.7.6-r1と1.7.6-r2でLyraの部分に変更はない。
やはり、CUDA Toolkit 8 RCが原因かな…？
私の動作環境(GTX980/970/960、つい最近システム構築した)では正常に動作している。

他にも動作しないという方がおりましたら、一度、ドライバのアップデートを試してみてください。

296 ：名無し初段：2016/06/02 13:20:45 (9年前) 1.14114MONA/1人

292です。
CUDA Toolkit 8 RCを再インストールしたところ無事に動きました。お騒がせしました。

297 ：extreame三段：2016/06/02 14:22:47 (9年前) 39.49MONA/3人

>>247
GTX1080で動きました。
ccminer-1.7.6-mod-r2

298 ：extreame三段：2016/06/02 14:34:44 (9年前) 0MONA/0人

ccminer-1.7.6-mod-r1の方

299 ：名無し名誉名人教士：2016/06/02 14:43:07 (9年前) 0MONA/0人

>>297
2枚差しとか、ぱねぇ！！

さて、r1でも動くってことは…CUDA Toolkit 7.5のままでもいいってことだが…
>>292 >>293 のトラブルもあるから、しばらくは7.5の方がいいのかな？

300 ：siv三段：2016/06/02 17:11:21 (9年前) 0MONA/0人

>>297
動作確認乙です!

301 ：ねずみ五段：2016/06/02 19:35:21 (9年前) 0MONA/0人

>>297
早速ｗｗｗ

302 ：名無し名誉名人教士：2016/06/02 19:38:48 (9年前) 0MONA/0人

GTX1080がちゃんと高速に動いていて、何よりです。
正規版(？)と比較すると、どれぐらい速くなっているのかな…？

303 ：名無し名誉名人教士：2016/06/02 19:43:19 (9年前) 0MONA/0人

高速化とは関係ないけど、Windows10でリモートデスクトップから起動させようとすると、CUDAが認識してくれないようだ…(Win8.1、Win2012R2ではそのようなことはなかった)
なんかあるのかね…？

304 ：extreame三段：2016/06/02 22:49:57 (9年前) 0MONA/0人

>>302
無改造品の正規版だとこんな感じ

305 ：ittou四段教士：2016/06/02 23:39:14 (9年前) 0MONA/0人

1080注文したけど、届かねー。

306 ：名無し名誉名人教士：2016/06/03 02:35:26 (9年前) 0.00114114MONA/1人

>>304
高速化で3倍以上ですか…
これで見えてくるGTX1080の特徴
・GPUの性能強化：GPUの性能強化の分だけ、正規版では速度が上が…ってないな…特に高クロック化が活かされていない…
GTX980Ti：1075MHz,2816コア：正規版のハッシュレート 16MH/s(推定)
GTX1080：1733MHz,2560コア：正規版のハッシュレート 14MH/s
・メモリの高クロック化：メモリが3割弱高速化されている。その分の高速化の効果が出ている…かどうか、判断つかないな…
・L2のサイズが据え置き：980からL2キャッシュのサイズが据え置かれている。そのため、正規版ではスレッドあたり1536バイトのメモリ確保がネックになっていると考えられる。コアあたりのL2サイズが819.2バイトとなるため(GTX980は1024バイト、GTX980Tiは1117バイト)、速度が出ないのかと…
・結論：GPUの性能強化とメモリの高クロック化で速度が上がっている反面、L2キャッシュの少なさで足を引っ張る形に…

なお、高速化版はシェアードメモリ(L1キャッシュと同等)を使用し、グローバルメモリの使用を徹底排除しているため、L2キャッシュを経由せず、ボトルネックが解消された形になっている。

307 ：名無し名誉名人教士：2016/06/03 08:46:54 (9年前) 0MONA/0人

ってか、高速化に着手しなかったらGTX1080でハッシュレートでなくて憤慨する人が多かった可能性が…

…いや、GTX750Tiを大量買いした人が(900番台と比べて)あまり高速化しなくて憤慨しているから一緒か？

308 ：なむやん七段教士：2016/06/03 11:00:51 (9年前) 0MONA/0人

ゲームするのにキャッシュメモリの大きさは重要ではない？らでおん君は少なすぎるくらいだし
向こうの人は憤慨してるかな？

309 ：名無し二段：2016/06/03 14:28:43 (9年前) 0MONA/0人

GTX1080はリファレンスモデルはファンが五月蠅そうなので、
各社のオリジナルクーラーモデルが出てから購入予定です。
取り合えず、ROI考えると元取るとか言う次元じゃ楽しめないので、採掘ゲームの参加料として自分に言い聞かせました。

310 ：ittou四段教士：2016/06/03 14:31:35 (9年前) 0MONA/0人

>>309
私もEVGAのOCモデルを買いました。全部込み込みで769ドルくらいです。

311 ：名無し二段：2016/06/03 14:45:04 (9年前) 0.00114114MONA/1人

>>310
おっ、EVGAいいですね。
米国から輸入すると込み込みでも安いですね。

312 ：もにゃ子九段錬士：2016/06/03 20:34:52 (9年前) 0.00114114MONA/1人

どちらで購入なされたのでしょうか？
差し支えなければ教えてください…

313 ：ittou四段教士：2016/06/04 01:28:03 (9年前) 0MONA/0人

>>312
私はアメリカkonozamaです。今はリセラーばかりになってて高いですね。

314 ：名無し名誉名人教士：2016/06/04 05:33:04 (9年前) 0.1MONA/1人

いろいろチューニングしてみました。
・ソロマイニングでブロック報告時にエラー表示が出る(ブロック報酬はあるのに、表示だけエラーが出る)のを修正。
・cubehash部分を最適化
・Fermi向けの高速化を実装(動作未確認)
・Compute Capability 6.0/6.1用の設定を排除(5.2と同一コードのため)
CUDA Toolkit 8 RCを使用しているため、ドライバは最新のものを使用してください。(たぶん、古いと動かないよ…)
Fermiを使用している方は正常に掘れているか、速くなっているかを確認して使用してください。(遅くなる可能性もあります)

高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!846&authkey=!AHk1hss4HZtCU60&ithint=file,zip

ソースコード高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!847&authkey=!AHk1hss4HZtCU60&ithint=file,zip

315 ：名無し名誉名人教士：2016/06/04 05:55:11 (9年前) 0MONA/0人

>>314 でソロマイニングをやるときは、--no-longpoll オプションを入れないとダメっぽい…
このあたりは、正直、改造してて何が何だかよく分かっていない…

316 ：名無し名誉名人教士：2016/06/04 06:36:33 (9年前) 0MONA/0人

cubehashについて
cubehashでは、16個のuint32_tを2セット使用して、
加算、ローテーション、入替、XOR、入替、加算、ローテーション、入替、XOR、入替
の1連の流れを16回×12セット行っている。
この中の「入替」に注目してみると、ループ2回で元の状態に戻っている。
そのため、ループ2回分をunrollして、入替を省略することができる。
また、CUDAの場合、レジスタの書き込み後、即読み込みするにはレイテンシが大きいため、演算を並び替えて、最適化(レイテンシの隠蔽)を図ってみた。

317 ：電気代がペイ出来てるｗ五段：2016/06/04 09:50:29 (9年前) 0MONA/0人

>>314
ソロマイニング

エラーで落ちました
多分３時間くらいです

318 ：名無し名誉名人教士：2016/06/04 10:04:14 (9年前) 0MONA/0人

>>317
あれれ？うちはちゃんと動いているけど…

ちなみに、--no-longpoll オプションは入れました？
これ入れないと何故かうまくいかないみたい…

319 ：電気代がペイ出来てるｗ五段：2016/06/04 10:16:21 (9年前) 0MONA/0人

お～そうだった
でもその記述どこに、どのように書けばいいでしょうか？

320 ：名無し名誉名人教士：2016/06/04 10:30:58 (9年前) 0MONA/0人

>>319
ccminer.exe -a lyra2v2 -o (IPアドレス):(ポート) -u (ユーザ名) -p (パスワード) --no-longpoll --no-getwork --coinbase-addr=Mxxx(Walletアドレス)xxxxxxxxxxxxxx

これでだめなら、ドライバを最新のものに…

321 ：電気代がペイ出来てるｗ五段：2016/06/04 10:34:58 (9年前) 0MONA/0人

わかりました、３時間後くらいまで様子みてみます

322 ：名無し名誉名人教士：2016/06/04 16:21:36 (9年前) 0MONA/0人

>>321
どうでした？大丈夫でしたか？

323 ：電気代がペイ出来てるｗ五段：2016/06/04 16:54:35 (9年前) 0MONA/0人

やはり止まりました
ドライバーは最新なのですが

324 ：名無し名誉名人教士：2016/06/04 17:22:04 (9年前) 0MONA/0人

うーん、何が悪いんだろう…
とりあえず、前のバージョンでやってみてください。

なお、1.7.6r2は掘り当てたときYes!!ではなくエラーメッセージが出ますが、ちゃんとブロック報酬は得られます。

あと、動作環境を教えてください。(OS、GPUなど)

325 ：電気代がペイ出来てるｗ五段：2016/06/04 17:27:05 (9年前) 0MONA/0人

動作環境
windows10 64bit
メモリー16GB
SSD　512
CPU　I7　3.7GHZ

GPU　GTX970　２枚

-i23で採掘中
ソロで採掘で来ていて報酬も入っています。

-i23が単に高負荷だけなのかもしれない＞＜

326 ：名無し名誉名人教士：2016/06/04 18:03:28 (9年前) 0MONA/0人

>>325
状況を見るに、メモリリークor確保したメモリの範囲外にアクセスしたか…
一応改造したところは確認したんだが…

となると、GPU側かな…？

ちなみにWin8.1 64bit、GTX970×2、GTX960×1 メモリ4GBで正常に動作しています。

あと、私が確認した限り、Win10でリモートデスクトップ経由でマイナーを起動すると、CUDAが認識されない問題があります。(マイナーを起動してからリモートデスクトップを開くのは問題なし)

327 ：電気代がペイ出来てるｗ五段：2016/06/04 18:07:06 (9年前) 0MONA/0人

試行錯誤楽しんで採掘してるので、もう少し最適はオプション見つけてみます
GTX1080出てからは採掘率下がったのは言うまでもない＞＜

328 ：名無し名誉名人教士：2016/06/04 18:54:41 (9年前) 0MONA/0人

>>327
言うほど採掘率下がったかな…？

今日のソロ掘りの成果(6:00頃～約13時間)、4ブロック(GTX970×5、GTX960×2)

329 ：名無し名誉名人教士：2016/06/04 19:03:36 (9年前) 0MONA/0人

>>327
GPUのメモリ確保でミスを1か所見つけた！！
1.7.6 r1から内包しているバグになります。

誤)matrix_sz = sizeof(uint64_t) * 4 * 4;
正)matrix_sz = sizeof(uint64_t) * 8 * 4;

どうやら、メモリの確保・解放を繰り返すことで、徐々にメモリの範囲が移動していき、いずれ(本来の)上限がオーバーフローして弄っちゃいけないアドレスにアクセスするものと予想されます。
修正しますので、お待ちください。(それ以外も無駄なメモリ関連を整理します)

…ってか、GPUのメモリ管理って、結構いい加減なんだな…
確保したメモリ以外でもそのままアクセスできるのか…

330 ：名無し名誉名人教士：2016/06/04 19:33:48 (9年前) 0MONA/0人

>>329 訂正
よくよく考えたら、
matrix_sz = sizeof(uint64_t) * 4 * 4;
で合っているな。(uint28＝uint2×4を4個確保する)
ここのメモリは大丈夫そうだ…

じゃあ、どこがおかしいんだろう…

331 ：名無し名誉名人教士：2016/06/04 21:21:57 (9年前) 0MONA/0人

>>325
私の環境でもエラーを確認できました。

PC3台でマイニングしていて、すべてが同時(?)に発生したことから、WalletからWork情報を受け取る際に発生しているのではないかと予想。

332 ：名無し名誉名人教士：2016/06/05 00:19:15 (9年前) 0MONA/0人

とりあえず、修正してみました。
うまくいくといいんだけど…

高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!850&authkey=!AHk1hss4HZtCU60&ithint=file,zip

333 ：電気代がペイ出来てるｗ五段：2016/06/05 05:04:42 (9年前) 0MONA/0人

使わさせていただきます！

334 ：名無し名誉名人教士：2016/06/05 09:00:15 (9年前) 0MONA/0人

とりあえず、このバージョンで問題がなければ…
「ソロマイニング時のWork作成に16384バイトでは足りなかった」
ってことになる。
今回の改造で、Work作成時に確保するメモリを16384バイトから65536バイトに変更した(根拠なし)

ちなみに、1.5.77では可変長変数として確保していたため、問題がなかった(と思う)。

335 ：電気代がペイ出来てるｗ五段：2016/06/05 09:28:38 (9年前) 0MONA/0人

現在３時間半経過、異常なし。

採掘いまだ成功なし

336 ：名無し名誉名人教士：2016/06/05 11:53:23 (9年前) 0MONA/0人

ダメだ。またエラーが出た…
じゃあ、今度は1.5.77のjson_rpc_callを、そっくりそのまま1.7.6に移植するか…
(1.5.77ではエラーは出てなかった)

337 ：やっち二段：2016/06/05 12:24:28 (9年前) 0MONA/0人

そいや1070って買う？980tiみたいな性能だけど

338 ：電気代がペイ出来てるｗ五段：2016/06/05 13:07:30 (9年前) 0MONA/0人

寝て起きたら止まってた。10：59で

339 ：名無し名誉名人教士：2016/06/05 13:50:14 (9年前) 0MONA/0人

今度はどうかな？

高速化バージョン(1.7.6ベース、プール･ソロ共通版)https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!851&authkey=!AHk1hss4HZtCU60&ithint=file,zip

340 ：電気代がペイ出来てるｗ五段：2016/06/05 19:15:41 (9年前) 0MONA/0人

止まらなくなったと思います、まだ掘れてはいないですが！

341 ：名無し名誉名人教士：2016/06/05 19:22:22 (9年前) 0MONA/0人

>>340
私は2ブロックほど掘れた…(GTX970×5、GTX960×2)

342 ：電気代がペイ出来てるｗ五段：2016/06/05 19:28:56 (9年前) 0MONA/0人

流石GPUの枚数が違う＞＜
落ちなくはなりましたね＾＾
安心して寝れます！

343 ：名無し名誉名人教士：2016/06/06 07:16:52 (9年前) 0.4MONA/2人

とりあえず、17時間試してエラーが出なかったので、うｐします。
(r3-fix2を使用している場合は更新不要です)
・ソロマイニング時にエラーで終了する問題を修正
・cubehashとblakeKeccak部分を統合…したけど効果がイマイチのためr3のものに戻す(名残は残っている)

CUDA Toolkit 8 RCを使用しているため、ドライバは最新のものを使用してください。(たぶん、古いと動かないよ…)
Fermiを使用している方は正常に掘れているか、速くなっているかを確認して使用してください。(動作確認していただけると幸いです)

高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!852&authkey=!AHk1hss4HZtCU60&ithint=file,zip

ソースコード高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!853&authkey=!AHk1hss4HZtCU60&ithint=file,zip

344 ：名無し名誉名人教士：2016/06/06 18:51:22 (9年前) 0.00114114MONA/1人

Fermiの動作報告がなかったので、ちょっとFermi買ってきた。

GT610 (改造前：1.7.6)

GT610 (改造後：1.7.6-r4)

345 ：名無し名誉名人教士：2016/06/06 18:56:19 (9年前) 0MONA/0人

安物のボードではこんなものか…
(動作確認のために無駄な出費を…)

346 ：名無し名誉名人教士：2016/06/06 19:24:52 (9年前) 0MONA/0人

とりあえず、ここでの改造はFermiまでの対応となります。
それ以前(GTX/GTS/GT200台、Geforce9000台、Geforce8000台)は非対応とします。
シェアードメモリが小さすぎて高速化が困難。ってか、そもそもコンパイルできない…(__byte_permが使えないっぽい)

347 ：リキプロマン六段：2016/06/06 21:26:45 (9年前) 0MONA/0人

>>343
いつも開発お疲れ様です！最近時間が取れずccminerの検証が出来てませんが、ソースコードを流し読みしていつも目からウロコです。
名誉名人さんのペースでがんばってくださいね！

348 ：求不得苦七段錬士：2016/06/07 00:37:41 (9年前) 0MONA/0人

>>345
開発お疲れ様です！
ＧＴ４３０を積んでいる古いＰＣを引きずり出し、
1.7.6-r4をフルで走らせてみました。

意外とHashrate出ていてびっくりです。

349 ：名無し名誉名人教士：2016/06/07 05:23:00 (9年前) 0MONA/0人

いろいろ実験してみたが、
Fermi以前(Compute Capability 1.0～1.3)は最新のCUDA Toolkitではコンパイルできないようだ…
そして、CUDA Toolkit 6.5でコンパイルしようとすると、Fermi以前は何とかなりそうだけど、Maxwell以降(Compute Capability 5.0～)用のコードを吐き出せない…

350 ：名無し名誉名人教士：2016/06/07 06:07:30 (9年前) 0.114MONA/1人

CUDA Toolkit 6.5でコンパイルして試してみようと思ったけど、
Geforce210はドライバインストールもままならなかった…
どうやら最新ドライバではGeforce210はサポートされていないようだ…

ってことで、Fermi以降の対応ってことで、いいよね？それ以前は使わないよね？

351 ：名無し名誉名人教士：2016/06/07 09:56:45 (9年前) 0MONA/0人

高速化版ハッシュレートまとめ Fermi:400番台 (推定値)
GT420：256kH/s
GT430：530kH/s
GT440：613kH/s
GTS450：1186kH/s
GTX460：1789kH/s
GTX460SE：1477kH/s
GTX465：1687kH/s
GTX470：2147kH/s
GTX480：2652kH/s

352 ：名無し名誉名人教士：2016/06/07 09:57:00 (9年前) 0MONA/0人

高速化版ハッシュレートまとめ Fermi:500番台 (推定値)
GT510：198kH/s
GT520：307kH/s
GT530：530kH/s
GT545(DDR3)：818kH/s
GT545(GDDR5)：988kH/s
GT550Ti：1363kH/s
GTX555：1764kH/s
GTX560：2147kH/s
GTX650Ti(384コア)：2490kH/s
GTX560Ti(448コア)：2587kH/s
GTX570：2772kH/s
GTX580：3118kH/s
GTX590：4907kH/s

353 ：名無し名誉名人教士：2016/06/07 09:57:25 (9年前) 0MONA/0人

高速化版ハッシュレートまとめ Fermi:600番台 (推定値)
GT610：307kH/s
GT620：530kH/s
高速化版ハッシュレートまとめ Kepler:600番台 (推定値)
GT630：1248kH/s
GT640：1254～1447kH/s
GTX650：1397kH/s
GTX650Ti：2442～2727kH/s
GTX660：3409kH/s
GTX660Ti：4528kH/s
GTX670：4528kH/s
GTX680：5587kH/s
GTX690：10762kH/s

354 ：名無し名誉名人教士：2016/06/07 09:57:55 (9年前) 0MONA/0人

高速化版ハッシュレートまとめ Kepler:700番以降 (推定値)
GT710：660kH/s
GT720：551kH/s
GT730：1248kH/s
GTX760：2699kH/s
GTX770：2872kH/s
GTX780：7472kH/s
GTX780Ti：9630kH/s
GTX TITAN：8485kH/s
GTX TITAN Black：10170kH/s
GTX TITAN Z：18181kH/s

355 ：名無し名誉名人教士：2016/06/07 09:58:12 (9年前) 14MONA/1人

高速化版ハッシュレートまとめ Maxwell (推定値)
GTX750：4700kH/s
GTX750Ti：5875kH/s
GTX950：9309kH/s
GTX960：12308kH/s
GTX970：20000kH/s
GTX980：25409kH/s
GTX980Ti：30887kH/s
GTX TITAN X：33695kH/s
高速化版ハッシュレートまとめ Pascal (推定値)
GTX1070：31684kH/s
GTX1080：43500kH/s

356 ：monyu六段：2016/06/07 17:58:49 (9年前) 0MONA/0人

こんばんは^^ (初投稿です)
1.7.6-r4 で 750ti でがんばってみました。

i.imgur.com/c3gwTZ7

357 ：monyu六段：2016/06/07 18:06:49 (9年前) 1MONA/1人

ごめんなさい...画像はこちら
(Afterburnerでクロックなどいじってます。もうちょっとで7Mなんですが)

358 ：名無し名誉名人教士：2016/06/07 19:01:25 (9年前) 0MONA/0人

>>357
補助電源なしのグラボで無茶はしない方がいいと思うよ…

359 ：やっち二段：2016/06/07 19:12:39 (9年前) 0MONA/0人

適当に>>355のハッシュレートで計算したら1080、1070のROI達成が普通に現実的で夢が広がる

360 ：名無し名誉名人教士：2016/06/07 19:33:36 (9年前) 0MONA/0人

>>359
すでに>>297で動作確認も行われています。めっちゃ高速ですね！
ちなみに無改造版ではハッシュレートがそれほど高くないので(>>304)、
GTX1080の大量導入によるNetHashrate増加はないと考えています。
(クラウド勢に高速化版のソースが流れていなければ、無改造版ではGTX750Tiの方が効率がいいはず…)

影響ないといいな…

361 ：コダチ＠ふんわり極名人錬士尊者：2016/06/07 19:55:03 (9年前) 0MONA/0人

中国人のお友達にも教えてあげたいケド・・・

あちこち広めそうだから遠慮してますｗ

362 ：リキプロマン六段：2016/06/07 22:38:52 (9年前) 0MONA/0人

玄人志向製の560tiでベンチとりました。

通常版ccminer1.7.6

名誉名人版ccminer1.7.6

流石にMaxwellのような二倍以上のハッシュレート向上はFermiでは厳しいですね。Warp shuffleつよい。

363 ：リキプロマン六段：2016/06/07 22:40:44 (9年前) 0MONA/0人

>>362
そうそう、元々のccminer1.7.6だとx86よりx64の方が良いんですよね。これはちょっと調べてみる必要があるかもしれないです。

364 ：名無し名誉名人教士：2016/06/08 04:49:01 (9年前) 0MONA/0人

>>351～>>355のハッシュレート(推定値)を基に、スレッド数（-iオプションの値）のデフォルト値を設定しようと思う。
設定の方針：1回のGPU処理を0.1秒以内で行えるスレッド数(-iオプション値＝log(2)(ハッシュレート×0.1)で計算)
GPUが処理している間は、グラフィックスの処理が固まってしまう。GPU処理が0.1秒の場合、1秒間に約10回、グラフィックス処理が行われることになる(10fps程度)。カクつくが、操作できるレベル…かな？
あと、あまり長いと採掘してから、報告までタイムラグが発生し、最悪、他者に先を越されてRejectってことになりかねない…
Pascal
GTX1080⇒-i 22
GTX1070⇒-i 21
Maxwell
GTX TITAN X～GTX980⇒-i 21
GTX970･GTX960⇒-i 20
GTX950･GTX750Ti⇒-i 19
GTX750⇒-i 18
この方針に異論がなければ、Kepler･Fermiもこの方針でデフォルト値を設定します。(例：GTX560Ti⇒-i 17、GT430⇒-i 15、など)
どうでしょうか…？

365 ：リキプロマン六段：2016/06/08 08:13:49 (9年前) 0MONA/0人

>>364
スレッド数設定の方針としては異論はありません。使いやすくてよいて思います。

ところでGTX980で掘っている際に、
GPU #0: an illegal instruction was encountered
というエラーがたまに発生して採掘が停止します。
ドライバは最新です。

366 ：名無し名誉名人教士：2016/06/08 13:11:10 (9年前) 0MONA/0人

>>365
とりあえず、それっぽい部分を見つけた…
今夜、修正してみる。

1.5.80では、
work.scanned_to = start_nonce + hashes_done;
1.7.6では、
if (rc > 0) work.scanned_to = work.nonces[0];
if (rc > 1) work.scanned_to = max(work.nonces[0], work.nonces[1]);
else work.scanned_to = max_nonce;
注：work.nonces[0],[1]は直前に発見したブロック
どうやら、ブロックを見つけてから次を立ち上げる時のスタート地点がずれているのが原因っぽい…

367 ：名無し初段：2016/06/08 18:38:02 (9年前) 0MONA/0人

Ubuntuでできるようにはなりませんか？

368 ：zori八段教士：2016/06/08 19:46:25 (9年前) 0MONA/0人

最新版のやつを試してみたんだけど、ついにGTX950で10000KH/sの壁を超えて感動した！
OCしてなくてこれだからOCすればもう少しいけそう。
ちなみにi-16の省電力設定でも9400KH/sぐらい出てる。
ありがたやありがたや

369 ：名無し名誉名人教士：2016/06/08 19:46:34 (9年前) 0MONA/0人

>>367
それは私よりリキプロマン氏の方が詳しそうだな…
ってか、私も興味ある。

370 ：名無し名誉名人教士：2016/06/08 22:36:16 (9年前) 7.28MONA/2人

エラーっぽいところを修正してみた。
・プールマイニング時にエラーが出る問題を修正(できたかどうかはわからないが…)。スレッド数に端数が出ないようにした。
・GPUごとにデフォルトのスレッド数を設定した(Kepler、Fermiを含む)
・起動時にスレッド数を表示するようにした。ただし、想定外のGPUの場合は表示されない(モバイル用、Quadroなど)
「GPU #0: Intensity set to 21, 2097152 cuda threads」みたいな記述が表示されます。
・スレッド数等を初回のみ設定するようにした。(設定を記録しておいて、2回目以降は無駄な処理を行わない)

高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!855&authkey=!AHk1hss4HZtCU60&ithint=file,zip

ソースコード高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!854&authkey=!AHk1hss4HZtCU60&ithint=file,zip

371 ：名無し名誉名人教士：2016/06/08 23:34:42 (9年前) 0.00114114MONA/1人

GTX1080における、高速化効果の考察
GTX1080はスペックは以下の通り
CUDAコア2,560基、GPUクロック1,607/ブースト1,733MHz
L2キャッシュ2MB、64スレッド/SM、シェアードメモリ64kB
・高速化前の性能(>>304にて約14MH/s)は期待ほど出ていない。
これは、メモリアクセスが大きく足を引っ張っている結果と考えられる。
GTX980と比較すると、L2キャッシュが減っているため、キャッシュヒット率が悪くなってしまう。これでは、いくらコアが増えてメモリが速くなっても速度がそれほど上がらない。
・高速化後の性能(>>297にて約43.5MH/s)で大きく高速化されている。
これは、シェアードメモリを使い、メモリアクセスを極限まで減らした結果と考えられる。
Maxwell以降、シェアードメモリを十分確保できるようになり、この演算においてグローバルメモリを全く使わなくなった。(Kepler,Fermiではシェアードメモリはギリギリ)
また、シェアードメモリはGPUクロックで動作するため、クロック向上も高速化に大きく寄与していると考えられる。

Lyra2REv2とは異なり、他のアルゴリズムはメモリアクセスが少なく、無改造でもGTX1080のパワーが期待できるため、クラウド勢はLyra2REv2にGTX1080を持ち込まないことが予想されます。やったね！
他のアルゴリズムは荒れるでしょうけど……

372 ：リキプロマン六段：2016/06/09 00:38:11 (9年前) 0MONA/0人

>>367
cuda8.0になってからubuntuで試してないのでまだ何ともいえません。
ただ今はcuda8.0がベータ版なので、Nvidia Developperに登録してインストーラーを取りに行く必要があります。
https://developer.nvidia.com/cuda-release-candidate-download

cuda7.5で動作するccminerなら以下を参考にして下さい。
http://askmona.org/4239

373 ：リキプロマン六段：2016/06/09 00:40:43 (9年前) 0MONA/0人

>>372
あと32bitでコンパイルした方が高速なのですが、コンパイルオプションや設定変えるのがめんどくさいのでdockerで32bitのubuntuイメージ用意して試してみようと考えています。
cuda8.0入りのubuntuイメージあったら楽そうだけどあるかな・・・・

374 ：リキプロマン六段：2016/06/09 00:55:40 (9年前) 0MONA/0人

>>373
言葉が足りなかったのですが、ubuntuでcudaが動くドライバはcudaインストール時に自動でインストールされます。
nvidia-currentとかの他のプロプライエタリドライバではcudaが動きませんので、ccminerだけ動かしたいような場合でもcudaは必ずインストールする必要があります。
で、ubuntuの更新機能でcuda動作可能なドライバが勝手に普通のドライバに更新されちゃうことがあるので注意して下さいね。
そのせいで研究室の友人の研究発表が死にそうになりました。

375 ：暴れ名無し二段：2016/06/09 02:14:39 (9年前) 3.9MONA/1人

GTX760ですが1.7.6-mod-r1だと4300k出てましたがr5だと3400kしかでません
いったい何故？

376 ：電気代がペイ出来てるｗ五段：2016/06/09 04:10:50 (9年前) 0MONA/0人

ccminerのアルゴリズムsh256対応のってありますか？
半日探してみたんですがわからずじまいで＞＜

377 ：きさらぎ八段錬士：2016/06/09 05:12:38 (9年前) 0MONA/0人

GT 540M
r4 32bit 513kH/s

r4 64bit 500kH/s

r5 32bit 509kH/s

r5 64bit 495kH/s

378 ：名無し名誉名人教士：2016/06/09 06:16:29 (9年前) 0MONA/0人

>>375
r1とr5での大きな違いは
・cubehashの最適化
・CUDA Toolkit 8 RCに移行
かな…？
前者が原因だとすると、keplerでは逆効果だったってことになる…
後者が原因だとすると、もしかしたらドライバの更新で何とかなるかも？

379 ：名無し名誉名人教士：2016/06/09 06:54:52 (9年前) 0MONA/0人

少なくとも、maxwellではcubehashの最適化効果は若干あった。
GTX980 -i 21にて、(cubehashの部分のみ)
最適化前：16.80ms
最適化後：16.37ms(約2.6%高速化)
となった。

380 ：リキプロマン六段：2016/06/09 07:49:23 (9年前) 0MONA/0人

kenshirothefistという方ご存じですか？
nicehashの開発者なのですが、そこで使われているlyra2v2のソースコードがここのccminer-sp r5のコピペっぽいんですよね。
ソースコメントも一致してしまったので・・・
外部に知られてソースが取り入れられるのは良いとしても、それを引用元の記述とかそういうのなしに自分がやったように書くのは・・・うーん・・・
https://github.com/nicehash/ccminer-sp
https://github.com/nicehash/ccminer-sp/blob/master/lyra2/cuda_lyra2v2.cu

381 ：名無し名誉名人教士：2016/06/09 09:06:40 (9年前) 0MONA/0人

>>380
そうか…取り込まれたか…
他のアルゴリズムからLyra2REv2にどれだけ流れてくるのかな…？

現在、nicehash、westhashを合わせて0.79GH/sくらい…
数日後がどうなってるか、逆に楽しみでもある。

382 ：名無し名誉名人教士：2016/06/09 09:31:12 (9年前) 0MONA/0人

まあ、取り込まれたなら、今からGTX1080を買うのはちょっとリスクがあるかな？
(でも、逆に「マイニングするならGTX1080以外あり得ない」ってことになるかも…)

383 ：名無し四段：2016/06/09 10:22:45 (9年前) 0MONA/0人

14GHash/s になってない？ nicehashのLyra2REv2

384 ：名無し四段：2016/06/09 10:23:52 (9年前) 0MONA/0人

>>381
0.79GH/sは多分Lyra2REのほうでLyra2REv2じゃないっぽい

385 ：なむやん七段教士：2016/06/09 10:43:15 (9年前) 0MONA/0人

もしかしたら他のアルゴリズムの改良の参考にされるかもしれない
それはそうでも、電気代がネックの日本で掘るのは不可能だったのか

386 ：名無し名誉名人教士：2016/06/09 11:02:16 (9年前) 0MONA/0人

>>384
おっと、勘違いしてた…すまぬ…

クラウド勢のハッシュレート考察
・単に高速化しただけなら約2倍になる(GTX750Tiで約2倍)、
・ハッシュレート単価がそのまま(下がらない)とすれば、他のアルゴリズムからの流入も考えられる。
・GTX1080が普及すると、さらに2倍以上もあり得る
電源そのままの場合、GTX750Ti×3⇒GTX1080の乗り換えでハッシュレートが21000kH/s⇒43000kH/s(約2倍)。
電源も強化する場合、GTX750Ti⇒GTX1080の乗り換えでハッシュレートが7000kH/s⇒43000kH/s(約6倍)。

少なくとも、MONAの価格が2倍にならないと国内マイナーはつらいことになるな……価格が上がることを見越して、MONA買いに走るか？

387 ：名無し名誉名人教士：2016/06/09 11:04:02 (9年前) 0MONA/0人

>>385
メモリを多く使っているアルゴリズムなら、改良できるかもね…

388 ：なむやん七段教士：2016/06/09 11:07:04 (9年前) 0MONA/0人

自分の予想では、海外勢は掘即売だからダラダラ値下がりすると思ふ
ちょっと前みたいに

389 ：リキプロマン六段：2016/06/09 11:51:13 (9年前) 0MONA/0人

>>382
nicehashのccminer-spはsp-hashさんやtpruvotさんのccminerからのブランチとして作られてはいないので、このlyra2rev2のコードが大本のccminerにすぐに取り込まれることはないと思います。
ソースコードをよく読むとどうやら1.5.80ベースのr10かr11あたりのようです。つまり、nicehashのccminer-spではpascalやkeplerなGPUを持ってる人は恩恵受けないわけですね。
微妙に異なる点はcuda_helper.hのxor3x部分ですが、lyra2v2関係あったっけかな・・・？

390 ：リキプロマン六段：2016/06/09 12:02:56 (9年前) 0MONA/0人

>>386
今zaifでmonacoin発行数の2%を一気に売りに出している人がいるので、なんかまたmonaの相場がきな臭くなってきた感じです・・・
10円台すら遠く感じますね。

391 ：暴れ名無し二段：2016/06/09 13:06:35 (9年前) 0MONA/0人

>>378ドライバは最新にした結果だったので前者の方ではないでしょうか。

392 ：なむやん七段教士：2016/06/09 13:24:31 (9年前) 0MONA/0人

いつかはバレると思ってたがひと月もたなかったとは
閉じたコミュニティにすべきだったか
今となっては遅いけど
良いニュースがあったと思ったらコレだ(´Д` )

393 ：名無し七段錬士：2016/06/09 15:26:11 (9年前) 0MONA/0人

bitcointalkで「このカーネルどっから来たんだ？」みたいな話してた

394 ：リキプロマン六段：2016/06/09 17:21:55 (9年前) 0MONA/0人

>>393
SP-MODスレですよね。djm34さんが作ってくれたんじゃないとかWolf0さんが俺じゃないぞとか言ってたりいろいろ憶測流れててちょっと笑う。
スレの住人はまだソースコードを見つけきれていないもよう。
https://bitcointalk.org/index.php?topic=826901.msg15132083#msg15132083

395 ：やっち二段：2016/06/09 18:08:29 (9年前) 0MONA/0人

みんなソースコードを出せ出せ言ってますね
いつここが見つかるやら

396 ：名無し名誉名人教士：2016/06/09 18:14:16 (9年前) 0MONA/0人

なんだろう。釣りで喜ぶ人たちの気持ちがちょっとだけわかった気がする。
別にこれは釣りではないのたが…

397 ：リキプロマン六段：2016/06/09 18:49:35 (9年前) 0.39MONA/1人

ソースコード（https://github.com/nicehash/ccminer-sp の方）が発見された模様。

very interesting...
わかる。エレガントなコードっていいよね・・・。

398 ：名無し名誉名人教士：2016/06/09 19:14:06 (9年前) 0.393939MONA/1人

褒められてもMONAしか出ないよ…

399 ：なむやん七段教士：2016/06/09 19:28:13 (9年前) 0MONA/0人

結局NiceHashのkenshirothefistが寄付のBTCをガッポリ貰って収束するんじゃ....
名誉名人さんがそれでいいならいいですけど、自分としては無関係だけど納得いかん(怒
さてmonaのハッシュレートがどれだけ上がるかのぅ......

400 ：名無し名誉名人教士：2016/06/09 19:34:40 (9年前) 0MONA/0人

>>399
まあ、ネタで作ったスレだし…
あっちのスレの人たちも、そのうちここを見つけるんじゃね？

401 ：みこす三段：2016/06/09 19:42:37 (9年前) 0.00114114MONA/1人

750Ti 3枚挿しのUbuntu14.04 Cuda7.5でビルド＆採掘できました



まだ採掘始めて時間が経ってませんが特に問題なさそうです

402 ：リキプロマン六段：2016/06/09 20:36:39 (9年前) 0.1MONA/1人

そうそう、最近の名誉名人版ccminer1.7.6に言えることなのですが、lyra2rev2で動かしている際に度々GPUの負荷が0になります。

恐らくメモリからのデータ待ちかスレッド待ちかのどちらかが理由なのですが、それによりブーストクロックでGPUが動作していたのが負荷が0になった時点で定格に戻ってしまいます。その細かいクロックの上下によるオーバーヘッドでハッシュレートが多少下がることになります。
これはブーストクロックと定格のクロックをafterburnerやbioseditorで同じにすることで解決出来ます。
少しでもハッシュレートを稼ぎたい人向けチューニングですね。

403 ：siv三段：2016/06/09 20:39:39 (9年前) 0MONA/0人

現状Lyra2REv2のハッシュパワーはどこに向けられてるんですかね?
Vertcoinなのかな?

404 ：名無し名誉名人教士：2016/06/09 20:59:46 (9年前) 0MONA/0人

どこかのタイミングで、あっちのスレにここのログを投下するのも面白そうではあるな…

405 ：なむやん七段教士：2016/06/09 21:00:23 (9年前) 0MONA/0人

2週間前に計算した時は、採算性はmona、だけどvertとあんまり差が無い印象
その時はまだ4円代だから、今は断然Mona
多分Monaにくると思われ

406 ：のん五段：2016/06/09 21:12:51 (9年前) 0MONA/0人

1.7.6r5を使用しGTX670で計測してみたのですが大幅に速度が低下しているのですが何か変更点があったのでしょうか？
ドライバは最新版を使用していることを確認しました
<r1>
https://www.dropbox.com/s/p8nwhkg1g1i0xme/スクリーンショット 2016-06-09 21.09.39.png?dl=0
<r5>
https://www.dropbox.com/s/udq1owmd2x4fxor/スクリーンショット 2016-06-09 21.10.28.png?dl=0

407 ：のん五段：2016/06/09 21:17:35 (9年前) 3.9MONA/1人

連投失礼します
さらに詳しく調べたところ1.7.6 r2から速度が落ちていることが判明
コア温度はr1とr2で変化なし

408 ：名前はまだ無い四段：2016/06/09 21:42:12 (9年前) 0MONA/0人

>>316
レジスタのレイテンシも考慮する必要があるのですか、お疲れ様です。

>>371
http://international.download.nvidia.com/geforce-com/international/pdfs/GeForce_GTX_1080_Whitepaper_FINAL.pdf
GP104のGTX 1080はSMあたり128コアと96kBのシェアードメモリのようです。
やはりメモリやL2キャッシュがボトルネックにならないというのは大きいですね。

>>389
Pascalは恩恵があると思います。

>>405
採算性だけを考えると採掘難易度の変動によって行ったり来たりとなりそうです。

409 ：名無し名誉名人教士：2016/06/09 21:43:41 (9年前) 0MONA/0人

>>375 >>407
r1とr2では、
・ソロマイニング用の改造(プール掘りは関係なし)
・CUDA Toolkit 8 RCに移行
を更新しています。
ってことは、CUDA Toolkit 8 RCがKepler以前の相性が悪いってことかな？

410 ：名無し名誉名人教士：2016/06/09 22:14:04 (9年前) 0.114114MONA/1人

向こうのスレでは、ソース内の日本語に気付いた人がいるっぽい…

https://bitcointalk.org/index.php?topic=826901.12120

411 ：なむやん七段教士：2016/06/09 22:24:00 (9年前) 0MONA/0人

>>410
お？予想外に早く気づきそう。
寄付用BTCアドレスをスレ上部書いておくとよさそう。そしてMonaをばら撒いてくれ（Monaちょうだい）

412 ：リキプロマン六段：2016/06/09 22:40:36 (9年前) 0MONA/0人

>>410
メモリアライメントの箇所意味なくない？って言われてますね。まぁ、うん、あっても悪影響はないからいいんじゃないかな・・・

413 ：名無し名誉名人教士：2016/06/09 22:58:51 (9年前) 0MONA/0人

>>412
うん、1.7.6からはそこは修正したよ…

414 ：リキプロマン六段：2016/06/09 23:01:54 (9年前) 0MONA/0人

>>408
そういえばpascal動くんでしたっけ！勘違いしていました・・・

SP-MODスレを最初の方から読んでみたのですが、SP_さんに0.1BTC渡すことで非公開の高速化されたccminer貰えるみたいですね。
そのプライベートなccminerのlyra2v2特化版と比較した場合、lyra2v2アルゴリズム以外のcubehashとかはプライベート版が高速らしいのですが、名誉名人版のlyra2v2がぶっちぎりで高速なのでトータル的により速い、ということみたいです。

415 ：名無し名誉名人教士：2016/06/09 23:10:43 (9年前) 0MONA/0人

>>414
そのプライベートなccminerって、どの程度の速さなんだろうか…

ってか、ここでも0.1BTC取るべきだった？
(いや、取るつもりは全くないけど…)

416 ：リキプロマン六段：2016/06/09 23:22:12 (9年前) 0MONA/0人

>>408
比較ベンチの書き込みです。sp-mod private #6というやつがお値段0.1BTCのやつです。
https://bitcointalk.org/index.php?topic=826901.msg15132802#msg15132802

個人的にはBTCの代わりに最近出た「CUDA C プロフェッショナルプログラミング」あげたいです。だいたい0.1BTCしますけど。
ほんとCUDAの参考書って安い奴は古すぎて使いものにならないし、新しい奴はすんごい高い・・・

417 ：リキプロマン六段：2016/06/10 00:16:17 (9年前) 0MONA/0人

で、ccminer-spをうけてSP_さんが「sp-mod private #7」をリリースしたっぽい。名誉名人版より更に7%高速だと・・・
970で22.6MH/s、750tiで6.7MH/sとは。

あと、シェアードメモリ活用して高速化する手法は今までにもあるらしく、、x11の中のgroestlやshaviteで採用されていたみたいです。参考になったりしないかな・・・。

418 ：名前はまだ無い四段：2016/06/10 01:12:10 (9年前) 0MONA/0人

>>416-417
cubehash部分も結構処理が重いようですし、その部分の違いが主な差となっていそうですね。

419 ：名無し六段錬士：2016/06/10 02:44:33 (9年前) 0MONA/0人

ふと気になったけど、ccminerのライセンスってどういう仕組みなんだろうか？

420 ：名無し名誉名人教士：2016/06/10 05:45:59 (9年前) 0MONA/0人

>>419
Readme.txtには
Source code is included to satisfy GNU GPL V3 requirements.
って書いてあった…
ライセンスとか英語が長文でダラダラ書いているからよくわからんが、
GNU GPL V3って、どんなライセンスなんだ？

421 ：名無し名誉名人教士：2016/06/10 05:48:40 (9年前) 0.10114114MONA/1人

>>375 >>407
とりあえず、CUDA Toolkit 7.5でコンパイルしてみた

高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://onedrive.live.com/redir?resid=C7ABE390AB1575E7!856&authkey=!AHk1hss4HZtCU60&ithint=file,zip

ソースコードは>>370と同一(CUDA Toolkitのみ変更)

422 ：のん五段：2016/06/10 06:12:06 (9年前) 0MONA/0人

>>421
GTX670で検証したところ無事r1と同じ速度が出ました
やはり8.0では相性が悪いようですね
<r5 fix>
https://gyazo.com/d76744a382b839b39fbdbb4e91627fdd

423 ：リキプロマン六段：2016/06/10 07:49:37 (9年前) 0.1MONA/1人

>>420
GPL自体はソースコードを原則公開し、改変、再配布を認めるもので、もしGPLが用いられたソースを改造したり、プログラムの一部として組み込んだりしたら、それにもGPLを付与して公開しなきゃいけないやつですね。
MIT Licenseとかは著作権の表示だけでいいんですけど、こっちはソースコードも公開しなきゃいけないほんとのオープンウェアですね。

昔、PS2版のICOってゲームにGPLのソースが組み込まれていたことがわかって、一回廃盤になっちゃったことがあります。今はその部分を取り除いて売ってるみたいですね。

424 ：リキプロマン六段：2016/06/10 07:59:59 (9年前) 0.1MONA/1人

>>423
あ、商用利用はOKです。ただ、GPL含まれてたら一緒にソースコード公開してね！ってやつなので、ccminerの個々のアルゴリズムはGPLじゃなくても、ccminer自体ががGPLであれば全部公開する必要があります。
GPL汚染なんて言います。

425 ：リキプロマン六段：2016/06/10 08:22:55 (9年前) 0MONA/0人

>>262
のんさんってSTRIXの980使っているんです？私と同じですね！
こっちはリキプロヌリヌリして、BIOS改造した結果1500MHz動作でGPU温度69℃です。1.7.6でも問題ないので、のんさんもリキプロ化しましょうさあ！

>>421
7.5コンパイル版だと980は微妙に遅くなったので、kepler以前向けですね。

426 ：リキプロマン六段：2016/06/10 08:30:50 (9年前) 0MONA/0人

連投申し訳ないんですが、tpruvotさんが https://github.com/nicehash/ccminer-sp の方を参考にしてccminerのブランチに組み込んだみたいです。
https://github.com/tpruvot/ccminer/commit/53275e3a00ae8639bbcd0bcbf934a85bec56819d

ccminer 1.8.1あたりでリリースされそうですね。みんな動き早いなぁ・・・

427 ：電気代がペイ出来てるｗ五段：2016/06/10 08:38:11 (9年前) 0MONA/0人

おはよう♪
英語読めるのすごいな～と思って眺めていますｗ

428 ：なむやん七段教士：2016/06/10 09:02:21 (9年前) 0MONA/0人

Lyra2REv2はmonaとvert以外に何がありますか？

429 ：リキプロマン六段：2016/06/10 12:34:00 (9年前) 0.39MONA/1人

>>428
https://xpool.ca/によると、Verge,Unitus,MobileCash,Zoom,LyraBar とかある。

430 ：リキプロマン六段：2016/06/10 13:02:55 (9年前) 0MONA/0人

とうとうbitcointalk勢に見つかったｗｗｗ
welcome!

431 ：siv三段：2016/06/10 13:13:27 (9年前) 0MONA/0人

書き込んだの絶対こっちの人だろｗｗ

432 ：リキプロマン六段：2016/06/10 13:16:19 (9年前) 0MONA/0人

ALSKDJFH・・・捨て垢臭いなぁ
まあ遅かれ早かれだし、多少はね？

433 ：なむやん七段教士：2016/06/10 13:21:25 (9年前) 0MONA/0人

spさんが追い詰められてて草

434 ：なむやん七段教士：2016/06/10 13:30:36 (9年前) 0MONA/0人

時流に逆らわず便乗

435 ：リキプロマン六段：2016/06/10 14:53:45 (9年前) 0.1MONA/1人

ちょっと時間あったので自分も便乗
相変わらずのガバガバ英語である。これでいろいろ収束してくれるといいなぁ。

436 ：名無し七段錬士：2016/06/10 16:43:28 (9年前) 0MONA/0人

https://bitcointalk.org/index.php?topic=826901.msg15148319#msg15148319

何か不穏なこと言いだしたぞ

437 ：リキプロマン六段：2016/06/10 17:07:08 (9年前) 0MONA/0人

>>436
まぁ、身内かばうのは当然だよなぁ・・・。
こっちは反論材料いろいろあるからいつでも言い返せるし、bitcointalk内でも反論起きそうだし、自分としては何より名無し名人さんの気持ち尊重したいんで静観したいかな。
あんまりヒートアップするのも良くないしね。

438 ：名無し四段：2016/06/10 17:10:52 (9年前) 0MONA/0人

これからは bitcoinのブロックチェインに OP_RETURN でソースコードのハッシュを書き込んでからアップロードしよう(めんどい)

439 ：なむやん七段教士：2016/06/10 17:20:35 (9年前) 0MONA/0人

>>436 を訳すよ
このすげぇminerについて大きな誤解があるぞ。いつもminerを売りたいという開発者から改良されたものを買っている、売主は実名を使わないから本当に開発者かわからないし、実際、作者を言及しなかった...とにかく！売主は作者を明示するよう頼んだことはない！
しかし、彼は良い開発者で、既に他の改善に勤しんでいる、そして、私はopen sourceが好きだから公開する、たとえbinaryであっても(いつもsourceを公開し、binaryしか買えなかったらソレだけ公開する)
しかし、spさんには少しガッカリだ、公開sourceを横取りして、強欲な個人miner(俺ら？)にあげるとは....
よくないことだが、新たにSPの名の下に公開したら？

440 ：なむやん七段教士：2016/06/10 17:22:19 (9年前) 0MONA/0人

おっと、訳すのマズかったかな？
結局SPがやったのか？

441 ：名無し名誉名人教士：2016/06/10 17:28:47 (9年前) 0MONA/0人

まあ、何でもいいけど、SP_さんのcubehashの高速化が気になるな…
ちょっと、改造やってみるか？

ってか、英語の論争は私は参戦できない…
私の英語は中学レベルで止まっている…

442 ：なむやん七段教士：2016/06/10 17:40:29 (9年前) 0MONA/0人

SPの10%高速版を公開しろと叩かれてるのか
なんか可哀想な気がするゾ

443 ：リキプロマン六段：2016/06/10 18:15:05 (9年前) 0MONA/0人

>>439
your private minerってのは0.1BTC払ってる人たちのことでしょ。We are however～からSPさんへの非難だし。

まぁ、この話はやめにしよ。時間が出来たしccminer解析マン復帰しよ。

444 ：siv三段：2016/06/10 18:54:30 (9年前) 0MONA/0人

Lyra2REv2って確か他のアルゴリズム繋げてましたよね
だとするとそこにも改善のポイントはありそうなんですか?

445 ：なむやん七段教士：2016/06/10 18:58:21 (9年前) 0MONA/0人

Lyra2REv2は3つ連結してたよね
x11は11つのアルゴリズムを、x13は13のアルゴリズムをつなげてASIC耐性を高めてるようだ
x11のASICは出ちゃったけどね
しかしまだ発送してくれん....

446 ：リキプロマン六段：2016/06/10 19:03:22 (9年前) 0MONA/0人

>>444
Lyra2REv2は、blake,keccak,cubehash,lyra2v2,skein,cubehash(二回目),bmwとアルゴリズムを順番に起動して処理していきます。

そのため、もともとのccminer 1.5.80ではblakeとkeccakをひとまとめにして高速化をはかっています。
名誉名人も >>343 で更にまとめにしようとしてましたが、あまり効果はなかったようです。

447 ：リキプロマン六段：2016/06/10 19:48:57 (9年前) 0MONA/0人

>>446
で、まとめれば必ずしも良い訳ではなくて、今回のlyra2v2の様に逆に3つに分割する事で速度が上がることもあります。
これに関しては、スレッド当たりのレジスタ数とか、グローバルメモリでのデータのやり取りとかのバランスを考慮して最適化する事が肝要です。それが難しいんだけどね。

448 ：リキプロマン六段：2016/06/10 21:17:29 (9年前) 0MONA/0人

思い出した！名誉名人製ccminerが出るまで、lyra2v2はalexis78さんのが（少しだけ）最速だったんだ！
https://github.com/alexis78/ccminer
確かblakeとkeccakの部分が最適化されているために（ひとまとめにはしていないが速度は速い）、フォーク元のtpruvotさんのccminerより高速に動作するはずです。
これをベースに開発すればもう少し早くなるかも？

449 ：やっち二段：2016/06/10 22:48:06 (9年前) 1MONA/1人

gpu複数刺してる人ならgpu一つに一つのアルゴリズム担当とかさせて完全に役割分担させられそう

450 ：やっち二段：2016/06/11 02:09:40 (9年前) 0MONA/0人

Monaが高騰し始めてる…？
この値段が続くなら日本でもROIを目指せるかも

451 ：鳥ちゃん九段錬士：2016/06/11 05:01:19 (9年前) 0MONA/0人

高騰も理由かもしれませんけどハッシュレート上がってきちゃってますね

452 ：リキプロマン六段：2016/06/11 09:06:02 (9年前) 0MONA/0人

http://cryptomining-blog.com/7954-windows-binary-of-the-ccminer-1-7-6-r5-fork-with-faster-lyra2rev2/

デカデカと紹介されてしまった。bitcointalkで詳しく解説してしまって申し訳ない・・・

453 ：のん五段：2016/06/11 09:48:17 (9年前) 0MONA/0人

ASICPoolにてエラー率が急増してますが何か関係あるのでしょうかね
効率が60％を切っていてリアルタイムでエラーが増えていっていますが(´･ω･`)

454 ：のん五段：2016/06/11 09:53:18 (9年前) 0MONA/0人

このままだと効率がひとけたいきそうですね

455 ：名無し名誉名人教士：2016/06/11 10:18:20 (9年前) 1MONA/1人

ccminer改造履歴
2015/10/30 1.5.72ベースでソロマイニングを可能にする(逆にプール掘りができなくなった)
2015/11/24 1.5.74のCUDAの部分をマージ
2015/12/16 1.5.77ベースで作り直し。ソロマイニングを可能にする(逆にプール掘りができなくなった)

ここまで、高速化は行っていない。

2016/05/07 Lyra2REv2を高速化(ハッテン場さんのOpenCLソースを参考にする)
GTX970：9500kH/s⇒14500kH/s、GTX750Ti：4000kH/s⇒4600kH/s

ここまで、「【採掘者も孤独】ソロマイニングについて考える」　http://askmona.org/3853

456 ：名無し名誉名人教士：2016/06/11 10:18:50 (9年前) 1MONA/1人

ccminer改造履歴(続き)
2016/05/14(mod) 1.5.80ベースでプールマイニング用として、2016/05/07の高速化を実装
2016/05/15(mod r2) 低消費電力運用を可能とする「ECOモード」を実装(-iオプションを省略した場合のスレッド数を少なめに設定する)
2016/05/15(mod r3) GPUのメモリ占有量を減らした。(-i 21のとき1.5625GB⇒67MB、-i 24のとき12.5GB⇒515MB)
2016/05/17(mod r4) if文を減らして分岐ダイバージェンスを減らした。(750Ti/750ではこの改造で若干遅くなる)
2016/05/18(mod r5) Lyra2の演算を4分割化して大幅な高速化。(750Ti/750ではあまり高速化されない)
2016/05/19(mod r6) 一部演算の最適化。if文を減らした。
2016/05/19(mod r7) Lyra2の演算を前段、中段、後段の3分割にして、前段、後段の演算にmod r4のものを、中段の演算にmod r6のものを使用することで、大幅に高速化。
2016/05/20(mod r8) 前段、後段の演算において、シェアードメモリを使用しないようにした。
2016/05/25(mod r9) MonacoinWalletの更新に伴い、BlockVersionを変更。レジスタ数制限を解除(1スレッド255個)。
2016/05/27(mod r10) グローバルメモリの読み込みの調整。Compute 3.5に対応
2016/05/27(mod r11) Compute 3.5にて、シェアードメモリ優先に設定変更
GTX760：1300kH/s⇒4000kH/s

457 ：名無し名誉名人教士：2016/06/11 10:19:16 (9年前) 1MONA/1人

ccminer改造履歴(続き、1.7.6ベース)
2016/05/27(mod r1) 1.5.80/77ベースの最適化をマージ。Compute 3.0に対応。(Compute 3,0未満は高速化していない)
2016/05/30(mod r2) ソロマイニング用の機能を追加。CUDA Toolkit 8 RCに切り替えた。(Kepler以前のGPUでは若干遅くなります)
2016/05/30(mod r3) ソロマイニング時のエラー表示を修正。cubehashの最適化。Compute 2.0の高速化に対応。
2016/06/06(mod r4) ソロマイニング時のエラーで停止する問題を修正。
2016/06/06(mod r5) ソロマイニング時のエラーで停止する問題を修正(再修正)。GPU名に合わせてデフォルト値を変更するように修正。(Fermi～Maxwell、GTX1080、GTX1070に対応)
2016/06/10(mod r5fix) CUDA Toolkit 7.5に戻す。これによりKepler以前のGPUにおけるパフォーマンスが回復。

458 ：名無し名誉名人教士：2016/06/11 10:21:02 (9年前) 0MONA/0人

>>457
おっと間違えた、mod r5は2016/06/08だった…

459 ：のん五段：2016/06/11 10:52:23 (9年前) 0MONA/0人

いくら何でも失敗が13,138,400も行くなんておかしい気がする

460 ：なむやん七段教士：2016/06/11 10:59:06 (9年前) 0MONA/0人

効率一桁やなぁ
自分のは99%だけど何がおかしいのやら

461 ：鳥ちゃん九段錬士：2016/06/11 11:16:58 (9年前) 0MONA/0人

ASICPoolの効率見てるとこの間あった不当に報酬を得る攻撃を思い出しますね

462 ：名無し名誉名人教士：2016/06/11 11:17:00 (9年前) 0MONA/0人

>>460
割と昔からいなかったっけ？Lyra2REv2に切り替わったあたりから…

463 ：なむやん七段教士：2016/06/11 12:12:18 (9年前) 0MONA/0人

効率0.06%とか
悪影響感じないからいいけど（あるのかも？

464 ：のん五段：2016/06/11 12:20:07 (9年前) 0MONA/0人

最低で0.03%まで落ちましたね
全部Validだとどのくらいのハッシュになるんですかね

465 ：リキプロマン六段：2016/06/11 12:33:41 (9年前) 0MONA/0人

運営のびりあるさん気づいてないのかな…
ツイッター経由で連絡してみようかな

466 ：なむやん七段教士：2016/06/11 12:41:22 (9年前) 0MONA/0人

>>464
Valiedとhashが比例するなら22Thashいくことになる？？？もしかしてSHA256のアルゴリズムのままpoolに繋げたとか？はさすがにないかな

467 ：のん五段：2016/06/11 12:50:08 (9年前) 0MONA/0人

さすがに22Tはあり得ないですね
ここまでくると攻撃と考えざるおえないですね

468 ：リキプロマン六段：2016/06/11 13:05:44 (9年前) 0MONA/0人

そういえば1070発売されたけど、人柱さんいらっしゃらないだろうか…
ハッシュレートも980ti並みになるんだろうか

469 ：ねずみ五段：2016/06/11 14:59:00 (9年前) 0MONA/0人

ちょASICPoolの効率が0.05%に

470 ：コダチ＠ふんわり極名人錬士尊者：2016/06/11 15:06:31 (9年前) 0MONA/0人

一時的に他のPoolに移ったほうがいいのかなコレ？

471 ：ねずみ五段：2016/06/11 15:16:12 (9年前) 0MONA/0人

0.02%!
Invalid 20,460に対し
Valied 120,000,438!!

472 ：ねずみ五段：2016/06/11 15:16:41 (9年前) 0MONA/0人

LAPoolに疎開しましょうか

473 ：なむやん七段教士：2016/06/11 15:16:56 (9年前) 0MONA/0人

採掘は問題ないのだが気持ち悪い

474 ：リキプロマン六段：2016/06/11 17:26:21 (9年前) 0MONA/0人

効率低いのは直ったみたいよ

475 ：リキプロマン六段：2016/06/11 17:40:57 (9年前) 0.1MONA/1人

ccminer-spを参考にしたtpruvotさんのcuda_lyra2v2.cu、名誉名人さんのクレジット入れてくれたみたい。
https://github.com/tpruvot/ccminer/blob/windows/lyra2/cuda_lyra2v2.cu

476 ：リキプロマン六段：2016/06/11 17:59:04 (9年前) 0MONA/0人

incredible 2x boost・・・
ほんとそれな。更新の度にどんどん高速化していくのを見るのが楽しかった一ヶ月でした。

477 ：名無し名誉名人教士：2016/06/11 18:34:04 (9年前) 1MONA/1人

>>475
えっ、面白半分の改造だったのに、名前載っちゃったんだ…

どうやら、改造は他者に引き継がれたみたいだし、今度はsgminerの方を改造してみるかな？(すでにハッテン場さんが2倍にしているみたいだけど)
…そのためには環境をそろえないといけないな…安物グラボをまた買ってくるかな？

478 ：名無し名誉名人教士：2016/06/11 18:36:50 (9年前) 0MONA/0人

>>476
取り込むなら1.7.6ベースの方を取り込んだ方が楽だったと思うけどね…

479 ：リキプロマン六段：2016/06/11 19:02:44 (9年前) 0.00114114MONA/1人

>>478
確かtpruvotさんが自前で移植する時点で、1.7.6ベースのやつは海外勢には知られていなかったようです。それにしても仕事が早い…
sgminerで開発続行されるなら自分も応援しますよ！

480 ：siv三段：2016/06/11 19:04:18 (9年前) 0.00114114MONA/1人

RX 480が発売されますし需要は高まりそうですね

481 ：のん五段：2016/06/11 19:42:22 (9年前) 0MONA/0人

>>425
リキプロ化しただけでそんな冷えるんですか・・・
確かに出てくる風が熱くないということはグリスが悪いんでしょうね(´・ω・`)

482 ：のん五段：2016/06/11 20:00:38 (9年前) 0MONA/0人

でもファン外したことで切れる保証がちょっとって思うんですが
GPUなんて普通に使ってて壊れるもんなんですかね

483 ：ねずみ五段：2016/06/11 20:15:28 (9年前) 0MONA/0人

EVGAは水冷化しても（ヒートシンクを取り外しても）、元に戻せば保証してくれるそうですよ。
リキプロ化はどうなるか分かりませんが。

484 ：ねずみ五段：2016/06/11 20:16:47 (9年前) 0MONA/0人

RX >>480 だ！

485 ：名無し名誉名人教士：2016/06/11 20:20:00 (9年前) 1.14MONA/1人

>>481
グリスによるGPU温度の考察
GPUとファンの間のグリスの熱伝導率を一般グリス15[W/m･K]とリキプロ82[W/m･K]として考える。
GPUサイズを50mm×50mm、グリスの厚さ0.1mm、消費電力180Wと仮定して、
GPUとファン(ヒートシンク)の温度差は
一般グリス：180[W]÷15[W/m･K]÷(0.005×0.005)[㎡]×0.0001[m]＝48[K]＝48[℃]
リキプロ：180[W]÷82[W/m･K]÷(0.005×0.005)[㎡]×0.0001[m]＝8.78[K]＝8.78[℃]
また、ファンの冷却能力(熱伝達率)をGPU面積換算で400000[W/㎡･K]と仮定して、ファンと空気の温度差は
180[W]÷400000[W/㎡･K]÷(0.005×0.005)[㎡]＝18[K]
空気の温度を30℃とした場合、GPUの温度は、
一般グリス：30[℃]＋18[℃]＋48[℃]＝96[℃]
リキプロ：30[℃]＋18[℃]＋8.78[℃]＝56.78[℃]

仮定の多い計算ですが、これぐらい冷えます。

486 ：なむやん七段教士：2016/06/11 20:27:58 (9年前) 0MONA/0人

シートタイプのリキプロ紹介されたけど、結構冷えますよ？液体タイプと違い、機械が汚れにくいし、横に漏れてショートしないし、アルミを侵食しない。

487 ：のん五段：2016/06/11 20:38:36 (9年前) 0MONA/0人

>>486
前に気になって調べてシートタイプも見つけたんですが
普通のシートだと全然冷えないのでこっちもそうなのかな～って思ってたんですが結構冷えるんですね

488 ：リキプロマン六段：2016/06/11 21:10:45 (9年前) 0MONA/0人

みんながリキプロの良さに気づいてくれてとても嬉しいです。ふふふふふ。
http://askmona.org/3696 の191あたりで分解してる画像上げてます。
STRIX GTX 980はヒートパイプがダイレクトタッチですが、他のと違い継ぎ目のない平滑加工がされています。なのでリキプロが流れ出しにくく、やりやすいと思います。
塗り方は
動画を見る
を参考にするとよいです。
http://www.coollaboratory.com/pdf/manual_liquid_pro_japanisch.pdf にもある通り、付属のヤスリでクーラー側を軽く研磨しないと本来の性能が得られません。
自信がなければシートタイプでももちろん良いと思います。ただ、必要な大きさに切り分けるのでどうしても切った余りが出てくるのが難点ですね。

ちなみに自分はヤフオクの中古を落札したので、保証は気にせずやってます。

489 ：のん五段：2016/06/11 21:44:02 (9年前) 0MONA/0人

デフォルトの状態で
https://gyazo.com/1fc3a42691be658ad0028270f2e5787e
こんな感じで22MH/sしかでず限界が近いのです(´・ω・｀)
リキプロはグリスと違って盛りすぎではみ出るっていうことが少ないんでしょうか

490 ：のん五段：2016/06/11 21:46:37 (9年前) 0MONA/0人

GainwardのGTX670ですが980と全然違い300MhzOCしても80℃いかずTDPのほうが先に頭打ちになってしまうほどなんですがなんででしょうかね
300Mhzアップで6Mh/s行きました

491 ：なむやん七段教士：2016/06/11 22:04:07 (9年前) 0MONA/0人

>>489
TDPは計算式から出ているはず、実測ではないからどうにもならないかと...
そしてTDPが１００を超えると勝手に周波数下げるんだよね....これには困る

普通のグリスは導電性が無いのが多いからはみ出しても汚れるだけだが、リキプロ液体は導電性あるからショートする可能性があるよ、あとアルミ侵食

492 ：なむやん七段教士：2016/06/11 22:11:52 (9年前) 0MONA/0人

>>490
よくみたら温度が90度近いじゃん、早めにグリス塗り替えないと死亡フラグ立ちそうやん
自分は常用60度以下、ピーク70度以下にと心に決めてるけど

493 ：ねずみ五段：2016/06/11 22:22:35 (9年前) 0MONA/0人

私は、コアの周りにあるチップコンをブラックシーラーで保護してリキプロ化しています。

494 ：リキプロマン六段：2016/06/11 22:47:11 (9年前) 0MONA/0人

>>489
リキプロはpdfにもある通り、ちょっとだけしか塗らないのではみ出ることはありません。むしろはみ出るほど塗ってしまったら塗りすぎです。
perfcap reason がThrm、つまり温度が上がりすぎてクロック上昇がストップするようですね。電圧も低い状態でこの温度なので、グリスもそうですがエアフローやホコリなどの原因も探ってみてくださいね。。

>>491
TDPの上限はAfterBurnerではデフォルトから+25%まで、MaxwelBiosEditorでは電源供給ピンごとに変えられます。
TDPは通常のGTX 980では165W、Strix GTX 980でも195Wですが、自分のは300Wまでいけるように改造しています。lyra2v2では大体225W位で済むのですが、decredやquarkは瞬間的に300W近くまで行くことがあるのでこのように変更しています。

495 ：なむやん七段教士：2016/06/11 23:06:02 (9年前) 0MONA/0人

>>494
Maxwell Bios Editorなるもの今知りました。ピンポイントに活用できそうですね
http://15t0ak2.blog.fc2.com/blog-entry-9.html
ココを参考に設定してみたいと思います！

496 ：リキプロマン六段：2016/06/11 23:07:41 (9年前) 0MONA/0人

自分のハッシュレートとGPUの状態はこんな感じ。

ファンスピードが68度にしては高めなのは、ファンが回り始めるタイミングを65度から55度に引き下げているからです。（Strixは65度になるまでファンが回らない。）引き下げない時は72,3度あたりで安定します。
冷却能力をリキプロで高め、TDPも引き上げた結果、perfcap reasonでクロックが下がることなくカスタムしたブーストクロック1544MHzで動作しています。
ハッシュレートも30MH/s超えで、980tiに近いスペックが出てるかなー？って感じです。

497 ：リキプロマン六段：2016/06/11 23:18:03 (9年前) 0MONA/0人

>>495
自分が参考にしているサイト

GTX 750ti 970 980等のTDP上限解除
http://cryptomining-blog.com/tag/kepler-bios-tweaker/

maxwell用nvflash(bios書き換えソフト)
http://www.overclock.net/t/1521334/official-nvflash-with-certificate-checks-bypassed-for-gtx-950-960-970-980-980ti-titan-x

その使い方
http://www.overclock.net/t/1523391/easy-nvflash-guide-with-pictures-for-gtx-970-980

あと、自分の編集前と編集後のbiosをアップロードしときます。チューニングの参考にどうぞ。
編集前:https://dl.dropboxusercontent.com/u/51109205/GM204_defalut.rom
編集後:https://dl.dropboxusercontent.com/u/51109205/GM204_mining.rom

498 ：のん五段：2016/06/11 23:47:14 (9年前) 0MONA/0人

リキプロマンさんに980送り付けたらリキプロ化されて帰ってきそうな予感がする

499 ：リキプロマン六段：2016/06/11 23:51:17 (9年前) 0MONA/0人

>>498
往復の送料+アルファさえモナでくれればやりますよん。
400モナくらいかな？

500 ：のん五段：2016/06/12 00:06:56 (9年前) 0MONA/0人

>>499
400モナなら手元にあるからポチれたらすでにポチっていた・・・

501 ：リキプロマン六段：2016/06/12 00:15:21 (9年前) 0MONA/0人

>>499
それじゃ、リキプロマンアカウントに400モナ送金してくださいませ。
確認次第住所をメッセージで連絡するので、そこの住所に発送して下さい。着払いでいいです。

502 ：CT9W七段：2016/06/12 01:55:33 (9年前) 0MONA/0人

280XにMX-4で5度下がりましたがリキプロは未体験です。
GTX980はどうするか悩み中。
Askに冷却系のスレッドってありましたっけ？

503 ：名無し六段錬士：2016/06/12 04:10:13 (9年前) 0MONA/0人

>>502
古いやつならみつかったけど、2年以上使われてないようだから
最近立てられたのが無ければ新しく立ててもいい気がする

http://askmona.org/230
http://askmona.org/802

504 ：名無し名誉名人教士：2016/06/12 05:42:18 (9年前) 0MONA/0人

>>499
それって、リキプロ代が入っていないような気が…

505 ：リキプロマン六段：2016/06/12 07:48:33 (9年前) 0MONA/0人

たてました。スレチな内容続いたので移動しますね。
http://askmona.org/4376

>>504
万が一リキプロがタレた時に基盤を保護するカプラテープのお値段も入ってます。
まぁ、リキプロしたい人には悪い人はいないし、依頼する人が増えたらまたお値段考えようかなぁ…

506 ：リキプロマン六段：2016/06/12 09:15:53 (9年前) 0MONA/0人

さて、ずっと出しあぐねていたccminer1.5.80_r11と、ccminer1.7.6_r5(fixじゃない方)のベンチ結果出します。
先にccminer1.5.80_r11の結果について。
リファレンス相当のGTX 980でハッシュレートは25.32MH/s、消費電力は188Wでした。

Cubehash

lyra2v2_1

lyra2v2_2

lyra2v2_3

lyra2v2_2はシェアードメモリを用いるので、その使用状況も載せています。

507 ：リキプロマン六段：2016/06/12 09:25:32 (9年前) 0MONA/0人

>>505
次にccminer1.7.6_r5。
リファレンス相当のGTX 980でハッシュレートは25.85MH/s、消費電力は190Wでした。
それぞれのカーネルのスピードがr11と比較してどうなったかも記載します。

Cubehash (2% speedup)

lyra2v2_1 (1.4% speeddown)

lyra2v2_2 (2.3% speedup)

lyra2v2_3 (0%)

508 ：リキプロマン六段：2016/06/12 09:57:11 (9年前) 0MONA/0人

>>507
>>316 の改良でcubehashは若干ながらIPCも増え、高速化されています。lyra2v2とは違って、演算を減らして最適化しています。SPさんはどうやってcubehashをさらに高速化出来たのだろうか・・・

lyra2v2_1が遅くなった原因としてpipe busyの増加によるものとわかりました。pipe busy、つまり計算に必要なデータも揃っているが、計算するユニット（SM）がビジーですぐに計算ができない、ということです。
解決策としては、Pipe Utilization機能でもう一度解析し、何の計算がボトルネックになっているのかを明らかにする必要があります。もしかしたら、これがcubehash高速化のヒントになるかもしれません。（あとでやってみます。）

lyra2v2_2はMemory Dependencyの減少によって高速化されました。ソースコードは詳しく読んでいないのですが、CC5.2でのlyra2v2最適化って何かされてましたっけ・・・？それともCUDA 8.0による効果？

509 ：名無し名誉名人教士：2016/06/12 10:28:48 (9年前) 0MONA/0人

>>508
lyra2v2_2の違いは…
Maxwell以上で
cudaFuncSetCacheConfig(lyra2v2_gpu_hash_32_2, cudaFuncCachePreferShared);
を外したのと…

WarpShuffleを別関数(Felmi対応)にしたくらいかな…

510 ：のん五段：2016/06/12 10:36:53 (9年前) 0MONA/0人

初歩的な質問なんですがグラフ化とか理由とかを表示させてるソフトは何でしょうか？

511 ：リキプロマン六段：2016/06/12 11:10:04 (9年前) 0MONA/0人

>>509
シェアードメモリを多めに確保するチューニングをなくしたわけですね。でもExecution DependecyではなくMemory Dependencyが減少しているので、カーネル間のデータ転送そのものが変化している気がするんですよね・・・

>>510
解析に使ってるソフトはNsight Visual Studio Edition使ってます。CUDAの開発キット入れたら一緒についてきます。
使い方はこんな感じ。http://www.slideshare.net/NVIDIAJapan/1076-cuda

512 ：リキプロマン六段：2016/06/12 11:54:34 (9年前) 0MONA/0人

改めてNsight Visual Studio Editionについて調べてたらこんなの見つけた！
https://ja-jp.facebook.com/NVIDIAGPUComputing/posts/302223686632574
なんか一部実行できない解析があったんだけど、これで解決できそうでよかった・・・

513 ：のん五段：2016/06/12 11:59:15 (9年前) 0MONA/0人

GTX670でクロックを上げていくとあるラインで
https://gyazo.com/e4313ce7358a2629656bcbf3b5a3dda2
このようにクロックが700MHzまで下がってしまい採掘が停止してしまい再起動しないとクロックが上がらないのですがOCのしすぎでしょうか？
あと画像はどのように張ればいいのでしょうか

514 ：リキプロマン六段：2016/06/12 12:15:59 (9年前) 0MONA/0人

>>513
3DMARKが完走しなかったらOCのしすぎじゃないかな。
画像はimgur使ってね。

515 ：リキプロマン六段：2016/06/12 13:18:43 (9年前) 0MONA/0人

cubehashのPipe Utilization比較です。

1.5.80r11

1.7.6r5

まぁ、うん、https://en.wikipedia.org/wiki/CubeHash にもある通り、cubehashは足したり値交換したりビット演算やったりしかしないので、内訳も足し算(25%)とシフト演算(25%)とビット演算(50%)で2つとも似たり寄ったりですね。

516 ：リキプロマン六段：2016/06/12 13:38:41 (9年前) 0MONA/0人

>>515 シフト演算が50%、ビット演算が25%でした。

lyra2v2_1は全くと言っていいほど変化はありませんでした。なんでや・・・
両方共、加算(40%)とシフト演算(20%)とビット演算(40%)って感じです。
大きく変化があったのはlyra2v2_2です。
1.5.80r11

1.7.6r5

1.7.6r5ではシフト演算が大きく減少し、代わりに加算と乗算が増加しています。また、表にはありませんが1スレッドあたりのレジスタ数も183から147へと大きく減少しており、これも高速化につながっていると考えられます。

517 ：リキプロマン六段：2016/06/12 14:30:46 (9年前) 0MONA/0人

lyra2v2_2の速度向上の原因はCUDA8.0によるコンパイルでした。
1.5.80_r11とr5-fixで比較したところ、lyra2v2_2については速度は同じでした。スレッドあたりのレジスタ数やPipe Utilizationも同様です。
あと、r5ではCUDA8.0効果でblakekeccakとbmwも高速化されていました。

518 ：リキプロマン六段：2016/06/12 16:15:50 (9年前) 0MONA/0人

tpruvotさんがccminer-lyra2v2-win.7zという名前でバイナリをリリースしたのでベンチマーク取ってみたけれども、ここのccminerの7割程度のハッシュレートでした。
https://github.com/tpruvot/ccminer/releases
デフォルトのIntensityが18相当で、これ以上あげても逆効果になっていました。

ところで、CUDA8.0を入れた状態でVisualStudioでこれらのソースを開こうとすると、7.5のファイルないから開けないよ！と出るのですが、名誉名人さんはどうやって編集してコンパイルしていますか？

519 ：名無し名誉名人教士：2016/06/12 16:47:49 (9年前) 3.9MONA/1人

私の環境はCUDA6.5、7.5、8.0をインストールしてあります。
ビルドの依存関係⇒ビルドのカスタマイズ
から6.5、7.5、8.0を選択できます。(6.5はcompute1.0～1.3用に入れてみた…んだけど、そもそも最新ドライバではグラボが認識しないんだよね…)

520 ：名無し名誉名人教士：2016/06/13 07:08:01 (9年前) 0MONA/0人

高速化プランがイマイチまとまらない…
・レジスタのRead after Writeのレイテンシも24warp以上なら隠蔽できちゃうしな…(隠蔽できないのはlyraの中段のみ)
・カーネルの並列化も、メモリアクセスが減らない限り効果薄いし、WarpShuffleが増えると遅くなりかねないしな…
・レジスタ数を減らしてwarp数を増やすのは効果あるかもしれないが、コンパイラ側でかなり最適化しているしな…
・シフトを掛け算に移行できれば、パイプの最適化はできるかもしれない。
通常、7ビットローテーションなら、左7ビットシフト･右25ビットシフト･論理和を行うけど、掛け算を使えば、左7ビットシフトを「×128」に変換して、シフトと掛け算を同時に行うことができる。(掛け算のパイプが空いていれば)
だけど、コンパイラが勝手に掛け算をシフトに変換するしな…
・MAD演算(a+b×cみたいに掛け算と足し算の組み合わせ)を積極的に使えれば、速くなる…かも？

本当に、sp氏はどうやって高速化しているのだろう…

521 ：電気代がペイ出来てるｗ五段：2016/06/13 07:24:15 (9年前) 0MONA/0人

おはようございます、今より高速なマイナー出てるのですか？

522 ：リキプロマン六段：2016/06/13 07:46:38 (9年前) 0MONA/0人

>>521
ccminerの作者の一人であるSPさんが独自に高速化したccminerを0.1btcで売ってる。
ここのccminerの改良取り入れた結果、GTX980tiで44MH/sになったって言ってたから、化物みたいなスペックだよなぁ。

523 ：電気代がペイ出来てるｗ五段：2016/06/13 08:00:07 (9年前) 0MONA/0人

高いですね～；；名無し名誉名人さん改良願ってます(^^♪

524 ：電気代がペイ出来てるｗ五段：2016/06/13 08:01:46 (9年前) 0MONA/0人

MONA出し合って買ってみるとか？出来ないかな？

525 ：名無し名誉名人教士：2016/06/13 08:04:41 (9年前) 0MONA/0人

買ってもソースまではついてないと思う…

526 ：電気代がペイ出来てるｗ五段：2016/06/13 08:07:24 (9年前) 0MONA/0人

そうか～そこ大事だよね～500MONAづつだせばいけると思ってた＾＾；

527 ：コダチ＠ふんわり極名人錬士尊者：2016/06/13 08:29:45 (9年前) 0MONA/0人

ましてや逆コンパイルなんて非現実的だしね

528 ：リキプロマン六段：2016/06/13 08:45:59 (9年前) 0MONA/0人

>>だけど、コンパイラが勝手に掛け算をシフトに変換するし
volatileとかで最適化防止って出来ませんでしたっけ？

ソースコードデバッグが今まで上手く行かなかったのですが、いろいろいじってたらcubehashに関してはなぜか出来そうな感じになってきたので、ちょっとやってみますね。

529 ：リキプロマン六段：2016/06/13 08:48:46 (9年前) 0MONA/0人

>>527
でも、自分の上げてる画像みたいに使ってる命令や最適化した部分の特定までならバイナリの解析だけで出来るので、ヒントくらいにはなるとは思います。

530 ：リキプロマン六段：2016/06/13 09:10:07 (9年前) 0MONA/0人

というかSPさんは自分で作ったコンパイラでccminerコンパイルしてんのか・・・
ウィザードってのはこういう人をいうのか。

531 ：名無し名誉名人教士：2016/06/13 11:42:35 (9年前) 0MONA/0人

>>530
そこまでできるウィザードが、シェアードメモリを使うっていうオーソドックスな手法を思い付かないとは思えないんだが…

532 ：なむやん七段教士：2016/06/13 12:00:33 (9年前) 0MONA/0人

想像するに、少しずつハッシュレートを改善したマイナーを頻繁にバージョンアップして稼ごうと思ってたのでは？
それかシェアードメモリを使用する方法がコロンブスの卵だったか

533 ：リキプロマン六段：2016/06/13 12:08:17 (9年前) 0MONA/0人

>>531
デフォルトのccminerよりは高速らしいので、多分シェアードメモリは使われていたと思います。
ただ、カーネルの三分割はしていなかったので、ここのccminerよりは遅かったのかと。

534 ：電気代がペイ出来てるｗ五段：2016/06/13 20:44:58 (9年前) 0MONA/0人

ソロ掘れなくなりましたね～、SPさんのどうにか手に入れたほうがいいのかな～？どこで取引しているのかわからないのですが。

535 ：名無し名誉名人教士：2016/06/13 21:21:08 (9年前) 0MONA/0人

>>534
私は今日は4ブロック掘れています。(GTX970×5,GTX960×2)
およそ計算値通りかな？

536 ：電気代がペイ出来てるｗ五段：2016/06/13 21:22:12 (9年前) 0MONA/0人

すごいな～
970×３で　１ブロック＞＜

537 ：リキプロマン六段：2016/06/13 21:31:23 (9年前) 0MONA/0人

>>536
SP製ccminerの性能が単純にここのccminerの1.5倍として、0.1BTCを7000円としたらROIはいつになるんかな。
まぁ、自分も欲しいけど、ハッシュレートの高さよりもその仕組みを知りたいかな。

538 ：電気代がペイ出来てるｗ五段：2016/06/13 21:33:01 (9年前) 0MONA/0人

>>537
私1100MONA出したら買い付けてくれませんか？英語わからないもので＞＜

539 ：リキプロマン六段：2016/06/13 21:41:47 (9年前) 0MONA/0人

いやそういうのはちょっと・・・ねぇ
仮想通貨の情報は英語メインだから、慣れるためにもこの際頑張ってみたら？

540 ：電気代がペイ出来てるｗ五段：2016/06/13 21:43:17 (9年前) 0MONA/0人

そのトピックというかその場所すら今日探しまくったけどわからなかったの＞＜

541 ：なむやん七段教士：2016/06/13 21:50:11 (9年前) 0MONA/0人

１．５倍.....ｺﾞｸﾘ

542 ：リキプロマン六段：2016/06/13 21:57:02 (9年前) 0MONA/0人

>>541
GTX980tiで42MH/sでした、なので1.5はちょっと盛ってますね。
https://bitcointalk.org/index.php?topic=826901.msg15140005#msg15140005 によると、

Spmod #7 lyra2v2 results peaked

970 (1500 boost core clock) 24500 (evga ssc gaming elpida)
750ti (1430 boost core clock) 7800 (zotac samsung)

だって。どっちにしてもぱないの。

543 ：電気代がペイ出来てるｗ五段：2016/06/13 22:02:44 (9年前) 0MONA/0人

>>452
覗いてみたけど・・・理解不能どうやって購入になるんだろ？

544 ：ittou四段教士：2016/06/13 22:05:36 (9年前) 0MONA/0人

1080こねーよ！！

545 ：リキプロマン六段：2016/06/13 22:06:24 (9年前) 0MONA/0人

>>417
1.5倍なんて言って申し訳なかった・・・。ちょっと前に書いた内容さえ忘れてしまうとは。

546 ：電気代がペイ出来てるｗ五段：2016/06/13 22:09:07 (9年前) 0MONA/0人

私には買い付けてくることができないようだ・・・。

547 ：電気代がペイ出来てるｗ五段：2016/06/13 22:51:02 (9年前) 0MONA/0人

アカウント作ってみましたが、あきらめました。

548 ：リキプロマン六段：2016/06/13 23:31:17 (9年前) 0MONA/0人

コンパイルがneoscryptの部分で止まる。なんでや・・・
1.5.80の時は問題なかったけど、もしかしてcudaを入れたり消したり繰り返したからかな。
linuxでもコンパイルしてソースコードデバッグできなくはないけど、微妙に使い勝手がvisualstudioより悪いんだよなぁ・・・。

あと、改めてr5のcubehash見ました。手動unroll乙です。
結構大きく変わってるように見えて分かりづらかったのですが、レイテンシ隠蔽のために入れ替えてる箇所ってどのあたりでしょう？

549 ：リキプロマン六段：2016/06/13 23:49:15 (9年前) 0MONA/0人

MAD演算とか出来ないかどうかSIMD命令の一覧を読む。まぁみんな使ってないということは、多分SIMDではうまいこと出来ないのかもしれないけど・・・
https://shobomaru.wordpress.com/2013/09/16/simd-instructions-on-kepler-gpu/

550 ：リキプロマン六段：2016/06/14 00:18:23 (9年前) 0MONA/0人

よく考えたら処理する単位はuint32_tごとだから整数SIMDは使えないな・・・
というかmaxwellじゃ整数乗算はソフトウェアエミュレーションってマジかよ。型変換もmaxwellではあまりよろしくないのか。
この表からだと、SIMDに切り替えたから速くなるかどうかはわからないなぁ。

こっちの図は数値が少ないほど高速
https://shobomaru.wordpress.com/2014/05/13/geforce-gm107-performance/

こっちは数値が大きいほど高速
http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#arithmetic-instructions
（示してる内容は同じ）

551 ：名無し名誉名人教士：2016/06/14 09:50:38 (9年前) 0MONA/0人

いろいろ資料を探してみると、命令種類(算術、シフト、論理、等)ごとのパイプではなく、LOAD/STORE、Control、演算、Textureの4パイプらしい…
ってことは、乗算やシフトなどを無理に混在させても無駄ってことか…

CubeHashの演算を見ると、加算が約25%、論理が約25%、シフトが約50%となっている。命令自体は同数なのに…って思ったら、>>550の資料を見て納得。シフトは2Cycleなのね…
あと、CubeHashの加算とシフトを入れ替える(シフト⇒加算⇒XORの順にする)と、若干速くなった気がする…

552 ：電気代がペイ出来てるｗ五段：2016/06/14 09:51:45 (9年前) 0MONA/0人

SP版マイナー注文入れてみた。来るのかな～？どきどき

553 ：名無し名誉名人教士：2016/06/14 10:16:56 (9年前) 0.39MONA/1人

>>548
CubeHashの最適化について、
とりあえず、SWAPを使用しないようにしました。
これにより、添え字の入れ替えが必要になりましたが、すべてアンロールすることで、入れ替えが分かりやすくなりました。

通しでみると、書き込んだ直後にすぐ読み込む部分があったため、演算の順番を入れ替えました。具体的には、x[0][…]を小さい順に並べ替えました。
(全ての演算が最適とは言えない)

554 ：名無し名誉名人教士：2016/06/14 10:23:41 (9年前) 0MONA/0人

…あれ？
LOAD(グローバルメモリの読み込み)とTexture(__ldgによる読み込み)を同時に使えば、速くなるんじゃね？パイプが別だし…

555 ：リキプロマン六段：2016/06/14 12:10:26 (9年前) 0MONA/0人

>>553
なるほど。レジスタのレイテンシ考慮というのはこういうことだったんですね。ソース一行ごとの処理時間とか計測できたらもっと最適に出来そうですね。(コンパイラが勝手に最適化しそうな部分ではあるが)

>>554
pipe utilizationの図をみると、4種類の命令がパイプを共用してるような表示ですよね。合計で100%になる、みたいな。
グローバルメモリはそういうのとパイプが別になるんでしたっけ？

556 ：電気代がペイ出来てるｗ五段：2016/06/14 17:52:59 (9年前) 41.4MONA/2人

SP版届いたんだけど２個ファイルあるんだけど使い方わからないという事態にｗ
プールではこんな感じ
名無し名誉名人

SP版

557 ：電気代がペイ出来てるｗ五段：2016/06/14 18:35:53 (9年前) 0MONA/0人

The gtx 970 is a maxwell

Run with ccminer -a lyra2v2 --benchmark.
ってどういうことでしょうか？

558 ：名無し名誉名人教士：2016/06/15 07:00:24 (9年前) 0MONA/0人

>>557
どうだろう…「ベンチマーク結果をくれ」ってことなのかな？

559 ：電気代がペイ出来てるｗ五段：2016/06/15 08:48:30 (9年前) 0MONA/0人

なるほど

560 ：名無し名誉名人教士：2016/06/15 08:50:40 (9年前) 0MONA/0人

>>559
いや、どうかは知らんけど…

ってか、SP版も言うほど速くなってない？

561 ：電気代がペイ出来てるｗ五段：2016/06/15 09:00:01 (9年前) 0MONA/0人

読み込みというか掘る速度は速い気がします

562 ：リキプロマン六段：2016/06/15 09:29:15 (9年前) 0MONA/0人

>>561
気がするっていうか、ここのccminerとくらべて何%ハッシュレート上昇したのかな？

563 ：電気代がペイ出来てるｗ五段：2016/06/15 09:43:34 (9年前) 0MONA/0人

0.2～0.3Mhashくらいですね～　

564 ：名無し名誉名人教士：2016/06/15 15:45:19 (9年前) 0.00114114MONA/1人

こんな記事が出ていた…
http://cryptomining-blog.com/7973-testing-the-nvidia-geforce-gtx-1080-founders-edition-for-crypto-mining/

ってか、遅い原因は最適化云々じゃなくて、メモリアクセスが多いから＆L2キャッシュが少ないからだと思う…

Lyra2REやNeoScryptを高速化すれば、相対的にmonaのハッシュレートが下がるかもしれない…(一部の人がLyra2REやNeoScryptに移行するため)

まずは、Lyra2REをやってみるか？(コードはLyra2REv2の流用でいけるはず)

565 ：電気代がペイ出来てるｗ五段：2016/06/15 15:58:20 (9年前) 0MONA/0人

NeoScryptがダントツにはやいのかな？

566 ：名無し名誉名人教士：2016/06/15 16:14:22 (9年前) 0MONA/0人

>>565
見るべきは、各GPUのハッシュレートの差。

Lyra2REv2の場合、GTX970で21.75MHS、GTX980Tiで31.4MHS、GTX1080で47.68MHS
となり、GTX1080はGTX970比で+119%、GTX980Ti比で+51.8%となる。

NeoScryptの場合、GTX970で573MHS、GTX980Tiで848MHS(KHS表記は誤字だと思う)、GTX1080で365MHS
となり、GTX1080はGTX970比で－36.3%、GTX980Ti比で－57.0%となる。

…いや、マイナスって…
いくらメモリアクセスが多いアルゴリズムだからって…
(1スレッドあたり33280バイト使用します。Lyra2REv2の21.67倍。)

567 ：なむやん七段教士：2016/06/15 16:17:49 (9年前) 0MONA/0人

外人が他の通貨に出て行ってくれることほど嬉しいことはない
なにもできないけど、がんば！！！

568 ：名無し名誉名人教士：2016/06/15 16:50:15 (9年前) 0MONA/0人

NeoScryptのアルゴリズムを見ると、どう見てもMHS単位の速度は出そうにない…KHS単位が正解？

569 ：リキプロマン六段：2016/06/15 18:22:12 (9年前) 0MONA/0人

>>568
neoscryptはKH/s単位ですよ。うちのGTX 980で500～700KH/s辺りですかね。（マイナーによって変化）

570 ：なむやん七段教士：2016/06/15 19:52:37 (9年前) 0MONA/0人

neoちゃんは７５０Tiで198kH/sだったなぁ

571 ：リキプロマン六段：2016/06/16 06:47:21 (9年前) 0MONA/0人

tpruvotさんの最適化版lyra2v2をKlausTさんがフォークして改良してます。
https://github.com/KlausT/ccminer

https://github.com/KlausT/ccminer/commit/383e953e46d9a1c6052228228b9f22062d206829
2GB cudaMalloc limit for 32bit build とわざわざコードを追記したということは、64bit向けにいじったあと32bit向けにも対応するよう改良したということでいいんでしょうかね。

https://github.com/KlausT/ccminer/commit/2d0c00165700a65a6f9d1e34ea57dffe582c935b
あとローテーション部分変えたり、

https://github.com/KlausT/ccminer/commit/eb46e553f71b6357ce9ee1463c1cc5e93c3015e3
ブロック数変更してみたりしていて、毎日少しずつ改良されていて流石だなと思います。

572 ：名無し名誉名人教士：2016/06/16 07:07:53 (9年前) 5.04228114MONA/3人

試しに、Lyra2REも高速化してみました。
今週は忙しいので、バイナリ･ソースは土曜日に上げますね。

高速化前 2.36MHS

高速化後 3.97MHS

573 ：電気代がペイ出来てるｗ五段：2016/06/16 07:09:18 (9年前) 0MONA/0人

倍プッシュ！

574 ：電気代がペイ出来てるｗ五段：2016/06/16 07:20:04 (9年前) 0MONA/0人

これでMONA掘れるんですか？

575 ：なむやん七段教士：2016/06/16 07:59:11 (9年前) 0MONA/0人

これではモナ掘れないよ
v2ではないし、矛そらしよ

576 ：電気代がペイ出来てるｗ五段：2016/06/16 08:00:16 (9年前) 0MONA/0人

なるほど

577 ：鳥ちゃん九段錬士：2016/06/16 08:44:14 (9年前) 0MONA/0人

>>572
後はこれを海外勢に広めるのだ！

578 ：名前はまだ無い四段：2016/06/16 20:54:19 (9年前) 0MONA/0人

>>477
sgminerは64ビット整数の演算を32ビット整数の演算の組み合わせで行うといった最適化は行われていなさそうなので
そのあたりを上手く実装できれば速度がかなり上がりそうです。

>>520
cubehashのrroundsは必要なレジスタが多いのがネックなのでしょうか？
データの変更順を見ていると、x1をx[1]の部分に格納したりすることでx0やx1を確保せずに記述できそうに思いました。
レジスタのレイテンシの関係で遅くなるかもしれませんけど。

579 ：名前はまだ無い四段：2016/06/16 20:55:14 (9年前) 0MONA/0人

>>564
他のアルゴリズムを高速化して海外マイナーがそちらに流れるようにですか、大変そうですが良さそうですね。

>>572
毎回仕事が速くて驚かされます。
せっかくなのでNiceHashが本当に買い取ってくれるのか試してほしいです。

580 ：名無し名誉名人教士：2016/06/17 09:51:56 (9年前) 0.1MONA/1人

neoscryptの高速化はかなり難しいな…
33280バイトのメモリアクセスを何とかしないといけない…

仮にスレッドを16分割したとすれば、1スレッド当たり2080バイトまで縮小できる。16スレッド2ワープで66560バイトとなり、GTX750Ti/750ではシェアードメモリ(65536バイト)が若干足りない。
…あふれた分はレジスタに頑張ってもらうか？

581 ：リキプロマン六段：2016/06/17 10:15:34 (9年前) 0MONA/0人

>>580
izunaさんの三段撃ちメソッドは使えそうですか？

582 ：名無し名誉名人教士：2016/06/17 11:13:30 (9年前) 1MONA/1人

>>581
もともと、三段打ちどころか、五段打ちになっているのですが…
むしろ、全体を連結して、総体として16分割が妥当かと…
(三段打ちメソッドは、そのあとに検討すべきか？)
シェアードメモリを使うと、Warp数が確保できないため、レイテンシの隠ぺいができなかったり、WarpShuffleを多用することになったり…
それでもグローバルメモリへアクセスするよりは速くなるはず…

583 ：名無し名誉名人教士：2016/06/18 09:20:34 (9年前) 4.9MONA/1人

とりあえず更新
・cubehashの演算を一部入れ替え
・Lyra2REの高速化を実施(Kepler、Fermiは未確認)
・例によって、CUDA Toolkit 8 RCでビルドしています。Kepler、Fermiは以前のバージョン(>>421)を使用してください。

高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://1drv.ms/u/s!Aud1FauQ46vHhll5NYbLOB2bQlOt

ソースコード高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://1drv.ms/u/s!Aud1FauQ46vHhlp5NYbLOB2bQlOt

584 ：名無し名誉名人教士：2016/06/18 09:27:46 (9年前) 0MONA/0人

ついでに、neoscryptの高速化の前準備を行っております。
結局、三段打ちメソッドになりそうです。
(前処理、後処理はメモリをあまり使用しないため)

585 ：リキプロマン六段：2016/06/18 12:07:15 (9年前) 0MONA/0人

>>583
お忙しい中高速化お疲れ様です！
cubehashも多少見直しされたということは、lyra2v2も多少速くなっていそうですね。
出先から戻ったら早速試してみますね。

586 ：リキプロマン六段：2016/06/18 12:08:53 (9年前) 0MONA/0人

あとこれはbitcointalkとかにスレ立てして広めた方がいいんですかね？

587 ：ねずみ五段：2016/06/18 16:51:48 (9年前) 0MONA/0人

>>583
GTX960で計測してみました。
-i19です

名誉名人r5

名誉名人r6

sp氏r7?

588 ：ねずみ五段：2016/06/18 16:59:19 (9年前) 0MONA/0人

>>587 なおこれはlyra2v2の計測結果です。

589 ：名前はまだ無い四段：2016/06/18 17:30:53 (9年前) 0MONA/0人

>>583
お疲れ様です。
cubehashの演算の順序入れ替えは以前話に出ていたレジスタのレイテンシの関係でしょうか？

590 ：名無し名誉名人教士：2016/06/18 17:51:14 (9年前) 0MONA/0人

sp氏はどうやって高速化をしているのだろう…
ってか、この差で0.1BTCって…ほとんど微差だよね…

>>586
もう出回っている以上、隠す必要もないですね…
Lyra2REの高速化で一部の人たちがそちらに流れ………ないか、マイナーなコインしかないし…

>>589
先週から取り組んでいるcubehashの高速化です。
いろいろ試行錯誤しているのですが、効果があったのは「加算」と「ローテーション」の入れ替えだけだったんですよね…おそらく、レイテンシの影響と思われます。
「加算」と「XOR」はスループットが1サイクル、「ローテーション」(シフト)はスループットが2サイクル。そのため、ローテーション16個(合計32サイクル)の後の演算は、レイテンシ(24サイクル)が隠蔽ができている……ってことなのかな？

591 ：名無し名誉名人教士：2016/06/18 18:02:33 (9年前) 0MONA/0人

neoscryptに手を出してみたけど、高速化は難航中…
ローカルメモリ(レジスタ不足時の退避先、キャッシュ無しグローバルメモリと同等)が悪さしているらしく、正しく動いてくれない…

592 ：名無し六段錬士：2016/06/18 18:32:22 (9年前) 0MONA/0人

画像によるとハッシュの単位が違うようだけど
小数点以下の処理や数値の切り上げ（切り捨て）の処理は関係ないんだろうか？

593 ：名前はまだ無い四段：2016/06/18 20:59:01 (9年前) 0MONA/0人

>>590
x0は書き込みと読み込みの間のサイクル数が増えていますが、x1の方は減っていますし
レジスタのレイテンシ以外の要因もありそうです。

594 ：リキプロマン六段：2016/06/18 23:14:11 (9年前) 0MONA/0人

>>590
彼はlyra2rev2に含まれるkeccak等のアルゴリズムも高速化した結果でこのハッシュレートなので、もしかしたらcubehashの速度はこれが限界なのかもしれません。

>>591
32スレッドになると逆にオーバーヘッドで遅くなりそうですかね？
レジスタ退避は無くなりそうですが、どうでしょう…

595 ：名無し名誉名人教士：2016/06/18 23:26:54 (9年前) 0MONA/0人

>>594
16スレッド化は割とやりさすそうに見えたんだが…
32スレッド化をするとさらにWarpShuffleが増えるのかな？でも、シェアードメモリが16kB(32スレッドあたり)になって、warp数は確保できそうだ…(GTX750Ti/750で4Warp、GTX900以上で6Warp)

596 ：リキプロマン六段：2016/06/19 08:50:18 (9年前) 0MONA/0人

紹介されてました。
http://cryptomining-blog.com/7997-windows-binary-of-the-ccminer-1-7-6-r6-fork-with-faster-lyra2re/
GTX1080はlyra2reのハッシュレートが約三倍になりましたね。
cryptominingblogの人はフットワークかるいなぁ。

597 ：なむやん七段教士：2016/06/19 11:22:02 (9年前) 0MONA/0人

今まではSP-MODの時代でした
これからはNanashi Meiyo-Meijin forkの時代！
AskMonaがBitcoinTalkに代わる日がくる！？

598 ：hoshi五段：2016/06/19 12:48:29 (9年前) 0MONA/0人

rx470買うつもりで居たけどgtx1080買ってしまいそうなヤバさだ・・・

599 ：名前はまだ無い四段：2016/06/19 17:55:53 (9年前) 3.9MONA/1人

https://mega.nz/#!5JxVCY4a!NC-_Zk37Jau1QHBCY3ogmcZgPV-wSgme5jrPtzDdmaM

cubehashを使用レジスタが減りそうに書き換えてみましたがどうでしょうか。

600 ：リキプロマン六段：2016/06/19 22:07:32 (9年前) 0MONA/0人

リファレンス相当のGTX 980でベンチしました。intensityオプション未使用です。

1.7.6-r5
Lyra2RE 1.94MH/s 136W
Lyra2REv2 25.53MH/s 185W

1.7.6-r6
Lyra2RE 3.71KH/s 103W
Lyra2REv2 26.01MH/s 186W

Lyra2REはLyra2REv2の時のように、スレッドを分割してシェアードメモリを用いることでグローバルメモリへのアクセスを削減し、三段打ちメソッドでカーネルを三分割することで高速化をはかっています。
消費電力が削減されている理由は、グローバルメモリへのアクセスが削減されGDDR5チップへの負荷が減ったためです。
ただ、シェアードメモリを用いたデータ転送のオーバーヘッドにより、三段打ちの中段部分の効率はIPCは0.4、Occupancy3.12%とLyra2REv2に比べ良くありません。逆に言えば改良の余地はあると思うので、今後ハッシュレートが更に伸びる可能性はあります。

Lyra2REv2はcubehashが4%高速化されたことにより、全体として2%の高速化となりました。命令入れ替えによりPipeBusyでストールしていたワープが減少し、IPCも3.55から3.69に増加しました。

601 ：リキプロマン六段：2016/06/19 22:18:02 (9年前) 0MONA/0人

>>600
3.71KH/sではなく3.71MH/sでした。

>>597
cryptominingblogのコメントでbitcointalkでも名誉名人ccminer紹介してくれ！っていうのがあったのでスレ立てしたいと思ってます。
立てたらこっちで報告するので、解説とか手伝ってくれたら嬉しいです。

>>599
rroundsでスワップ用の配列をなくして使用レジスタを減らしてみたわけですね。
今のところcubehashでの使用レジスタは、
1.7.6-r5 43
1.7.6-r6 44
なのでどんなふうに変化するか気になります。

602 ：名無し名誉名人教士：2016/06/19 23:32:56 (9年前) 1MONA/1人

>>599
うーん、逆に遅くなっているか…
変数を減らしても、内部で中間データ(レジスタ使用)を生成するのでレジスタは減らないんですよね…(コンパイラが調整してくれる)
実際に>>599のコードでやってみると、レジスタ数は44でした。
私のコードでは、変数だけ見ると64個ありますが、レジスタ数は44なんですよね…

>>600
Lyra2REはメモリ使用量が多いため(Lyra2REv2の4倍)、シェアードメモリを使用しても結構制約があるんですよね…
現状、32スレッドあたり49152バイト(48kバイト)使用しているので、GTX750Ti/750、Kepler、FermiではWarp数は1、GTX950以上でWarp数は2となります。
そのため、GTX750Ti/750、Kepler、Fermiでは、1ブロック16スレッドに制限して、2Warpを確保しています。（動作未確認）

603 ：名前はまだ無い四段：2016/06/19 23:51:32 (9年前) 0MONA/0人

>>601-602
元のコードでも使用レジスタ数は43や44だったのですか。それだと遅くなるのも納得です。

604 ：名無し名誉名人教士：2016/06/20 07:11:18 (9年前) 0.1MONA/1人

neoscryptは1.7.6(tpruvot氏)より1.5.80(sp氏)の方が高速でした。
シェアードメモリ使用、Streamによる非同期動作など、Lyra2高速化への参考になる……のかな？

605 ：リキプロマン六段：2016/06/20 07:59:13 (9年前) 0MONA/0人

初歩的な質問ですが、streamによる非同期動作は処理の完了を待たずに他の処理を行うものでしたよね？
spさんのneoscryptのソースではsalsaとchacha部分で2つのstreamを用いていますが、この部分は非同期にしてしまうと計算結果が変わってしまいそうに思います。
どうやってこの辺をうまいこと処理しているのでしょうか？

606 ：名無し名誉名人教士：2016/06/20 09:01:10 (9年前) 3.9MONA/1人

>>605
salsaとchachaは互いに干渉しない演算となっており、非同期にしても演算結果は変わりません。なお、このkernelの後にStream[1]を開放しているため、ここで同期をとることになります。(Stream[1]が完了しないと開放できない)
過去、Lyra2REv2で各カーネルの非同期運用を試したことがありました。(スレッド数を1/4にして、4ストリーム非同期動作)
この場合はデータ読み書きのレイテンシより、非同期のオーバーヘッドが上回っていたのか、効果はありませんでした。(若干遅くなる)
データの読み書きが多いneoscryptだから効果があったと考えられます。

607 ：リキプロマン六段：2016/06/20 09:50:37 (9年前) 0MONA/0人

>>606
いろいろ調べると、グローバルメモリやホストとデータ転送するような処理でStreamを使って待ち時間中に動作させる、みたいな使い方をするようですね。
それなりにオーバーヘッドあるようなので、レジスタやシェアードメモリでなんとか完結するなら使わないほうが良さそうですね。
http://on-demand.gputechconf.com/gtc/2014/jp/sessions/4004.pdf

608 ：リキプロマン六段：2016/06/20 12:03:05 (9年前) 20MONA/1人

bitcointalkにスレ立てしましたよ。
https://bitcointalk.org/index.php?topic=1519266

ガバガバ英語なのでおかしいとこあったら指摘して下さい。
あと更新履歴訳すのめんどくさくてやってないんですが、誰か翻訳してaskmonaのここのトピに上げてくれたら5モナあげます。

609 ：名無し名誉名人教士：2016/06/20 14:41:50 (9年前) 0MONA/0人

bitcointalkのレスを見ると、GTX750ではあまり速度が出ないっぽい…
Warp数が増やせないっていう欠点が出ているかもしれませんね…
また、GTX750Ti/750はL2キャッシュが大容量のため、従来バージョンの方が早いってことがあるかもしれません。

無理に分割しない方がいいのか…

610 ：リキプロマン六段：2016/06/20 14:43:09 (9年前) 0MONA/0人

bitcointalkスレによると、lyra2REにおいてGTX750を用いると通常のSP版ccminerより遅い結果が出るようです。
lyra2REv2では高速化されたようなので、恐らく1ブロック16スレッドなのが足を引っ張ってるのではないかと思いました。

611 ：リキプロマン六段：2016/06/20 14:44:03 (9年前) 0MONA/0人

>>610
被ってしまった・・・すまない

612 ：名無し名誉名人教士：2016/06/20 15:09:26 (9年前) 0MONA/0人

冷静に考えると、ハッテン場氏がsgminerを改造していなかったら、高速化版は生まれなかった。MVPはハッテン場氏かな？

sgminer を高速化サセようぜ
http://askmona.org/4235

613 ：名無し名誉名人教士：2016/06/20 16:56:33 (9年前) 1.14MONA/1人

GTX750Ti/750向けのLyra2REの高速化は、ハッテン場方式の方がいいのかな？

614 ：リキプロマン六段：2016/06/20 18:40:33 (9年前) 0MONA/0人

>>613
三段打ち部分だけは維持した方が良いかと。
あと余裕あればストリーム動作も考慮したほうが良いかもしれません。メモリコントローラの負荷は従来版だと50%に達していてneoscryptより高い数値となっている為です。

615 ：名前はまだ無い四段：2016/06/20 23:39:44 (9年前) 0.1MONA/1人

>>613
Lyra2REで4並列の手法を使って1スレッドあたりのメモリ使用量が1536バイトであれば
GTX 750Ti/750ではブロックあたり32スレッドで実行して、メモリアクセスはL2キャッシュにヒットさせるのが良いのではないかと思います。

616 ：名無し名誉名人教士：2016/06/21 10:41:29 (9年前) 0.00114114MONA/1人

>>615
32スレッドで48kBか…半分をグローバルメモリ、残りをシェアードメモリ、っていう構成も可能かな？(if分岐の影響でシェアードメモリの恩恵はあまり受けられないかな？)
でも、シェアードメモリを使わなければ、Warp数が増やせるから、レイテンシの隠ぺいが可能かな？

617 ：リキプロマン六段：2016/06/21 11:37:29 (9年前) 0.1MONA/1人

6/9に高速化版Lyra2REv2が同梱されたNicehashminerがリリースされて12日程経ちましたが、その後のNicehashでのLyra2REv2ハッシュレートはこうなりました。

多少波はありますが、だいたい12GH/sから20GH/sの間で推移してますね。（青いグラフ）
緑のグラフが収益性、つまりGHあたりでBTCがいくら貰えるかを示していますが、これもほぼ半減ってところですね。Lyra2REv2で二倍速く掘れるようになったので、これは当然でしょう。
で、この青いグラフをLyra2REとNeoscryptの改良で如何にに減らせるかですが・・・
実は今のところNicehashにおいてはLyra2REの改良は効果ありません。というのは、NicehashminerではなぜかLyra2REではCPUで掘る設定になっているためです。一応運営側にGPUでも対応してほしいことを伝えてみましたがまだ返事待ちの状況です。というかLyra2REなコインが検索しても見つからない・・・

618 ：リキプロマン六段：2016/06/21 11:43:11 (9年前) 0MONA/0人

あとここのccminerで直接Nicehashのstratum serverでマイニングしてみましたが、こちらとNicehash側でハッシュレートの表示が大きく異なっていたため、多分CPU向けに難易度が最適化されてるんじゃないかと思っています。

619 ：なむやん七段教士：2016/06/21 11:58:20 (9年前) 0MONA/0人

zenyのyescryptはどうでしょうか？
CPUのみらしいですが、中国でGPU仕様のマイナーが作られたようです(確証はありませんが)
そのような事がスレに書いてありました。

620 ：リキプロマン六段：2016/06/21 12:23:11 (9年前) 0MONA/0人

>>619
yescrypt対応ccminerはあるっちゃあるのですが、実はCPU版よりも遅いです。
http://cryptomining-blog.com/4690-new-ccminer-fork-by-djm34-with-neoscrypt-and-yescrypt-support/
その中国版のやつがもっと速ければ、こうそくかのさんこうになりそうですね。

621 ：なむやん七段教士：2016/06/21 13:17:50 (9年前) 0MONA/0人

zenyのプールで1人だけおかしいほどハッシュレートを出す人がいたらしい。
CPUで掘るだけでは無理な数字らしくて"GPU用のソフトが作られたのでは？"と過去ログに書いてあった。
多分、個人で作って個人の使用に限定して配布してないと思われ

http://hope.2ch.net/test/read.cgi/cryptocoin/1414847690/
173あたりから話が出ている
でもよく読むとプールのミスか？

622 ：名無し名誉名人教士：2016/06/21 15:52:11 (9年前) 0MONA/0人

>>619,>>620,>>621

yescryptのソースコードを見てみました。
1スレッドあたり、約2MBのメモリを使用している！？
メモリを減らせれば、L2キャッシュに乗せることも考えられるが…

623 ：リキプロマン六段：2016/06/21 16:55:12 (9年前) 0MONA/0人

>>622
sha256のASICが登場してから、ASIC対策として計算におけるメモリの量を増やすようにアルゴリズムが進化してきて、
それはscryptに始まり、x11、neoscryptと進んでyescryptの様なアルゴリズムが生まれたということですね。
一度どんな動きするのか見てみますね。

624 ：なむやん七段教士：2016/06/21 17:53:26 (9年前) 0MONA/0人

アルゴリズムにreCAPTCHAみたいなの載せれないの？そうすれば金に物を言わせられない
いや、ｱﾎなこと言ってるのはわかってるで

625 ：リキプロマン六段：2016/06/21 20:46:14 (9年前) 0MONA/0人

全体の処理時間やレジスタ消費量

yescrypt_gpu_hash_k2cのみ抜粋（k2c1も似たような傾向）

予想はしてましたが、ほんとにメモリ食いのアルゴリズムですね・・・。
レジスタを使いきって溢れているのが分かります。
一番時間かかってる3段目部分も8割方メモリ関連のストールですし。
あとMAD計算凄く多いです。まぁこれはCUDA6.5でコンパイルされたのもあるかもしれませんが。

626 ：なむやん七段教士：2016/06/21 21:53:01 (9年前) 0MONA/0人

やはりGPUで掘るなどできないのでしょうか？
いや、それはそれでいいのですが、もし中国でﾏｲﾅｰが作られていたとしたら負けが見えるので心配で（終わった通貨とも言われてるがまだできるきがする

627 ：名前はまだ無い四段：2016/06/21 22:08:42 (9年前) 0.1MONA/1人

>>616
GTX750Tiの場合はSMあたり128コアでシェアードメモリが64kBでコアあたり512バイトとなりますし
シェアードメモリを使うとしてもコアレスアクセスにするためのバッファ的な使い方が良いのではないでしょうか。

Fermiの場合はGF100はSMあたり32コアでシェアードメモリが48kBでコアあたり1536バイト、L2キャッシュはコアあたり1536バイト、
GF104はSMあたり48コアでシェアードメモリが48kBでコアあたり1024バイト、L2キャッシュはコアあたり1365バイトなので
シェアードメモリ利用の効果が表れやすそうです。

628 ：名無し名誉名人教士：2016/06/21 22:20:10 (9年前) 1.14MONA/1人

現在の進捗状況
・Lyra2REで、Compute5.0のコードを追加(GTX750Ti/750向け)、一度、元のコードに戻す。
・Lyra2RE、Compute5.0にて、3段打ちメソッドの実装(高速化の前準備)
・Lyra2RE、Compute5.0にて、reduceDuplexの使用頻度の高い部分の中間領域としてシェアードメモリを使用。(最終的にはグローバルメモリに書き戻している)

さて、グローバルメモリ使用のまま4分割ってのも、試してみる価値はあるかな？(シェアードメモリ使用はその後に試す)

明日からちょっと忙しくなるので、更新が滞るかもしれない…
ってか、資格試験の勉強そっちのけでやってるのは、ひょっとしてヤバイ？

629 ：名前はまだ無い四段：2016/06/21 22:33:07 (9年前) 0MONA/0人

>>617
Nicehashminerはそんなことになっているのですか。

>>621
150～200kH/sであればミドルハイのデスクトップの50～100倍程度なので無理とは言い切れないです。
Sha1coinも初期には50～100倍程度で掘っている採掘者が居そうな感じでしたし、
人気があるコインはもっと凄かったという話を聞いたりもします。

630 ：リキプロマン六段：2016/06/21 22:35:29 (9年前) 0MONA/0人

>>628
お疲れ様です！！
息抜きがてらまたここに来てくれたら嬉しいです。ご無理なさらず。

631 ：名前はまだ無い四段：2016/06/21 22:55:43 (9年前) 0MONA/0人

>>623
x11系はメモリはほとんど使わず、アルゴリズムの数がASIC対策だったと思います。

>>624
ディープラーニングとreCAPTCHAの戦いが激化するだけの気がします。
MotocoinというProof of Playのコインもありますが、botに支配されてしまったようです。

>>628
お疲れ様です。無理せず頑張ってください。

632 ：じゃぶじゃぶ六段錬士：2016/06/21 23:28:17 (9年前) 0MONA/0人

Xn系アルゴリズムの中身ということで
十六茶みたいですね。
https://www.getpimp.org/community/blog/144-what-are-all-these-x11,-x13,-x15-algorithms-made-of.html

633 ：なむやん七段教士：2016/06/21 23:53:22 (9年前) 0MONA/0人

>>631
暗号通貨の闇は深い

634 ：リキプロマン六段：2016/06/22 00:03:21 (9年前) 0MONA/0人

>>631
確かに他のサイトでもそのように紹介されていましたね。失礼しました。
x11に含まれるgroestlやshaviteはメモリをそれなりに食うアルゴリズムではあるのですが、まぁ結局scryptと同じようにx11もASIC出ちゃいましたね・・・

>>632
x系の中身一覧は初めて見ました！ありがとうございます！
x11をベースとして、アルゴリズムを足している形になっているのですね。

635 ：名無し四段：2016/06/22 00:20:43 (9年前) 0MONA/0人

今も使われてるかわからないけど、momentumってハッシュアルゴリズム面白いよ
(ProtoSharesで使われてた)

636 ：名無し名誉名人教士：2016/06/22 02:47:49 (9年前) 10MONA/1人

現状までの更新(r6-fix)
・GTX750Ti/750にてLyra2REが逆に遅くなった問題を修正(動作未確認、正常動作するなら、元の速度くらいにはなっているはず？)
・CUDA Toolkit 7.5でビルド。Kepler、Fermiの速度は改善されます。
前バージョン(r6)ではCUDA Toolkit 8 RCだったため、Kepler、Fermiとは相性が悪く、パフォーマンスが発揮できない問題があった。

高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://1drv.ms/u/s!Aud1FauQ46vHhlt5NYbLOB2bQlOt

ソースコード高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://1drv.ms/u/s!Aud1FauQ46vHhlx5NYbLOB2bQlOt

Maxwell以降の場合は、前バージョン(r6、>>583)の方が速いと思われます。

637 ：暴れ名無し二段：2016/06/22 15:33:33 (9年前) 0MONA/0人

>>636
GTX760で180kH/sの上昇を確認しました

638 ：暴れ名無し二段：2016/06/22 15:37:57 (9年前) 0MONA/0人

あ、r5-fix比でですね

639 ：リキプロマン六段：2016/06/22 15:43:22 (9年前) 0MONA/0人

>>637
そのハッシュレートはlyra2rev2ですか？
よければlyra2reでもベンチマークしてもらえますか？

640 ：暴れ名無し二段：2016/06/22 22:01:54 (9年前) 0.1MONA/1人

>>639
lyra2で計測したところ553kH/sでした。

641 ：電気代がペイ出来てるｗ五段：2016/06/22 22:24:12 (9年前) 0.1MONA/1人

1.7.6-r6-fix lyra2v2 GTX750

1.7.6-r6-fix lyra2re GTX750

642 ：リキプロマン六段：2016/06/23 08:01:02 (9年前) 0MONA/0人

ありがとうございます。GTX750でlyra2reの速度がなかなか出ませんね。。。
sp-monなら1000kH/s出るらしいのですが

643 ：リキプロマン六段：2016/06/23 09:12:12 (9年前) 0MONA/0人

Nicehashminerにccminer-nanashi-lyra2v2が追加された模様。多分1.7.6-r5あたりかな？
（Nicehashminerはアルゴリズムに応じて最適なccminerを使い分ける仕組み）
こんな感じで1.7.6-r6も追加されてlyra2REがGPUで掘れるようになればいいのだけれど・・・

644 ：名無し名誉名人教士：2016/06/24 11:58:57 (9年前) 0.1MONA/1人

GTX750Ti/750におけるLyra2REの高速化考察
・Lyra2REの使用メモリは8×8×3×32バイト＝6144バイト(＝6kバイト)
・GTX750Ti/750のシェアードメモリは64kバイト(32コアで共有)で、1コアあたり2048バイト
・GTX750Ti/750のL2キャッシュは2Mバイト(640コア/512コアで共有)で、1コアあたり3.2kバイト/4kバイト

・そのままだとやはりシェアード/L2に収まりきらないので、4分割による高速化が妥当。
・4分割後の使用メモリは8×8×3×8バイト＝1536バイト(＝1.5kバイト)
・1Warpでよければ、すべてシェアードメモリに収まる(1.7.6-r5方式)…が、遅くなった。GTX950以上(2Warp)では速くなっているから、最低でも2Warp必要。
・半分をシェアードメモリ、半分をグローバルメモリにすると、2Warp(シェアードメモリ容量による制約)で使用できるが、分岐ダイバージェンス(約50%分岐)が発生する。
・全てをグローバルメモリでアクセスしようとすると、2WarpまでであればL2キャッシュにヒットする。それ以上はグローバルメモリにアクセスしてしまう。
・8分の3をシェアードメモリ、8分の5をグローバルメモリにすると、3Warp確保できる。(中途半端？)

645 ：名前はまだ無い四段：2016/06/24 17:44:17 (9年前) 1MONA/1人

>>644
GTX750Ti/750のシェアードメモリは128コアで64kバイトなので、コアあたりだと512バイトです。
1536バイトx32スレッドで全てシェアードメモリに収めようとすると、
32コアのサブユニット4個のSMで1warpしか走らせられないのではないかと思います。

sp版等ではL2キャッシュのヒット率を上げるためか、ブロックあたりのスレッド数がCC 5.0では16、
それ以外では8と低く設定してあるようです。

646 ：名無し名誉名人教士：2016/06/24 19:46:47 (9年前) 0MONA/0人

>>645
おう、そういえばそうだった…すまぬ

でも、warp数を上げれば高速化しそうですね。
4warpは必要だよな…

647 ：名前はまだ無い四段：2016/06/24 22:10:13 (9年前) 1MONA/1人

>>646
MaxwellではSMあたり4warpあるいはそれ以上が効率が良さそうですね。
GTX750TiではSMあたりのキャッシュは400kバイトあまりなので、sp版では6144バイトx16スレッドx4ワープのようです。
1536バイトx32スレッドx8ワープにすればシェアードメモリを利用しなくても速度が上がるかもしれません。

648 ：名無し名誉名人教士：2016/06/25 07:02:14 (9年前) 4MONA/2人

GTX750Ti/750の問題はこれで（たぶん）解決(r6-fix2)
・GTX750Ti/750にてLyra2REが逆に遅くなった問題を修正(GTX750にて動作確認)
具体的には、
1.いったん元に戻す
2.グローバルメモリアクセスのまま、lyraを4分割(32Warpでは速度変わらず。Warp数を減らすと速度上昇。)
3.Warp数を制限するため、ダミーでシェアードメモリを確保(8Warp/10Warpが最適と思われます)
4.やっぱりシェアードメモリがもったいないので、一部使用(速度微上昇)

高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://1drv.ms/u/s!Aud1FauQ46vHhl55NYbLOB2bQlOt

ソースコード高速化バージョン(1.7.6ベース、プール･ソロ共通版)
https://1drv.ms/u/s!Aud1FauQ46vHhl15NYbLOB2bQlOt

Maxwell以降の場合は、前バージョン(r6、>>583)の方が速いと思われます。

649 ：名無し名誉名人教士：2016/06/25 07:04:44 (9年前) 0MONA/0人

GTX750 -i 15 改造前(1.7.6-r1)
i.imgur.com/mA03h92

GTX750 -i 15 改造後、前バージョン(1.7.6-r6)
i.imgur.com/XJgHwH6

GTX750 -i 15 改造後、本バージョン(1.7.6-r6-fix2)
i.imgur.com/gup4rN1

650 ：名無し名誉名人教士：2016/06/25 07:07:06 (9年前) 0.114114MONA/1人

貼り付けミスった…

GTX750 -i 15 改造前(1.7.6-r1)

GTX750 -i 15 改造後、前バージョン(1.7.6-r6)

GTX750 -i 15 改造後、本バージョン(1.7.6-r6-fix2)

651 ：名無し名誉名人教士：2016/06/25 07:35:21 (9年前) 0MONA/0人

あ、>>648の改造はLyra2RE向けの改造です。
Lyra2REv2を使用の方は、従来バージョン(1.7.6-r6)から更新する必要はありません。
(Lyra2REv2は弄っていませんので、ハッシュレートは変わりません)

652 ：名前はまだ無い四段：2016/06/25 15:53:47 (9年前) 1MONA/1人

>>648
ダミーのシェアードメモリを確保することでほぼ確実にL2キャッシュにヒットするwarp数に抑えているのですか、面白いです。

KeplerはシェアードメモリもL2キャッシュも少ないので難しいですが、
思い切って1536バイトx4スレッドx6ワープにすればSMあたりの必要メモリは36kバイトとなり
全てシェアードメモリに収められ、ワープ内分岐も回避できるので速度が上がるかもしれません。

653 ：名無し名誉名人教士：2016/06/25 17:12:26 (9年前) 0.2MONA/2人

>>652
久々に驚いてもらえるコードを起こせました。
ちなみに、1Warp=32スレッドで考え、6Warpで288kバイトになります。
Keplerはシェアードメモリ48kバイト、L2キャッシュ1.5Mバイトで、どうすべきか…
780Tiは2880コアなので、L2キャッシュは1コアあたり546バイトで、全然足りない…
そこまで無理してやる必要はないかな？

654 ：名前はまだ無い四段：2016/06/25 19:50:35 (9年前) 0.1MONA/1人

>>653
GK110はL2キャッシュも下位モデルより多少は多いのですね。GK104は512kバイトでコアあたり341バイトのようです。

sp版ではブロックあたりのスレッド数がCC5.0で16、それ以外で8に設定されていることなどを考えると、
ブロックあたりのスレッド数を32未満にして一部の演算ユニットしか活かせなくても
キャッシュミスが減ったりする方が効率が良いのではないかと思います。

655 ：なむやん七段教士：2016/06/26 12:30:26 (9年前) 0MONA/0人

やはりyescryptのGPU版作られてるっぽい
http://hope.2ch.net/test/read.cgi/cryptocoin/1416634041/
前は見る場所間違えてたようだ

656 ：くまねこさん三段錬士：2016/06/26 13:11:35 (9年前) 0MONA/0人

穴掘るよりも～掘られたいマジで～♪

657 ：名前はまだ無い四段：2016/06/26 17:25:13 (9年前) 0MONA/0人

Lyra2REではCC 5.2以上では1536バイトx32スレッドx2ワープで処理しているようですが、
1536バイトx16スレッドx4ワープとした方が利用できるレジスタやロード・ストア・ユニットが増えて効率が上がるかもしれません。
CC 6.0のGP100ではSMあたりのコア数やシェアードメモリのサイズが違うので状況が変わってきますが、
今のところはTeslaシリーズのみのようなのであまり考えなくても良さそうです。

658 ：名前はまだ無い四段：2016/06/26 18:24:02 (9年前) 0MONA/0人

>>655
効率の良いGPUマイナーが存在しているという主張は根拠のないものばかりで、
MDpoolのmonaf氏は存在に否定的という感じに受け取りましたが、
どのあたりを読んでそう思われたのでしょうか？

659 ：名無し名誉名人教士：2016/06/26 19:40:35 (9年前) 0.214114MONA/2人

>>657

スレッド数 32 (1.7.6-r6-fix2)

スレッド数 16

若干遅くなっているかな？

660 ：なむやん七段教士：2016/06/26 20:08:29 (9年前) 0MONA/0人

今となっては文字しか残ってないから判断はそれでするしかないのが辛い所です。
>>629で一旦は納得したのだけれど、いざ触る事を決めたら気になったもので
因みにmonafさんの発言はどこらへんにありますか？

661 ：名前はまだ無い四段：2016/06/26 20:33:56 (9年前) 0MONA/0人

>>659
逆に遅くなってしまいましたか、難しいですね。
命令キャッシュやバッファ、スケジューラ等が複雑に絡んできそうです。

662 ：名前はまだ無い四段：2016/06/26 21:05:34 (9年前) 1.14114514MONA/1人

>>660
今日は調子が悪いのか60kH/s強と控えめのようですが、今でも桁違いの速度を出している人が居ます。

あのスレではmonaf氏の判断は本人ではなく伝聞でした。
http://hope.2ch.net/test/read.cgi/cryptocoin/1416634041/531
twitterでの発言は
https://twitter.com/monaf_blog/status/589256079357255683
です。

663 ：なむやん七段教士：2016/06/26 21:26:24 (9年前) 0MONA/0人

MDってmona digestの略か

poolの管理人が明言してるので信憑性は十分ですね
いやはやお騒がせしました(´Д` )
安心して手をつけれそうです。

664 ：名無し名誉名人教士：2016/06/27 05:38:34 (9年前) 0MONA/0人

Lyra2REのL2キャッシュ考察
・Lyra2REの4スレッド分割を行っているため、1スレッドあたり1.5kBのメモリを使用する。
・GTX750Ti/750のL2キャッシュサイズは2MB(＝2048kB)。
・GTX750Tiは5SM構成のため(640[コア]÷128[コア/SM]＝5[SM])、1WarpあたりのL2キャッシュ占有量は 1.5[kB/スレッド]×5[SM]×32[スレッド/SM･Warp]＝240[kB/Warp] となる。
そのため最適Warp数は、2048[kB]÷240[kB/Warp]＝8.53[Warp]となり、8Warpが最適となる。(9Warp以上はキャッシュを経由しなくなる)
・GTX750は4SM構成のため(512[コア]÷128[コア/SM]＝4[SM])、1WarpあたりのL2キャッシュ占有量は 1.5[kB/スレッド]×4[SM]×32[スレッド/SM･Warp]＝192[kB/Warp] となる。
そのため最適Warp数は、2048[kB]÷192[kB/Warp]＝10.67[Warp]となり、10Warpが最適となる。

665 ：名無し名誉名人教士：2016/06/27 06:01:00 (9年前) 0MONA/0人

>>664つづき
・GTX950は6SM構成のため(512[コア]÷128[コア/SM]＝4[SM])、1WarpあたりのL2キャッシュ占有量は 1.5[kB/スレッド]×4[SM]×32[スレッド/SM･Warp]＝192[kB/Warp] となる。
GTX950のL2キャッシュは1MBのため、1024[kB]÷192[kB/Warp]＝5.33[Warp]となり、5Warpが最適となる。
・GTX950で8Warp確保するためには、1024[kB]÷8[Warp]＝128[kB/Warp]、1スレッドあたり128[kB/Warp]÷32[スレッド/SM･Warp]÷4[SM]＝1[kB/スレッド]まで抑えなければならないため、
メモリの「8分の5」をグローバルメモリ、「8分の3」をシェアードメモリ、の構成にする。この場合、シェアードメモリは1.5[kB/スレッド]×3/8×32[スレッド/SM･Warp]×8[Warp]＝144[kB/SM]必要なため、96[kB/SM]のシェアードメモリでは足りない。
・4Warp確保(SMあたり128コアのため、最低4Warpあれば未使用コアがなくなる)するためには、
1024[kB]÷4[Warp]＝256[kB/Warp]、1スレッドあたり256[kB/Warp]÷32[スレッド/SM･Warp]÷4[SM]＝2[kB/スレッド]となり、1.5[kB/スレッド]は十分確保できる。
・シェアードメモリのみで確保する場合、96[kB/SM]÷1.5[kB/スレッド]÷32[スレッド/SM･Warp]＝2[Warp]となるため、半分のコアしか有効にならない。そのため、L2キャッシュの方が高速動作する可能性がある。(L2のレイテンシが大きいため、やってみないと何とも言えないが…)

666 ：名無し名誉名人教士：2016/06/27 06:16:42 (9年前) 0.1MONA/1人

>>665 の考察が一部ミスった。書き直し。
GTX950は6SM構成のため(768[コア]÷128[コア/SM]＝6[SM])、1WarpあたりのL2キャッシュ占有量は 1.5[kB/スレッド]×6[SM]×32[スレッド/SM･Warp]＝288[kB/Warp] となる。
GTX950のL2キャッシュは1MBのため、1024[kB]÷288[kB/Warp]＝3.55[Warp]となり、3Warpが最適となる。
3Warpではコアをすべて使用することができないため、シェアードメモリとの併用を考える。
シェアードメモリで「8分の1」だけ利用する場合、L2キャッシュからみたWarp数は1024[kB]÷(288[kB/Warp]×7/8)＝4.06[Warp]となり、4Warp確保できる。
このとき、シェアードメモリの使用量は、(1.5[kB/スレッド]×1/8)×32[スレッド/SM･Warp]×4[Warp]＝24[kB/SM]となり、シェアードメモリは十分確保できる。
よって、「シェアードメモリとL2キャッシュの混在」によりCUDAコアを十分活用できることがわかる。
現状、GTX950以上はシェアードメモリのみを使用し、2Warp構成で動作するため、CUDAコアをすべて使用できていないため、「シェアードメモリとL2キャッシュの混在」の手法で高速化する可能性がある。(L2のレイテンシと分岐ダイバージェンスの影響があるため、やってみないと何とも言えないが…)

667 ：名無し名誉名人教士：2016/06/27 06:39:58 (9年前) 0.1MONA/1人

>>666つづき
GTX960以上は、さらにコアが増え、L2キャッシュ占有量が多くなるため、シェアードメモリで「8分の3」を利用することが考えられる。
(GTX960で384[kB/Warp]、4Warp確保するためには1024[kB]÷384[kB/Warp]÷4[Warp]＝0.67＜5/8となるため、シェアードメモリで「8分の3」を確保する。GTX970以降も同様。)
このとき、シェアードメモリの使用量は、(1.5[kB/スレッド]×3/8)×32[スレッド/SM･Warp]×4[Warp]＝72[kB/SM]となり、シェアードメモリは十分確保できる。

ここまでをまとめると、
・GTX750Ti/750はL2キャッシュが多いため、すべてL2で運用した方が高速。
・GTX950では、L2キャッシュが足りないため、シェアードメモリで「8分の1」だけ利用する、「1/8混在パターン」で高速化の可能性がある。
・GTX960～TitanXでは、L2キャッシュがさらに足りないため、シェアードメモリで「8分の3」だけ利用する、「3/8混在パターン」で高速化の可能性がある。

668 ：名無し名誉名人教士：2016/06/27 06:51:08 (9年前) 0MONA/0人

>>667 つづき
なお、GTX1080/1070についてはCUDAコア数に対してL2キャッシュが小さすぎるため、根本的に4Warpを確保することは不可能となる。(グローバルメモリアクセスが発生してしまう。)
そのため、GTX1080/1070は、シェアードメモリですべて確保する(2Warp構成)方が良いと考えられる。
(わざわざL2とシェアードメモリを混在にして3Warp構成にする必要はない………よね？)

669 ：名無し名誉名人教士：2016/06/27 07:08:52 (9年前) 0.1MONA/1人

高速化の基本方針
・シェアードメモリにすべて収まる場合
⇒Warp数を検討する。
(優先順位 1位)Warp数が「32÷SM数」以上であれば、CUDAコアがすべて利用できるため、高速に動作する。

・L2キャッシュを利用する場合
⇒1WarpあたりのL2キャッシュ占有量を検討する。
L2キャッシュで収まるようなら、高速化の可能性がある。
⇒Warp数を検討する。
(優先順位 2位)Warp数が「32÷SM数」以上であれば、CUDAコアがすべて利用できるため、高速に動作する。

・シェアードメモリ、L2キャッシュが足りない場合
(優先順位 3位)そのままではCUDAコアをすべて利用できないため、L2キャッシュとの併用を考慮して、Warp数が「32÷SM数」確保する。

670 ：名無し名誉名人教士：2016/06/27 09:07:04 (9年前) 0.1MONA/1人

>>668
具体的には、
Lyra2REv2の場合
GTX1080/1070⇒シェアードメモリ 8Warp⇒全てシェアードメモリで処理
TitanX、GTX980Ti～950⇒シェアードメモリ 8Warp⇒全てシェアードメモリで処理
GTX750Ti/750⇒シェアードメモリ 5Warp⇒全てシェアードメモリで処理
Kepler/Fermi⇒シェアードメモリ 4Warp⇒全てシェアードメモリで処理

Lyra2REの場合
GTX1080/1070⇒シェアードメモリ 2Warp、L2キャッシュ不可⇒全てシェアードメモリで処理
TitanX、GTX980Ti～950⇒シェアードメモリ 2Warp、L2キャッシュ 5/8使用で4Warp⇒シェアードメモリとL2キャッシュの混在で処理(GTX950はL2 7/8で十分だが、シェアードメモリがもったいないので、5/8にする)
GTX750Ti/750⇒シェアードメモリ 1Warp、L2キャッシュ全使用で8Warp/10Warp⇒全てL2キャッシュで処理
Kepler/Fermi⇒シェアードメモリ 1Warp、L2キャッシュ使用はコア数次第⇒最適化は困難？(L1キャッシュを大きく確保した方が効果的かも？)

Lyra2REは「シェアードメモリとL2キャッシュの混在」の実装をすべきか？正直、需要がそれほどないような気がするが…

671 ：名前はまだ無い四段：2016/06/28 00:00:44 (9年前) 0MONA/0人

Lyra2REは需要を考えるとどこまで注力するか悩みますね。

Keplerはコアを全て利用するにはSMあたり6ワープ必要と思われるので
Lyra2REv2で一部のデータをローカル配列に格納してシェアードメモリの使用量を減らした方が良いかもしれません。

SMあたり192コアでシェアードメモリが48kバイトなのでコアあたりでは256バイト、
残りの128バイトはレジスタにというのは厳しいでしょうか？

672 ：名無し名誉名人教士：2016/06/28 06:12:27 (9年前) 0.114114MONA/1人

>>671
レジスタを使用することで、弊害が出るのがif文です。
演算の結果、(2進数で)末尾2桁の値により、使用する値を変更します。
メモリなら、アクセスするアドレスを変更するだけで利用できますが(分岐なし)、
レジスタの場合、分岐を行いレジスタの転送命令を実施します。
32スレッドすべてが同じ分岐に向かうならいいのですが、この場合、99.6%の確率(1-0.5^8＝0.996)でスレッドが互いに異なる命令を実行します。(分岐による)
異なる命令を実行する場合、他のスレッドは「待ち」の状態になり、その分、遅くなってしまいます。(見かけ上、シェアードメモリのレイテンシが大きくなる)
コア利用率が上がるのはいいのですが、見合った速度向上は期待できないと思います。

673 ：名無し名誉名人教士：2016/06/28 06:16:27 (9年前) 0.114114MONA/1人

Lyra2REで>>670の「シェアードメモリとL2キャッシュの混在」を試してみましたが、遅くなりました。
大きな速度低下ではないので、方向性は間違っていませんでしたが、
コア利用率が2倍になる恩恵より、L2を使用するオーバーヘッドの方が大きかったようです。

674 ：名無し名誉名人教士：2016/06/28 06:52:22 (9年前) 0.214114MONA/2人

GTX750Tiの速度向上の例を考えると、
・コア利用率100％(Lyra2REv2のKepler以外)でシェアードメモリを使用できるなら、それが最速。
・コア利用率25％(1.7.6-r6 Lyra2REのGTX750Ti/750)でシェアードメモリを使用するくらいなら、L2キャッシュを利用した方が高速。
・コア利用率50％(1.7.6-r6 Lyra2REのGTX950以上)でシェアードメモリを使用する場合、L2キャッシュ併用よりも、利用率50％のままの方が高速。

ってことになる…のかな？

675 ：名無し名誉名人教士：2016/06/28 07:01:51 (9年前) 3.9MONA/1人

とりあえず、Lyra2REの改造はここまでにしておこうかな？
変更履歴(1.7.6-r6⇒1.7.6-r7)
・GTX750Ti/750にてLyra2REが逆に遅くなった問題を修正
・GTX950以上の速度が(なぜか)向上
・CUDA Toolkit 7.5と8 RCの両バイナリを同梱
(おそらく、Maxwell以上はccminer_CUDA8.exeを使用した方が高速になります)

高速化バージョン(1.7.6-r7)
https://1drv.ms/u/s!Aud1FauQ46vHhl95NYbLOB2bQlOt

ソースコード高速化バージョン(1.7.6-r7)
https://1drv.ms/u/s!Aud1FauQ46vHhmB5NYbLOB2bQlOt

なお、Lyra2REv2のハッシュレートは変わっておりませんので、そちらを利用している方は更新の必要はありません。

676 ：電気代がペイ出来てるｗ五段：2016/06/28 08:49:14 (9年前) 0MONA/0人

1.7.6-r7 GTX970×３
ヴァートコイン

677 ：リキプロマン六段：2016/06/28 09:01:43 (9年前) 0MONA/0人

お疲れ様です。>>669や>>674のように高速化の法則のようなものが見えてきてとても面白いです。
他のアルゴリズムにも応用できそうですね。

>>676
vertcoinってlyra2v2の方じゃなかったっけ・・・？

678 ：電気代がペイ出来てるｗ五段：2016/06/28 09:03:41 (9年前) 0MONA/0人

が～～ん
reで掘れるコインって知らない；；

679 ：名無し名誉名人教士：2016/06/28 09:18:38 (9年前) 0MONA/0人

>>678
https://aikapool.com/cto/
CTOって、どんなコインだっけ？

680 ：電気代がペイ出来てるｗ五段：2016/06/28 09:25:00 (9年前) 0MONA/0人

>>679
ccminer -a lyra2
sgminer --kernel Lyra2RE
とありました

681 ：名無し名誉名人教士：2016/06/28 09:30:26 (9年前) 0MONA/0人

>>680
取引所はこんな感じ？
https://c-cex.com/?p=cto-btc

682 ：電気代がペイ出来てるｗ五段：2016/06/28 09:34:37 (9年前) 0MONA/0人

お～悪くない！！ＢＴＣに交換ですね！

683 ：名無し名誉名人教士：2016/06/28 09:38:33 (9年前) 0MONA/0人

>>682
プールハッシュレートとネットハッシュレートが逆転してる…
ソロ掘りした方がいいかもね？

http://tailflick.wix.com/official-crypto

おそらく、kumacoinと同じやり方で掘れると思う

684 ：電気代がペイ出来てるｗ五段：2016/06/28 09:41:17 (9年前) 0MONA/0人

walletがないｗｗ何処？

685 ：名無し名誉名人教士：2016/06/28 09:48:09 (9年前) 0MONA/0人

>>684
http://tailflick.wix.com/official-crypto
から、Get Startedへ

Windowsロゴをクリックすると、ダウンロードページ(MediaFire)に飛ぶ

686 ：電気代がペイ出来てるｗ五段：2016/06/28 09:49:01 (9年前) 0MONA/0人

>>685
ありがとう
掘って報告します

687 ：名無し名誉名人教士：2016/06/28 09:56:35 (9年前) 0MONA/0人

初期ノードはこの辺に書いてあるのを使えばいい？
https://bitcointalk.org/index.php?topic=1043457.300
https://bitcointalk.org/index.php?topic=1129263.new#new

688 ：電気代がペイ出来てるｗ五段：2016/06/28 09:59:24 (9年前) 0MONA/0人

MediaFireに飛んでからがわからないＤＬ場所どこでしょ？

689 ：電気代がペイ出来てるｗ五段：2016/06/28 10:03:58 (9年前) 0MONA/0人

すいませんｗ勘違いでした出来ました＾＾；

690 ：名無し名誉名人教士：2016/06/28 10:05:43 (9年前) 0MONA/0人

>>689
Net Hashrateが3.04MH/sだから、かなり掘れるかもね？

691 ：名前はまだ無い四段：2016/06/28 13:05:49 (9年前) 0MONA/0人

>>672
言われてみれば分岐でアクセスするデータの範囲が変わるような部分がありました。
やはりKeplerは演算コアばかり多くてピーキーですね・・・

>>674
lyra2ではそうなりそうですね。

>>675
お疲れ様です。

692 ：ねずみ五段：2016/06/28 14:08:13 (9年前) 0MONA/0人

crypto（lyra2re）は、GTX960の場合、約2.3MH/sでした。

693 ：名無し名誉名人教士：2016/06/28 16:43:57 (9年前) 0.1MONA/1人

neoscryptについては、1.5.80のものをマージするところから始めないと…
プランとしては、GTX750Ti/750でL2キャッシュの全力使用…からかな？

1スレッドあたり32kB(+α)のため、まず4分割をしてみると…32kB÷4＝8kB、
GTX750は4SM構成なので、8kB×32コア/Warp･SM×4SM＝1024kB/Warpとなる。
2Warp構成なら、2048kBとなり、ぎりぎりL2キャッシュ(2MB)に入りきる。

GTX750Tiは5SM構成なので、8kB×32コア/Warp･SM×5SM＝1280kB/Warpとなる。
1Warp構成じゃないと、L2キャッシュ(2MB)に収まりきらない。

8分割にしてでも、4Warp構成(GTX750Tiは3Warpになる)にしたいところではあるが…

694 ：名無し初段：2016/06/28 21:51:33 (9年前) 3.9MONA/1人

r7のソースコードはLinuxでコンパイルするとエラーが出ました。

lyra2/lyra2RE.cu:extern void lyra2_cpu_hash_32(int thr_id, uint32_t threads, uint32_t startNonce, uint64_t *d_outputHash, int order);

int order → bool gtx750ti
に修正しました。

695 ：名無し初段：2016/06/28 21:53:51 (9年前) 0MONA/0人

GTX1080/1070のマイニング中の消費電力はどれくらいですか？

696 ：リキプロマン六段：2016/06/29 07:43:55 (9年前) 0MONA/0人

>>695
r6を用いた比較で良ければ
http://cryptomining-blog.com/8028-nvidia-geforce-gtx-1070-founders-edition-power-usage-for-crypto-mining/

697 ：名無し名誉名人教士：2016/06/29 08:56:09 (9年前) 0.1MONA/1人

Lyra2REの8スレッド化(1.7.6-r7をさらに2分割)してみたけど、逆に遅くなりました…(GTX980 4.3MH/s⇒2.6MHs)
Warp数が4になったのはいいのですが、WarpShuffleが増えたのが足を引っ張っているみたいです。
Keplerあたりならこれが効果を発揮するかも？(シェアードメモリ使用で2Warp確保できるようになる。でも、Lyra2REでそこまでするよりneoscryptに着手すべきか？)

>>694
バグ報告ありがとうございます。
実は他にもバグがあった…
Compute5.2以上でメモリ占有量は1スレッドあたり768バイトでいいところを、Compute5.0と同じ6144バイト確保しています…無駄ですね…
今夜あたり修正します。

698 ：リキプロマン六段：2016/06/29 10:03:38 (9年前) 0.1MONA/1人

>>697
ワープ数を増やすとそれだけWarpShuffleも増えるので、そのトレードオフも考慮する必要があるということですね。

ところでNicehashの直近のLyra2REv2ハッシュレートの推移ですが、6/9に1.5.80r10フォーク、6/22に1.7.6r5フォークを用いたnicehashminerがリリースされています。
その度にハッシュレートが上昇しているのがグラフから分かるかと思います。特に6/22の更新ではnicehashminerがpascal対応を謳っている為、それによるハッシュレート増も考えられます。（1.7.6r5もpascal対応してますしね）
Lyra2REのGPU対応は返事がなく望み薄なので、そろそろNeoscryptで矛そらししないとmonacoinソロマイニングもしんどいのではと思いました。Lyra2REv2より更にメモリバウンドなNeoscryptの改良により新たに得られる知見もありそうです。

あとbitcointalkスレでの更新告知はバグ修正後に行いますね。

699 ：名無し名誉名人教士：2016/06/29 21:47:51 (9年前) 3.9MONA/1人

今回は主にバグフィックス…
変更履歴(1.7.6-r7⇒1.7.6-r8)
・GTX950以上でメモリ容量が大きすぎる問題を修正
・Linux環境でコンパイルできない問題を修正

高速化バージョン(1.7.6-r8)
https://1drv.ms/u/s!Aud1FauQ46vHhmN5NYbLOB2bQlOt

ソースコード高速化バージョン(1.7.6-r8)
https://1drv.ms/u/s!Aud1FauQ46vHhmJ5NYbLOB2bQlOt

700 ：リキプロマン六段：2016/06/29 22:55:37 (9年前) 0MONA/0人

bitcointalkでお知らせしときました。
二ページ目に移行していたのわからなくて「更新説明はよ！！」の部分気づきませんでした・・・
思ってたより書き込みないなと思ったらそういうことか。。

701 ：リキプロマン六段：2016/06/29 23:05:54 (9年前) 0MONA/0人

あと、プールマイニングにおいて、プール側で表示されるハッシュレートと自分のとこのハッシュレートに差が生じている問題が発生しているようです。
他スレではaikapool等でLyra2REマイニングされてる方がいるようですが、この問題を確認している方はいらっしゃいますか？

702 ：リキプロマン六段：2016/06/30 00:31:35 (9年前) 0.1MONA/1人

nicehashとaikapoolにてプール側でハッシュレートの差が生じているのを確認しました。こちらのccminer上は5MH/sですがプール側では2MH/s程となっています。

703 ：名無し名誉名人教士：2016/06/30 05:08:17 (9年前) 0.49MONA/2人

>>702
マイナー側では実際に処理したハッシュ数からハッシュレートを計算する。

プール側では、マイナーが処理したハッシュ数は知りえないので、
指定の難易度において、送られてきたハッシュから、当該ハッシュを得るために必要なハッシュ数を推定して、ハッシュレートを計算する。
通常は難易度を易しくして、ハッシュ数を増やして平均化しているが、ここはどうだろうか…？

ソロ掘りであれば、採掘報酬は全部もらえるから、ハッシュレートは関係ないけど、
プール掘りの場合、推定ハッシュレートで分配されるんだよな…

704 ：電気代がペイ出来てるｗ五段：2016/06/30 11:17:45 (9年前) 0MONA/0人

x11 高速化できませんか？
現在　970　３枚で

705 ：名無し名誉名人教士：2016/06/30 11:39:38 (9年前) 0MONA/0人

>>704
ほとんどメモリを使ってないから、高速化は無理じゃないかな…？
カーネル間の転送用に1スレッドあたり64バイトしか使っていない。
やるとしたら、カーネルの連結だけど、ほとんど変わらないと思うよ…

706 ：電気代がペイ出来てるｗ五段：2016/06/30 11:44:21 (9年前) 0MONA/0人

なるほど！ＡＳＩＣ機導入検討してみよう

707 ：リキプロマン六段：2016/06/30 11:49:21 (9年前) 0MONA/0人

>>703
計算したハッシュをリターンというか、出力する部分で何かおかしいところはないでしょうか。
プール側ではほぼ半分となって表示されるということは、以前の改良前のハッシュレートと同じということなので、そのあたりが悪さしているとは考えられないでしょうか。

あと、1070でr8とr6で違いが出ないということでした。maxwellでは高速化されたので、てっきりpascalでも速くなったと思ったのですが・・・。

708 ：名無し名誉名人教士：2016/06/30 18:33:15 (9年前) 0MONA/0人

>>702
掘ってみた感じ、初期Diffが0.32になっている模様。掘っているうちにどんどん上がっていく…
このDiff(プールDiff、初期値0.32)が、コイン自体のDifficulty(現在値0.02836006)より大きい場合って、本来掘り当てているブロックを無視している可能性がある？
そのあたりが悪さしてそうな気がするが…

709 ：リキプロマン六段：2016/06/30 21:35:20 (9年前) 0MONA/0人

>>708
全体の難易度よりもstratumで設定される難易度の方が高くなっているのですか。
SP版ccminerやtpruvot版ccminerでも確認できたので、ここのccminerに限った問題ではないことがわかりました。プール側の設定か、ccminer固有の問題かどちらかになりそうですね。

710 ：名前はまだ無い四段：2016/06/30 21:55:29 (9年前) 0.1MONA/1人

>>708
難易度1の定義などが関係してくるのですが、Lyra2REの場合はプールから割り当てられているdiffが
コイン自体のものより大きくなっていてもそれ自体は問題ではないです。

https://aikapool.com/cto/index.php?page=statistics&action=pool
ここを見た感じではプールの設定の問題なのか、コイン自体がLyra2REの標準の128ではないのか、
「Est. Shares this Round」を「Current Difficulty」で割った値が256に近くなっています。

-fオプションで2や0.5を指定するとどうでしょうか？

711 ：リキプロマン六段：2016/06/30 22:11:29 (9年前) 0.1MONA/1人

そうそう、nicehashではきちんとdiffが下がったりするのですが、同じようにハッシュレートの差が生じています。

あと向こうのスレでspさんも言っていたのですが、nicehashでのLyra2REのハッシュレートは1.5GH/s位ある割に、それに見合う仮想通貨が（今のところ）見あたりません。Cryptoのハッシュレートは非常に低いですし、一体どこのなんという仮想通貨でLyra2REが用いられているのでしょう・・・？

712 ：リキプロマン六段：2016/07/01 06:16:51 (9年前) 0MONA/0人

>>710
-f 2 を追加してaikapoolで掘るとプール表示は2MH/s→3.5MH/sに改善されましたが本来のハッシュレートにはまだ遠いですね・・・。
nicehashだとエラーでした。

713 ：名無し名誉名人教士：2016/07/01 08:46:43 (9年前) 0MONA/0人

GTX980 -f 256
i.imgur.com/DBn2ZUq

これで、こうなる…
i.imgur.com/nsCMavr

これ、完全にプールのバグでしょ…
事実上、報酬を独り占めできちゃうよ…

714 ：名無し名誉名人教士：2016/07/01 08:47:34 (9年前) 0.2MONA/2人

>>713 貼り付けミス

GTX980 -f 256

これで、こうなる…

これ、完全にプールのバグでしょ…
事実上、報酬を独り占めできちゃうよ…

715 ：リキプロマン六段：2016/07/01 10:33:01 (9年前) 0MONA/0人

>>714
こちらで追試し、確認できました。
これはひどい。ものすごい勢いでacceptedが増えていきますね・・・

716 ：名前はまだ無い四段：2016/07/01 12:30:33 (9年前) 0MONA/0人

>>711
誰が何のために買っているのか気になりますね。

>>712
diffが低すぎるとプールの負荷やRTTの影響を受けやすくなるのも関係していそうです。

>>714
これはInvalidがほとんど出ずにでしょうか？かなり変な状態ですね。

717 ：リキプロマン六段：2016/07/01 15:03:38 (9年前) 0MONA/0人

>>715
もちろんInvalidは大量に出ます。が、見かけのハッシュレートは非常に高くなります。

718 ：名無し名誉名人教士：2016/07/01 15:34:01 (9年前) 0MONA/0人

>>716
>>717
あれ？Invalid出る？
試してみたけど、出てないよ？

719 ：リキプロマン六段：2016/07/01 16:22:27 (9年前) 0MONA/0人

>>718

こちらではInvalid発生しました。環境？いやでもここのccminerだしなぁ・・・

720 ：名無し名誉名人教士：2016/07/01 16:52:25 (9年前) 0MONA/0人

>>719
理屈でいえば、Invalidが発生するとしたら、もっと多く出るはずですが…
-fオプションの値が256だとしたら、256ブロック中255ブロックがInvalidになるはず(InvalidがValidの255倍程度になる)。

721 ：名無し名誉名人教士：2016/07/04 16:19:49 (9年前) 0MONA/0人

今ある情報を基にGTX1060のハッシュレートを考察(Lyra2REv2)
GTX1060の構成は、1280コア、Boost 1700MHz(リーク情報？)
GTX1080は、2560コア、Boost 1733MHz、47.68MH/sなので、
47.68MH/s×(1700MHz÷1733MHz)×(1280コア/2560コア)＝23.39MH/s
このハッシュレートと価格の天秤はどちらに傾くのか？

GTX1080(47.68MH/s)が96984円(ドスパラの最安値)なので、
96984円×(23.39MH/s÷47.68MH/s)＝47577円
となり、税込47577円以下なら、GTX1060の方がお得

GTX1070(35.88MH/s)が57218円(ドスパラの最安値)なので、
57218円×(23.39MH/s÷35.88MH/s)＝37300円
となり、税込37300円以下なら、GTX1060の方がお得

税込37300円を切れるかどうかで、買うべきGPUが決まる…のかな？

722 ：リキプロマン六段：2016/07/04 18:27:52 (9年前) 0MONA/0人

>>721
GTX1060の想定ハッシュレートはGTX980のそれより若干低いことを考えると、今のGTX980の値段は45000円から50000円台なので、初物もそれくらいの値段になるかもしれません。
思ったより安くならなさそう・・・

723 ：名無し四段：2016/07/04 22:08:56 (9年前) 0MONA/0人

4.4TFlopsでTDP 120Wらしいから電気代の観点からは安いかも

724 ：名無し名誉名人教士：2016/07/05 08:48:47 (9年前) 0MONA/0人

今ある情報を基にGTX1060のワットパフォーマンスを考察(Lyra2REv2)
GTX1060は、TDP120W(リーク情報？)、23.39MH/s(推定)
GTX1080は、TDP180W、47.68MH/s
GTX1070は、TDP150W、35.88MH/sなので、

GTX1080 47.68MH/s÷180W×1000＝264.89kH/s･W
GTX1070 35.88MH/s÷150W×1000＝239.20kH/s･W
GTX1060 23.39MH/s÷120W×1000＝194.92kH/s･W

ランニングコストではGTX1080に軍配が上がるか…

725 ：名無し名誉名人教士：2016/07/05 11:07:34 (9年前) 4MONA/2人

Neoscryptの改良を試みているんだが…どうにもうまくいかない…
一部変数がローカルメモリに確保されているため、遅くなっていると思われる。しかも、アクセス頻度もかなり高い…
原因は2つ。1つは配列の添え字に変数を使用していること。レジスタは添え字付のアクセスはできないため、この場合はローカルメモリに確保される。
もう1つは、レジスタ数過多。部分的にuint8_t(またはuchar4配列)を使用する箇所があるが、これは1バイト変数だが、内部的にはレジスタを1つ消費するため、結果的に非常に多くのレジスタを使用してしまう。

うむむむむ………

726 ：名無し名誉名人教士：2016/07/05 14:21:40 (9年前) 0.1MONA/1人

Neoscryptのメモリ考察
Neoscryptはグローバルメモリの使用は避けて通れない。そのため、コア数の多いGPUはL2キャッシュヒット率が悪くなり、低速になってしまう。
逆にコア数の少ないGPUの場合、グローバルメモリへのアクセスを全てL2キャッシュに乗せることができる(かもしれない)
Neoscryptは1コアあたり130×256バイト＝33280バイト(32.5kバイト)使用する。一部をシェアードメモリやレジスタに移すことで32kバイトになったとする。
1Warpあたり32スレッドとして、1Warpが使用するメモリ数は32kバイト×32スレッド＝1024kバイト。GTX750でSM数が4のため、最低でも4×1024kバイト＝4Mバイトとなり、1Warpあたり、4MBのL2キャッシュが必要となる。(無理)
・スレッドを4分割する場合
1スレッド当たりのメモリ容量が4分の1となり、1Warpあたり1MBのL2キャッシュで運用が可能となる。GTX750はL2キャッシュが2MBのため、2Warpまでなら、L2キャッシュのみで運用可能。
以下、その他のGPU
GTX750Ti⇒5SM、L2 2MB⇒1Warpあたり1.25MB、1WarpまでならL2運用可能
GTX950⇒6SM、L2 1MB⇒1Warpあたり1.5MB、L2運用不可
GTX960⇒8SM、L2 1MB⇒1Warpあたり2MB、L2運用不可
GTX970⇒13SM、L2 1.75MB⇒1Warpあたり3.25MB、L2運用不可GTX980⇒16SM、L2 2MB⇒1Warpあたり4MB、L2運用不可

NeoscryptでGTX750Ti/750の復権を狙える！？
(GTX950以上にメモリアクセスで大きなアドバンテージを持っているため)

727 ：ittou四段教士：2016/07/05 20:26:56 (9年前) 0MONA/0人

やっとGPUをGETしました。
1.7.6-r8の中にバイナリが2個有ってどっち使っていいか分からないのですが、
EVGA 1080 FTWで49MH/s出てます。

今までCPUでしか掘ってなかったので、けた違いでびっくりです。

728 ：siv三段：2016/07/05 20:30:53 (9年前) 0.00114114MONA/1人

1080いいですねぇ
CPUとは世界が違いますよ

729 ：ittou四段教士：2016/07/05 20:36:26 (9年前) 0MONA/0人

FANが爆音になってきました。
ちょっとセーブしないとやばいかもです。
CLKが1924MHz,Memが4514MHz,Fanが62%,温度が78度。

730 ：siv三段：2016/07/05 21:07:51 (9年前) 0.00114114MONA/1人

-iを調整すると良いかもしれません

731 ：名無し三段：2016/07/06 00:34:52 (9年前) 0MONA/0人

GTX750で2.1MHsなんだけどこれを入れれば多少は早くなるのかしら。

732 ：名無し名誉名人教士：2016/07/06 05:30:07 (9年前) 0.1MONA/1人

>>731
>>143の時点でのハッシュレート(1.5.80-r7)

最近のものは、>>641で出ている(1.7.6-r6-fix)

733 ：名無し三段：2016/07/07 00:31:19 (9年前) 0MONA/0人

>>732
早速入れ替えてみたら2.8MHs近辺だったのが一気に5.2MHzまで上がってびっくりしたよ。
キャプチャ通り4800KH/sをうろついているからちょっと感動しちゃった。ありがとう。

734 ：名無し名誉名人教士：2016/07/07 16:41:01 (9年前) 0MONA/0人

SP版でNeoscryptが0.99MH/s(GTX980Ti)か…
とりあえず、そのあたりが目標かな？

735 ：名無し名誉名人教士：2016/07/08 14:31:43 (9年前) 3.9MONA/1人

Neoscryptのローカルメモリを排除ができた。
それと、グローバルメモリの使用量を少しだけ減らすことができた。
これにより速度が…速くはなったが、1.5.80の方がまだ速い…

736 ：リキプロマン六段：2016/07/09 09:58:34 (9年前) 0MONA/0人

tpruvotさんのccminerにおいて、neoscryptの改良があったみたいです。
参考になる部分ありますかね？

https://github.com/tpruvot/ccminer/commit/a4196b341d74b5abeba8239da8c7125ed4fe0f82
https://github.com/tpruvot/ccminer/commit/26a862c7f6fb4ed83a822e66c74ae7685e4d25ba

737 ：名無し名誉名人教士：2016/07/09 11:52:13 (9年前) 0MONA/0人

>>736
1.5.80を取り込んだみたいですね…
開発ベースを1.8(tpruvot氏)に移行した方がいいかしらね？
(現状はtpruvot氏の1.7.6ベース)

738 ：リキプロマン六段：2016/07/09 11:55:08 (9年前) 0MONA/0人

>>737
あ、そういうことだったんですね。
1.8はここ最近毎日更新されてて不安定なので、Pre-releaseが取れるまで待ったほうがいいかもしれません。

739 ：ittou四段教士：2016/07/09 18:40:08 (9年前) 0MONA/0人

>>730
とりあえず、49MH/sで落ち着きました。
同時にTVチューナーを起動するとそれくらいで、マイニングのみだと50MH/s
です。
全力で掘っているからか、通常のPC操作も引っ掛かりまくりでカクカクです。

これでも赤字なのかなぁ。

740 ：PEPSIMAN五段：2016/07/10 00:48:50 (9年前) 4.479014MONA/3人

GTX690 (Core1071MHz+Memory3004MHz OverClock) -i 17.3
Lyra2REv2 1.7.6-r8

時代遅れのGPUかもしれませんが、
GTX690のハッシュレート(Lyra2REv2)を貼っておきます。
OCで11MH/s前後は出ていますが、ワットパフォーマンスは悪そうですね。

一応ですが、最近MonaCoin掘削を始めた新参です。
改造版のｼｰｼｰﾏｲﾅｰを利用させて頂いております。開発感謝です。

741 ：PEPSIMAN五段：2016/07/10 00:52:17 (9年前) 0MONA/0人

OCのせいか、GPU温度は常時80℃越えなのが少し心配ですが、（ファンも70%越えで煩い。）
壊れても予備の低性能なGPUのがあるのでパソコンの駆動自体には問題ないのでまあ、いいかなと思いつつ・・・。

742 ：名無し名誉名人教士：2016/07/10 01:52:35 (9年前) 0MONA/0人

>>740
>>353で推定したハッシュレート通りだったってことかな？
動作確認、ありがとうございます。

743 ：ittou四段教士：2016/07/10 03:23:06 (9年前) 0.2349MONA/1人

1080FTWにて、-iを調整してみました。
24.4までは動きます。HDMONITORでのGPUメモリ使用率が44%くらい。
これ以上を設定すると動きません。

で、今はオプション無しでこんな感じです。EVGAのTOOLのデフォルト値です。
もっと上げたら上げたになるけど、温度がやばいのでこれくらいで。
i.imgur.com/pYQ67nu

画面はCPU内蔵を使おうかなぁ。カクカクを無くしたい。サウンドもHDMIで
AVセンターに出していて、FHDモニターとして認識されているので、その分
のロスも有るかもしれません。

744 ：ittou四段教士：2016/07/10 03:23:52 (9年前) 0MONA/0人

i.imgur.com/pYQ67nu

745 ：ittou四段教士：2016/07/10 03:24:19 (9年前) 0MONA/0人

746 ：リキプロマン六段：2016/07/10 08:18:36 (9年前) 0.00114114MONA/1人

お二人さんともGPUの温度が80度超えてらっしゃるので、もっとファンの回転数を上げて温度を下げた方がGPUに優しいと思います。温度が10度上がるごとに寿命半分になりますからね。
うるさくて常用に耐えないのであればせめて外出時だけ回転数上げるとか…

747 ：siv三段：2016/07/10 10:04:35 (9年前) 0MONA/0人

自分もふと確認したら75℃付近だった...orz
サーキュレーターで風送ったら結構改善されました

748 ：ittou四段教士：2016/07/10 18:32:32 (9年前) 0MONA/0人

>>746
実は2FANのうち1個がPCIデバイスで塞がれていて、このまま行けるか思案中
でした。やっぱり無理かなと取り外し、更に表示系はCPUに任せてみたところ。
何度も起動失敗して不安定なので、今度の週末にクリーンインストールかな。
レートは50MH以上をキープして、GPU温度も75度以下になりました。

749 ：リキプロマン六段：2016/07/11 11:01:57 (9年前) 0MONA/0人

1070でneoscrypt1MH/s超えだと・・・
どうやってメモリ関連の部分解決したんだ
https://github.com/tpruvot/ccminer/commit/4ca7b5a404e8acb8e863c8171beb256034f303c8

750 ：リキプロマン六段：2016/07/11 12:19:50 (9年前) 0MONA/0人

>>749
GTX980ではccminer1.5.80よりも速度が出ませんでした・・・
うーん？

751 ：名無し名誉名人教士：2016/07/11 18:36:39 (9年前) 0MONA/0人

>>750
やってみた限り、ほぼ同じ速度でした…
1070は何が変わったんだろう…？
GPUの構造からみると…(メモリまわりを中心に)
GTX1070 メモリ8GB、256GB/Sec、L2キャッシュ2MB、シェアードメモリ96kB、CUDAコア 1920、ブーストクロック1683MHz
GTX980 メモリ4GB、224GB/Sec、L2キャッシュ2MB、シェアードメモリ96kB、CUDAコア 2048、ブーストクロック1216MHz
ってことは…どう言うことだろう…
メモリが多いので、-i オプションを大きくしたのかな？

752 ：名無し名誉名人教士：2016/07/11 18:48:17 (9年前) 0MONA/0人

そしてneoscryptはGTX1080だとなぜか遅い件…

753 ：名無し名誉名人教士：2016/07/12 08:45:24 (9年前) 0MONA/0人

そういえば、GTX1080って、CUDAコア数とL2キャッシュのバランスが悪いね…L2キャッシュ3MBくらい必要だと思うよ…
neoscryptが遅いのはこれが原因かな？

754 ：じろー六段教士：2016/07/12 09:18:08 (9年前) 3.9MONA/1人

>>751
わたしの750Tiですと、djm34さんforkした1.5.78が一番速いです。(neoscrypt)
190～200K/sくらい。200K/sを超えることはほぼなかったです。

1.5.8、1.7.xのneoscryptは遅い印象しかなくて、使ってなかったので、どのくらい速度が出ているのかわからないのですが、今回の1.8は、CUDA8.0でコンパイルすると、djm34版と同じくらいの速度。
CUDA7.5でコンパイルすると、常に200K/sを超えているので、なんとなく速くなった印象を受けています。

何か参考になれば。。。

755 ：名無し名誉名人教士：2016/07/12 11:23:45 (9年前) 0MONA/0人

neoscryptについて、1.8のコードからさらに5%くらいの高速化は割と簡単にできそうだが…これだとただのチューニングのレベルなんだよね…
(ローカルメモリからシェアードメモリに変える、シフト演算を最適化、64ビット転送命令の排除、など)

当面の目標はGTX1080でまともに掘れるようにすること…かな？

756 ：名無し名誉名人教士：2016/07/12 11:35:36 (9年前) 4MONA/2人

・ローカルメモリからシェアードメモリ(またはレジスタ)に変える
ローカルメモリはグローバルメモリと同様、外部メモリにアクセスするため、非常に低速。これをシェアードメモリ(またはレジスタ)に変えることで、アクセスが高速になる
…はずなのだが、ローカルメモリが小容量(Maxwellでは24kB、Kepler以前では16kB)であれば、L1キャッシュにヒットするため、思ったほど低速にはならない…(むしろバンクコンフリクトが無く高速)
迂闊にやると逆効果なので慎重に…

・シフト演算を最適化
コードを見ると、シフト演算をまとめて行って、その後にXOR演算を行う…って順番だが、XORとシフトをまとめることで、演算を最適化する(シフトとXORは別パイプで実行)。

・64ビット転送命令の排除
64ビットレジスタを使ってメモリアクセスを行っている部分がある。内部では32ビットで実行されるため、64ビットアクセスの恩恵はほとんどない。
メモリアクセスだけならそれでもいいが、その値を再利用しようとすると、32ビットに変換プロセスが発生し、若干の速度低下につながるので、できれば32ビットで実行したい。(コードが長くなることのオーバーヘッドとどちらが大きいかな…？)

757 ：名無し名誉名人教士：2016/07/12 17:39:02 (9年前) 0.1MONA/1人

>>749
こんな記述があった。
if (strstr(device_name[dev_id], "GTX 10")) intensity = 20; // also need more than 2GB

おｋ把握、intensity (-iオプション)を大きくして速くしているわけか…

758 ：リキプロマン六段：2016/07/12 18:24:15 (9年前) 0MONA/0人

デフォルトのintensity上げてるだけだったんですね・・・

759 ：名無し名誉名人教士：2016/07/12 22:25:02 (9年前) 7.8MONA/2人

とりあえず、頑張ってみる。
変更履歴(1.7.6-r8⇒1.7.6-r9)
・tpruvot氏(1.8-dev)のneoscryptを取り込んだ
・neoscryptを若干高速化
・ソロマイニングにて、CoinVersion7に対応(クオークコイン)

高速化バージョン(1.7.6-r9)
https://1drv.ms/u/s!Aud1FauQ46vHhmZ5NYbLOB2bQlOt

ソースコード高速化バージョン(1.7.6-r9)
https://1drv.ms/u/s!Aud1FauQ46vHhmV5NYbLOB2bQlOt

760 ：PEPSIMAN五段：2016/07/13 01:06:11 (9年前) 0MONA/0人

>>746
お心づかい感謝です。
100%回しても急激に冷えるようでは無い感じです。

もともと消費電力が異様に高いGPUのOCですので、
個人的には水冷化等にお金をかけるぐらいならば、
GTX1080が安くなった頃にGTX1080に新調したい所ですね
980Tiとかの方が今年中に新調するとしたら早く値段さがりそうですけれども（特に中古は）、
消費電力は高そうと思いましたが。GTX690と比べれば、圧倒的に省電力ですけれどね。

761 ：名無し名誉名人教士：2016/07/13 12:59:49 (9年前) 0MONA/0人

>>760
イニシャルコストを考えるなら、GTX1070もいいかもね？

762 ：じろー六段教士：2016/07/13 17:00:21 (9年前) 0MONA/0人

>>759
リリースありがとうございます。少し速くなりました。
CentOSでコンパイルしているんですが、
CUDA7.5でコンパイルした場合と、CUDA6.5でコンパイルした場合で、
なんとなく6.5の方が高速な気がします。

7.5 ... 201KH/sくらい
6.5 ... 207KH/sくらい

なんでだろう？

763 ：リキプロマン六段：2016/07/14 09:24:38 (9年前) 3.9MONA/1人

お疲れ様です。リファレンス相当のGTX980でベンチマーク取りました。
比較としてdjm34さんのccminerもベンチしました。
ソースコード：https://github.com/djm34/ccminer-sp-neoscrypt
バイナリ：http://cryptomining-blog.com/6450-new-ccminer-fork-from-djm34-with-faster-neoscrypt/

r9(cuda8.0) 494kH/s 170W
r9(cuda7.5) 511kH/s 171W
r8(cuda8.0) 301kH/s 140W

r9(cuda8.0 -i 20) 603kH/s 185W
r9(cuda7.5 -i 20) 617kH/s 186W
r8(cuda8.0 -i 20) 360kH/s 150W

sp1.5.80(cuda7.5) 599kH/s 188W
djm34(cuda6.5) 638kH/s 194W

764 ：リキプロマン六段：2016/07/14 09:34:12 (9年前) 0MONA/0人

従来(r8)と比較して1.8倍程の高速化でした。
CUDAのバージョンが低いほどハッシュレートが向上するというのも確認できました。
cryptominingblogさんもcuda6.5の時が一番速いと記述しているので、この辺りは間違いないでしょう。
メモリコントローラーの負荷とハッシュレートの高さは相関関係にあるように見えるので、CUDAのバージョンが低いときはメモリアクセスがうまく行っているってことなのかな・・・？
うーん、ちょっとメモリアクセス周辺デバッグしないとこの辺りはわからないですね。

765 ：名無し名誉名人教士：2016/07/16 17:54:49 (9年前) 0MONA/0人

とりあえず、がんばってみた

もうちょっと調整してからうｐします。

766 ：名無し名誉名人教士：2016/07/16 18:03:28 (9年前) 4.98888888MONA/4人

本領はこっちかな？
改造前(1.7.6-r9)

改造後

767 ：siv三段：2016/07/16 18:10:24 (9年前) 0MONA/0人

またすごいのが出てきたな

768 ：名無し名誉名人教士：2016/07/16 18:11:33 (9年前) 0.1MONA/1人

ちなみにGTX750では、改造前の方が速かった…
うわーめんどくせー

769 ：なむやん七段教士：2016/07/16 18:19:43 (9年前) 0MONA/0人

破壊的

770 ：名無し名誉名人教士：2016/07/16 20:18:58 (9年前) 39.114114MONA/2人

そろそろゴールしたいけど…まだ完全じゃないんだよな…
変更履歴(1.7.6-r9⇒1.7.6-r10)
・neoscryptに三段打ちメソッドを導入(といいつつ、四段打ち構成になっている)。
・neoscryptの非同期動作(streamによる)を排除。それに伴い、メモリ使用量を半分にする。
・neoscryptのメモリ使用量をさらに削減(8192スレッド以上は無駄に増やさないように改良)
・neoscryptにおいて、-iオプションのデフォルト値を定義(Pascal、Maxwell限定)

高速化バージョン(1.7.6-r10)
https://1drv.ms/u/s!Aud1FauQ46vHhmd5NYbLOB2bQlOt

ソースコード高速化バージョン(1.7.6-r10)
https://1drv.ms/u/s!Aud1FauQ46vHhmh5NYbLOB2bQlOt

771 ：名無し名誉名人教士：2016/07/16 20:28:34 (9年前) 0.114114MONA/1人

>>770のメモリ使用量削減について

CUDAにおいて、スレッドを大量に起動したとしても、同時に演算できるスレッド数は限りがある。
この原理を利用して、メモリ使用量を削減しようというのが今回の試み。
メモリを大量に使用する部分(chacha,salsa)について、
・現状、スレッドを4分割にして実行している
・Warp数は32
このことから、同時に実行するスレッド数を以下のように計算する。(SM数を32と仮定する)
(32[スレッド/Warp]÷4[分割])×32[Warp/SM]×32[SM]＝8192[スレッド]
これより、スレッド数がどんなに多くても、メモリは8192スレッド分用意すればいいことになる。
なお、実際のメモリ使用量は8192[スレッド]×32[kB/スレッド]＝262144[kB]＝256[MB]となる。
(実際にはそのほかにもメモリを使用するため、もう少しだけ大きくなる)

772 ：名無し名誉名人教士：2016/07/17 05:40:42 (9年前) 0MONA/0人

>>771
ちなみに、SM数＝32っていうのは、Maxwellで4096コア相当で、ほとんどのGPUではそれを下回っているので、問題ないのではないかな…？TitanZみたいに2GPU構成とかでない限りは…

…あ、Tesla P100では、SM数が60(有効SM数は56)なんだけど、対応させる？
メモリ使用量上限が倍になっちゃうけど…

773 ：名無し名誉名人教士：2016/07/17 06:54:23 (9年前) 0MONA/0人

とりあえず、他のフォークとの比較
・BlockVersion3以上(7まで)ソロマイニングが可能(--coinbase-addrオプション、--no-getworkオプション)
・Lyra2REの高速化(Lyra2REv2の高速化は既に取り込まれている)
・neoscryptの高速化、メモリ使用量の削減

項目として挙げると、大したことないな…

774 ：名無し四段：2016/07/17 13:09:24 (9年前) 0MONA/0人

カーネル職人名無しさん

775 ：リキプロマン六段：2016/07/17 19:46:32 (9年前) 0MONA/0人

ハッシュレートの大幅な向上おめでとうございます。名無し名誉名人さんのフォークは特定のアルゴリズム特化型なので、他のと差別化されていてとてもいいなぁと思ってます。ゴールが近いようなのでこのまま頑張って下さいね！

で、取り急ぎリファレンス相当のGTX980でベンチマーク取りました。

r10(cuda8.0) 716kH/s 257W
r9(cuda7.5) 709kH/s 261W

消費電力が凄いことになっています。このグラボ自体はベンチマーク用設定のためTDPは青天井になるよう設定していますが、後ほどTDPを190Wに制限してのベンチマークと、デバッグした時のスクリーンショットを載せる予定です。

776 ：リキプロマン六段：2016/07/17 20:29:19 (9年前) 0.114114MONA/1人

>>775
r10(cuda8.0) 716kH/s 257W
r10(cuda7.5) 709kH/s 261W
でした。訂正します。
r9以前で見られた、CUDAのバージョンが低いほどハッシュレートが向上するというのは解消されました。
ハッシュレート向上の要因はデバッグしてもちょっとわかりませんでした。すべてのカーネルにおいて1%前後高速になっているのですが、要因までは見つけられず・・・。

TDPを190Wに制限した結果は以下の通りです。
r10(cuda8.0) 653kH/s 190W
r10(cuda7.5) 645kH/s 190W

djm34版よりも高速でしかも消費電力を低く抑えられています。stream動作削除とメモリ使用量削減が効果を上げていると思われます。定格動作でTDPを変更しない限りは効率よくマイニングできるのではないでしょうか。

777 ：リキプロマン六段：2016/07/17 20:37:16 (9年前) 0MONA/0人

>>776
r10のデバッグのスクリーンショットです。

start

salsa

chacha

ending
i.imgur.com/5NvB5is

startとendingの左下二番目はシェアードメモリに関する項目で、salsaとchachaはグローバルメモリに関するデータ転送の項目です。

778 ：リキプロマン六段：2016/07/17 20:52:35 (9年前) 0MONA/0人

>>777
ending

IPCはどのカーネルも他のフォークより高いです。
salsaとchachaのグローバルメモリによるストールはr8や他のフォークに比べて削減出来ているようです。ただ、やはりExecutionDependencyの割合が増えてしまっているので、命令をうまく実行されるよう並び替えできたら改善するかもしれません。
startとendingでバンクコンフリクトが発生しているため、その対処も必要になるかもしれません。全体に占める実行時間の割合が小さいので効果は薄いかもしれませんが・・・。

他になにか知りたいデバッグ情報等あればアップロードします。
それからneoscryptだとソースコードデバッグが出来そうです（lyra2v2ではやっぱり出来なかった）。これでボトルネックになっている行を特定できる・・・かも。

779 ：リキプロマン六段：2016/07/18 01:05:30 (9年前) 0.00114114MONA/1人

bitcointalkスレ更新しました。
https://bitcointalk.org/index.php?topic=1519266

そしたらcryptominingblogで紹介されました。速すぎるだろ・・・
http://cryptomining-blog.com/8117-windows-binary-of-the-ccminer-1-7-6-r10-fork-with-fixed-neoscrypt-performance-on-pascal/

bitcointalkでccminer1.8の最新版のソースだとGTX1070にて1000KH/s、125Wで実行できるから名無しバージョンのほうが遅いよ、という声があるみたいですね・・・。

780 ：名無し名誉名人教士：2016/07/18 04:11:27 (9年前) 0MONA/0人

>>779
GTX1080では速くなる
GTX1070では遅くなる
GTX980では速くなる
GTX750では遅くなる

…どういうこと？

781 ：リキプロマン六段：2016/07/18 09:29:57 (9年前) 0MONA/0人

>>780

980tiと970でも遅いようです。ccminer1.8の更新も一週間前で止まってますし、開発ベースを変えてみるのも手かもしれませんね。

782 ：ittou四段教士：2016/07/18 18:39:18 (9年前) 0MONA/0人

console上は52MH/sを下らないのですが、Asicpool上だと40MH/s前後になってしまいます。-fを2にすると一時的にはpool上もレートが上がって見えますが、booがかなり出て駄目っぽいです。
これで正常なのでしょうか。

783 ：名無し名誉名人教士：2016/07/18 18:53:05 (9年前) 0.00114114MONA/1人

>>782
ほかのマイナーでもなるんだよね…これ…

マイナー側は、実際に演算を行ったハッシュ数からハッシュレートを計算している。
対して、プール側は報告されたハッシュとその時のDifficultyからハッシュレートを推定している。

この違いにからくりがあるのかな…？

784 ：名無し名誉名人教士：2016/07/19 07:04:39 (9年前) 0MONA/0人

GTX1070を導入して、デバッグ環境を整えた
…つもりだったが、NSIGHTがうまく働かない？
メモリ周りのデバッグが全くできない…

785 ：名無し名誉名人教士：2016/07/19 07:10:11 (9年前) 0.1MONA/1人

とりあえず、GPUの動作確認

Lyra2REv2

うん、イニシャルコストの面ではやはりGTX1070の方がよさそうだ。
でも、ランニングコストの面ではGTX1080の方が優勢かな？

786 ：名無し名誉名人教士：2016/07/19 09:49:54 (9年前) 0MONA/0人

neoscryptで掘るなら、GTX1070(Tpruvot氏のccminer)がよさそうだね…
GTX1080ならLyra2REv2かな？

787 ：外神田ちょろり軒七段尊者：2016/07/19 22:28:02 (9年前) 1MONA/1人

帰宅途中でTSUKUMOでGTX1060の深夜販売やってました。
ドスパラやBuyMoreもやってたので見てきました。
3万切れば多少は心動いたのですが、、、
他のお客さんも同じこと言ってました。

788 ：電気代がペイ出来てるｗ五段：2016/07/19 22:35:16 (9年前) 0MONA/0人

いいな～そういうショップとは無縁の田舎に住んでる、私・・・あこがれるわ～

789 ：PEPSIMAN五段：2016/07/20 00:10:27 (9年前) 0MONA/0人

>>787
GTX1060が発売されたんですね。
60番台なので、ハイミドルスペックぐらいなんでしょうか。（GTX980Tiよりは性能は低い？）

GTX1080を購入して、Monaを掘削したい・・・

790 ：ittou四段教士：2016/07/20 06:03:07 (9年前) 0.00009298MONA/1人

1080のオリファンOCバージョンで、大体79000円くらいでした＞米尼。
送料けちればもう少し安かったかもですが。
国内は高杉ですな。

791 ：名無し名誉名人教士：2016/07/20 08:46:06 (9年前) 0MONA/0人

boostの表記が無いから一概には言えませんが、おそらくGTX1080のちょうど半分の性能ですかね？(コア数がちょうど半分)
Lyra2REv2では23MH/sくらい？

792 ：リキプロマン六段：2016/07/20 08:51:51 (9年前) 0MONA/0人

まさしく980以上970未満ってとこですね
でもワッパは1070よりよさそうだなぁ

793 ：siv三段：2016/07/20 11:27:34 (9年前) 0MONA/0人

んん???

794 ：リキプロマン六段：2016/07/20 16:11:56 (9年前) 0MONA/0人

>>792
逆だー！！
970以上980未満だ・・・
http://www.4gamer.net/games/251/G025177/20160718008/

795 ：リキプロマン六段：2016/07/20 16:24:46 (9年前) 1MONA/1人

techpowerupによると、コストパフォーマンスは(249ドルなら)全グラボ中最高みたいですね。日本国内はお察しですが・・・
https://www.techpowerup.com/reviews/NVIDIA/GeForce_GTX_1060/28.html

ワットパフォーマンスは上から三番目、つまり1080や1070よりはよくないみたいですね。
https://www.techpowerup.com/reviews/NVIDIA/GeForce_GTX_1060/27.html

796 ：PEPSIMAN五段：2016/07/20 23:49:56 (9年前) 0MONA/0人

>>790
個人輸入だとそのぐらいですか。
お金を貯めて買いたいですね。

797 ：リキプロマン六段：2016/07/21 00:19:29 (9年前) 0MONA/0人

tpruvotさんがここのソース取り入れてちょっと修正したみたいです。

https://github.com/tpruvot/ccminer/commit/6abee0659e988646411db659cebb518db6cff874
https://github.com/tpruvot/ccminer/commit/be8be03eb8ad9adcd6702693e507048772b6d6a6

パフォーマンス的にどうなったんでしょうね・・・

798 ：名無し名誉名人教士：2016/07/21 08:56:22 (9年前) 0MONA/0人

>>797
取り込まれたか～
1070とか980Tiとか、よかったんですかね？
Crypto Mining Blogさん、いつものフットワークの軽さでベンチマークお願いします！！

799 ：名無し名誉名人教士：2016/07/21 09:12:48 (9年前) 0MONA/0人

PC故障中で改造に着手できない…

800 ：リキプロマン六段：2016/07/21 09:59:19 (9年前) 0MONA/0人

ccminer1.8バイナリが上がっていたのでリファレンス相当GTX980でベンチマークしました。
ccminer1.8 (CUDA6.5 32bit)
Lyra2REv2 (-i 22) 26.56MH/s 196W
Neoscrypt (-i 22) 728.88KH/s 260W
Neoscrypt (-i 22 TDP190W) 657.15KH/s 190W

ccminer1.8 (CUDA7.5 32bit)
Lyra2REv2 (-i 22) 24.03MH/s 181W
Neoscrypt (-i 22) 706.52KH/s 260W
Neoscrypt (-i 22 TDP190W) 637.51KH/s 190W

ccminer1.8 (CUDA8.0 64bit)
Lyra2REv2 (-i 21) 23.53MH/s 185W
Neoscrypt (-i 22) 724.53KH/s 251W
Neoscrypt (-i 22 TDP190W) 657.55KH/s 190W

801 ：リキプロマン六段：2016/07/21 10:00:50 (9年前) 0MONA/0人

ccminer1.7.6-r10 (CUDA7.5 32bit)
Lyra2REv2 (-i 24) 25.97MH/s 195W
Neoscrypt (-i 20) 709.91kH/s 261W
Neoscrypt (-i 20 TDP190W) 645.31kH/s 190W

ccminer1.7.6-r10 (CUDA8.0 32bit)
Lyra2REv2 (-i 24) 26.31MH/s 184W
Neoscrypt (-i 20) 716.63kH/s 257W
Neoscrypt (-i 20 TDP190W) 653.79kH/s 190W

使用したバイナリは https://github.com/tpruvot/ccminer/releases のtpruvotさん本人のコンパイルしたものです。
まとめると、
・Lyra2REv2のハッシュレートが一番高いのはccminer1.8 (CUDA6.5 32bit)だが、ワッパを考慮するとccminer1.7.6-r10 (CUDA8.0 32bit)がよい。
・Neoscryptはccminer1.8 (CUDA6.5 32bit)がもっとも良さそう。
・Neoscryptの消費電力をガッツリ食う部分は変わっていないため、1070等で性能が1.8-devより上がっているかどうかは推測できない。

802 ：リキプロマン六段：2016/07/21 10:06:16 (9年前) 0MONA/0人

考察
・Lyra2REv2において、ccminer1.8 (CUDA8.0 64bit)は64bitのためintensityをこれ以上上げられなかった。32bitでコンパイルするとどうなるだろうか。
・ccminer1.8のLyra2REv2はccminer1.5.80-r10相当のため、ccminer1.7.6-r10をマージすると変化があるかもしれない。

cryptominingblogでも紹介されていますが、LBRYが今のトレンドなのでベンチマークもLBRYしか載ってないですね。
http://cryptomining-blog.com/8125-updated-ccminer-1-8-fork-by-tpruvot-with-lbry-support/

>>799
まぁ、1.8に関してはぼちぼち不具合報告とかもあるようなので、PCが直ってから着手しても遅くはないと思いますよ。
お大事にして下さいね。

803 ：リキプロマン六段：2016/07/21 21:33:25 (9年前) 0MONA/0人

これによるとNeoscryptに関してはlinuxで実行するとハッシュレートも上がって電力も下がるとのこと。
ホンマかいな・・・
https://bitcointalk.org/index.php?topic=770064.920

804 ：リキプロマン六段：2016/07/21 22:10:46 (9年前) 0MONA/0人

ubuntu 15.10 64bitでやってみました。

ccminer1.8 (CUDA8.0 64bit linux)
Lyra2REv2 (-i 21) 23.72MH/s 180W
Neoscrypt (-i 22) 730.53KH/s 263W
Neoscrypt (-i 22 TDP190W) 663.72KH/s 190W

うーんまぁハッシュレートは上がってるんだけど、劇的って程でもないですね・・・
32bitでコンパイルできるならlinuxでLyra2REv2もしくはNeoscrypt専用で掘ってもいいかもしれないです。

805 ：ittou四段教士：2016/07/22 05:38:25 (9年前) 0MONA/0人

linuxを仮想化してもう10年以上。ネイティブで今更動かすのも大変だなぁ。
Win10が酷いので、いっそホストLinuxに切り替えたほうが良いのかもしれない。

806 ：リキプロマン六段：2016/07/23 01:33:22 (9年前) 0MONA/0人

bitcointalkスレで「Neoscryptの最適化そこまでやらないから、不満あるならdjm34版かnanashi版使ってね」と作者が言っているみたいです。
まぁ新しいアルゴリズムにも対応しなきゃいけないし、多少はね・・・

807 ：ittou四段教士：2016/07/27 23:03:25 (9年前) 0MONA/0人

1080もう1枚欲しくなってきた・・・

808 ：くらうどまいなー七段：2016/07/29 10:46:51 (9年前) 0MONA/0人

なんかよくわかんないけどRAMディスクにデータを全部置いたら若干早くなった気がする・・・

809 ：名無し名誉名人教士：2016/07/31 09:36:59 (9年前) 3.9MONA/1人

PC破損＆リニューアル記念、改造版もリニューアル

変更履歴(1.7.6-r10⇒1.8-r1)
・開発ベースを1.8に移行
・Lyra2REv2のチューニングを実施。正直微妙です。
・Lyra2REv2の-iオプションの初期値にGTX1060を追加。
(1.7.6-r10以前において、GTX1060はGTX460/GTX560と同じ初期値になっていた)

まあ、1.8をソロマイニングに対応させたと思ってください。

高速化バージョン(1.8-r1)
https://1drv.ms/u/s!Aud1FauQ46vHhml5NYbLOB2bQlOt

ソースコード高速化バージョン(1.8-r1)
https://1drv.ms/u/s!Aud1FauQ46vHhmp5NYbLOB2bQlOt

810 ：名無し名誉名人教士：2016/07/31 09:41:40 (9年前) 0MONA/0人

ちなみに、このバージョンはCUDA Toolkit 8 RCのみです。
Kepler、Fermiの方は1.7.6-r10の方が速いと思われます。
(コンパイルが大変なのよね…)

811 ：電気代がペイ出来てるｗ五段：2016/07/31 10:50:35 (9年前) 0MONA/0人

>>809
[2016-07-31 10:47:21] JSON key 'data' not found
[2016-07-31 10:47:21] JSON invalid data (len 0 <> 128)
[2016-07-31 10:47:21] get_work failed, retry after 30 seconds
エラー
なんでしょ？

812 ：名無し名誉名人教士：2016/07/31 12:10:15 (9年前) 0MONA/0人

>>811
どのコインで起こっていますか？
私の環境(ソロマイニング @ Monacoin)では表示されませんでした

813 ：名無し名誉名人教士：2016/07/31 12:15:29 (9年前) 0MONA/0人

>>812 訂正
失礼、当方でも確認。
ちょっと確認します。(プールマイニングは大丈夫っぽい)

814 ：名無し名誉名人教士：2016/07/31 12:45:34 (9年前) 3.9MONA/1人

しょーもないミスをしていたようだ

変更履歴(1.8-r1⇒1.8-r2)
・ソロマイニングできないバグを修正

そして、なんか前バージョン(1.7.6-r10)の方が速いような…

高速化バージョン(1.8-r2)
https://1drv.ms/u/s!Aud1FauQ46vHhmt5NYbLOB2bQlOt

ソースコード高速化バージョン(1.8-r2)
https://1drv.ms/u/s!Aud1FauQ46vHhmx5NYbLOB2bQlOt

815 ：電気代がペイ出来てるｗ五段：2016/07/31 13:41:41 (9年前) 0MONA/0人

GTX970×3　－i 22.5
※安定して速度上がった気がします

1.7.6-r10

1.8-r2

816 ：名無し名誉名人教士：2016/07/31 15:48:53 (9年前) 0MONA/0人

ちょっとバリエーションを増やしてみた

変更履歴(1.8-r2⇒1.8-r2-fix)
・CUDA Toolkit 6.5,7.5,8.0RCでコンパイルしなおした

高速化バージョン(1.8-r2-fix)
https://1drv.ms/u/s!Aud1FauQ46vHhm15NYbLOB2bQlOt

817 ：なむやん七段教士：2016/07/31 17:29:06 (9年前) 0MONA/0人

CUDA Toolkit 6.5,7.5,8.0RC
バージョンによって一体何が変わっているのだろうか？新製品対応confを追加しただけなら速度は変わらないはずだし

818 ：名無し名誉名人教士：2016/07/31 17:39:39 (9年前) 0MONA/0人

>>817
コンパイラの最適化具合とか？
>>375のように、Kepler以前だと8.0RCでは遅くなる…らしい

819 ：名無し名誉名人教士：2016/07/31 17:48:01 (9年前) 0MONA/0人

>>816 追記
ちなみに、7.5、8.0RCはCompute5.0以降にのみ対応
Kepler、Fermiの方は、6.5を使用するか、>>814を使用してください。
(でも、1.7.6-r10の方が速いんじゃないかな？)

820 ：名無し名誉名人教士：2016/07/31 17:50:59 (9年前) 0MONA/0人

バックナンバーを探すのが面倒な人は、こちらをどうぞ
https://1drv.ms/f/s!Aud1FauQ46vHhjl5NYbLOB2bQlOt

821 ：名無し二段：2016/07/31 18:29:25 (9年前) 0MONA/0人

1.8系導入するとプールとターミナル上でのレートがかなり違うのですが
ウチだけでしょうか。980だと28M位ですがプールだと20M位です。(Monaのマイニングです)
ちなみに名人さんの1.8r2でもtpruvotバージョンでも同じでした。

822 ：名無し名誉名人教士：2016/07/31 22:03:37 (9年前) 0MONA/0人

>>821
･マイナー側のハッシュレート計算
-iオプションにより、1回あたりのスレッド数が決定される。
-i 21で、2^21＝2097152スレッド起動します。
このスレッドが0.07秒で完了したとすると…
2097152÷0.07≒29959314≒29.96MH/sとなる。

・プール側のハッシュレート計算(vippoolで実験し計算方法を推測)
1秒間に1.6回hashが報告されたとする。(1.6 Share/s)
報告されたhashの難易度(Diff)が8だったとすると…
1.6[Share/s]×8(Diff)×2^21(実験値より推定)＝26843545.6≒26.84MH/sとなる。
(実際にどのような計算をしているかはソースを見ないとわからんが…)

このように、マイナー側とプール側でハッシュレートの計算方法が違うから、差が生まれるんじゃないかな？

823 ：暴れ名無し二段：2016/08/01 12:05:10 (9年前) 0MONA/0人

>>816 GTX760だけど
[2016-08-01 11:59:43] GPU #1: result for 02bc7d26 does not validate on CPU!
って出て掘れません

824 ：名無し名誉名人教士：2016/08/01 13:08:20 (9年前) 0MONA/0人

>>823
GTX760はKeplerですので、>>816の6.5、または>>814を使用してください。

>>816は実験的なビルドですので、不都合があれば>>814の方を使用してください。

825 ：暴れ名無し二段：2016/08/01 13:29:36 (9年前) 0MONA/0人

>>824
記載不足でした
6.5使用でのエラーです

826 ：名無し名誉名人教士：2016/08/01 13:56:25 (9年前) 0MONA/0人

>>825
おっと、6.5でのエラーですか…
基本的には>>814と変えていないのですが…

>>814でエラーは出ますか？

827 ：まま二段：2016/08/01 15:23:05 (9年前) 0MONA/0人

Linuxですが、
ccminer.cppを修正する必要がありました。
#include "cpuminer-config.h"
↓
#include "ccminer-config.h"

828 ：暴れ名無し二段：2016/08/01 20:39:59 (9年前) 0MONA/0人

>>826
>>814ではエラー出ませんね

829 ：リキプロマン六段：2016/08/01 22:55:23 (9年前) 0MONA/0人

ccminer1.8-r2-fixをリファレンス相当のGTX980でベンチマークとりました。
CUDA6.5のバイナリでは以下のエラーでマイニングが正常に行なえませんでした。ComputeCapabilityの差によるバグではなさそうですね。
GPU #0: result for 07302ff0 does not validate on CPU!

ccminer1.8-r2-fix (CUDA7.5 32bit)
Lyra2REv2 (-i 24) 25.31MH/s 180W

ccminer1.8-r2-fix (CUDA8.0 32bit)
Lyra2REv2 (-i 24) 26.23MH/s 193W

ccminer1.7.6-r10 (CUDA7.5 32bit)
Lyra2REv2 (-i 24) 25.97MH/s 195W

ccminer1.7.6-r10 (CUDA8.0 32bit)
Lyra2REv2 (-i 24) 26.31MH/s 184W

830 ：リキプロマン六段：2016/08/01 23:04:04 (9年前) 0MONA/0人

やはりr10と比較して若干速度が落ちていますね・・・うーむ

話は変わりますが、ついにNicehashにてLyra2REのGPUマイニングが対応となりました。
これによってNicehashのユーザーがLyra2REv2以外のアルゴリズムも使い出すようになって、Lyra2REv2が掘りやすくなると良いのですが・・・

831 ：ittou四段教士：2016/08/01 23:31:25 (9年前) 0MONA/0人

ところで、ラズパイでビルド出来るでしょうか。
試してみようかな、お盆中にでも。

電気が安いと話題の北陸電力お膝元に帰省するので、そこにラズパイ置いてこようかと。

832 ：リキプロマン六段：2016/08/01 23:44:31 (9年前) 0MONA/0人

やばい。
Nicehashminer使ってLyra2REを掘ると消費電力の割にガンガンBTC稼げる…
電力効率としてはアップデート前の2倍くらいか。
Nicehashの利用者らがアップデート終えるまでフィーバー出来そうだ！
これも名誉名人さんのおかげです｡ﾟ(ﾟ´Д｀ﾟ)ﾟ｡

833 ：名無し名誉名人教士：2016/08/02 07:13:04 (9年前) 0MONA/0人

やっぱり、CUDA7.5/8RCの構成でうｐするのがいいかな？

変更履歴(1.8-r2-fix⇒1.8-r2-fix2)
・CUDA Toolkitの構成を1.7.6ベースと同じ（7.5,8RC）にした。
(CUDA 8RCについては>>814と同じです)

高速化バージョン(1.8-r2-fix2)
https://1drv.ms/u/s!Aud1FauQ46vHhm55NYbLOB2bQlOt

834 ：名無し名誉名人教士：2016/08/02 08:43:27 (9年前) 0.00114114MONA/1人

うーん、やはり1.7.6-r10の方が速いんだよな…

>>831
ラズパイはCUDAが使えないから無理ですよ～
やるならcpuminerを使用してください。

835 ：名無し名誉名人教士：2016/08/02 09:31:32 (9年前) 0MONA/0人

>>832
Lyra2REがいいんじゃなくて、CTOが上がっているからじゃないかな？
(7月19日と比べて価格が4倍になっている)

836 ：名無し名誉名人教士：2016/08/02 09:36:41 (9年前) 0MONA/0人

>>832
もしLyra2REでCTOを掘るなら、ソロマイニングをお勧めします。
プール掘りだとハッシュレート簒奪の恐れがあるからね…(プール側は対策しないのかな～？ヒント：-fオプション)

837 ：リキプロマン六段：2016/08/02 10:06:43 (9年前) 0.10114114MONA/2人

>>836
それなんですが、半日掘ってみた結果nicehashプールとPC側でハッシュレートの差があまり見られないんですよね。
nicehash版のccminer-nanashiは、1.7.6-r6をベースに小改良しているようです。
https://github.com/nicehash/ccminer-nanashi/commits/master

838 ：ittou四段教士：2016/08/02 17:16:23 (9年前) 0MONA/0人

>>834
あーうっかりしてました。そうですね＞CUDA。

>>837
nicehash試しに昨日からやってみてますが、確かにレートの差が殆ど無いですね。asicpoolだとコンソール52MH、POOL38MHとかになります。たまに40MH超えたりしますが。

839 ：人として行動がぶれている五段錬士：2016/08/09 07:37:07 (9年前) 1.14114MONA/1人

--ecoオプション有りと無しの比較的な
マイナー 1.7.6-r10　GPU GTX950
--ecoオプション無し

--ecoオプション有り

840 ：名無し名誉名人教士：2016/08/09 08:47:20 (9年前) 0MONA/0人

>>839
エコモードはちゃんと働いているな
でも、Lyra2REv2だけなんだよね…これを実装しているのは…

841 ：名無し名誉名人教士：2016/08/10 19:53:34 (9年前) 0.1MONA/1人

GTX1060を入手したので、ためしてみた

1.7.6-r10 (CUDA8 -i 21)

1.8-r2-fix2 (CUDA8 -i 21)

…えっ！こんなに違うの！？

842 ：リキプロマン六段：2016/08/11 00:16:45 (9年前) 0MONA/0人

何がパフォーマンスに影響しているのでしょうか・・・
1.8-r1からのチューニングとかですかね

843 ：ittou四段教士：2016/08/11 03:52:07 (9年前) 0MONA/0人

nicehashで遊んでいましたが、やっぱりこっちに戻そうとバッチファイルを起動したところ、動かなくなってしまいました。Asicpoolのせい？
Stratum authentication failed
submit_upstream_work stratum_send_line failed

844 ：くらうどまいなー七段：2016/08/11 09:51:25 (9年前) 0.00114114MONA/1人

POOLが落ちてるPOI?

845 ：電気代がペイ出来てるｗ五段：2016/08/11 10:01:37 (9年前) 0.00114114MONA/1人

昨日から落ちてます＞＜

846 ：ittou四段教士：2016/08/11 15:05:24 (9年前) 0MONA/0人

asicpool復活した模様

847 ：ittou四段教士：2016/08/19 14:47:31 (9年前) 0MONA/0人

1台、マイニング専用のPCを組むことにしました。
OSで思案中です。
Winも色々ライセンス持っているのですが、Linuxにしようかと。
UbuntuとかDebianで問題無いでしょうか。
1080x2で行こうかと。

848 ：なむやん七段教士：2016/08/19 15:33:43 (9年前) 0.00114114MONA/1人

みんな金あるなぁ
1080２枚とか.....
20万＋電気代か、何年でペイできるのかな
それとも750Ti使い(自分)みたいに電気代を考えてないとか

849 ：名無し名誉名人教士：2016/08/19 15:42:49 (9年前) 0.00114114MONA/1人

>>848
ある程度掘ったら、GPUが陳腐化する前に売却すべし
20万のうち12万以上ペイしたら、あとは頃合いを見計らって1枚4万くらいで売れれば…

850 ：なむやん七段教士：2016/08/19 17:07:15 (9年前) 0MONA/0人

GTX750Ti売るかな
手放したくないけれど......当然価値が下がる....

851 ：ittou四段教士：2016/08/19 17:53:54 (9年前) 0MONA/0人

>>848
米尼なので、OCモデルでも1枚8万はしないです。
元々VGA無しで1枚は欲しいと思っていたところなので、1枚はペイを
考えてないです。4Kモニターを導入する予定ですし。
オークションもやったことないので、友人に格安で譲るとかくらいかなぁ。

852 ：ittou四段教士：2016/08/25 18:57:30 (9年前) 0MONA/0人

今日、PC一式揃うので情報収集中。
・CUDAは8を使う。
・Debianにしたいけど、色々手間かかりそうなのでUbuntuにする。
・マイニングだけならHDD要らない。

こんなところでしょうか。
Ubuntuは余計なものが色々入りそうで嫌なんだよなぁ。

853 ：PEPSIMAN五段：2016/08/25 19:30:38 (9年前) 0.00114114MONA/1人

>>852
マイニングだけというのがウォレット等も含むかもしれませんが、
SSD256GBでMonaとZenyのウォレット入れていますが余裕です。
BitCoinは容量がデカいと聞くがおそらく256GBのSSDにOSと各種ドライバを入れるだけなら大丈夫かと思われます。
HDDを載せないという事はSSDかと思いましたが、もしかしてSDカードかもしれませんが。

Linuxはあまり詳しくないのですが、
UbuntuよりはLubuntuの方が軽量でUbunthのデスクトップ環境をLXDEに変更し、一部軽量化しただけなので互換性の観点では問題無いかと思われます。付属ソフトが多いのが不満であればUbuntu派生のOSを選ぶと良いのではないかと思われます。互換性はそれぞれ違いますが。基本的には問題無いかと思いますが、細かい所はあまり詳しくないのでわかりません。

参考に、
「Linuxのディストリビューションで特に軽量なものの紹介」
http://matome.naver.jp/odai/2140929233370560201

854 ：ittou四段教士：2016/08/25 20:35:05 (9年前) 0MONA/0人

>>853
このトピックを1から読み直してました。

SSD128GBが余っているので、1080x2で今、組み立てているところです。
GPUと電源以外はけちっているので、マイニング専用機ですね。
普段使いはDebianなので、Ubuntuも使えるかなーとは思っていますが、
使ったこと無いので、今から試してみます。Lubuntuからかな。
HDDも沢山余っているのでHDDを積んでも良いのですが、電気代的に
無駄かなと。

そもそもビルドできるかもやってみないとわからずです。リキプロさん
みたいにソース読むことは出来ないから敷居は高そう。

私はHDLしか読み書きできない・・・

855 ：電気代がペイ出来てるｗ五段：2016/08/25 20:40:16 (9年前) 0MONA/0人

BitCoin容量は今現在で87ＧＢでした

856 ：PEPSIMAN五段：2016/08/25 22:41:19 (9年前) 0MONA/0人

>>855
512GBのHDDには入るけど
自分のソフトやデータが色々入った256GBのSSDじゃ収まらない（汗）
MonaとかZenyは余裕だったけれど、
やはり元祖暗号通貨はブロック数がやばいのか。

857 ：リキプロマン六段：2016/08/26 17:42:51 (9年前) 0.00114114MONA/1人

64GBのSSDにlubuntu入れてる私が通りますよ
lubuntuはubuntuよりデフォルトで入ってるアプリケーションが少ないので、128GBのSSDならbitcoinウォレットもいけるんじゃないですかね
ccminer1.8もcuda8.0対応してるんで、まずはそれのコンパイルから始めるといいかもしれません。

858 ：なむやん七段教士：2016/08/26 18:23:32 (9年前) 0MONA/0人

自分は東芝製の128GBのSSDだな
死蔵してたのが活躍中

859 ：ittou四段教士：2016/08/26 21:58:58 (9年前) 0MONA/0人

>>857
出来ればDebianで行けると最小構成で楽だし、potatoの頃からずっと使っているから慣れているしで良いのですが、もはや根性も無くなってトラブル解決能力が落ちているので仕方なくUbuntu。Lubuntuで行ってみます。SSDは放置されていたクルーシャルのM4。

昨日から組はじめ、電源、MB、各ケーブルまで挿して、CPUを乗せたところで、さて普通のグリースで良いのか？と自問自答中。メインの3770kは最近殻割して冷え冷えなので、OCする気もないけどCerelonも冷えるかなぁとか誘惑が。

860 ：ittou四段教士：2016/08/28 17:11:05 (9年前) 0MONA/0人

CUDAのインストールに失敗する。
コンパイラのバージョンが合わないのかも。
Lubuntuの古いのを入れなおすかなぁ・・・

861 ：ittou四段教士：2016/08/28 21:56:26 (9年前) 0MONA/0人

Lununtu 16.04.1 4.4.0-34-generic
cuda_8.0.27_linux.run
ドライバのインストールが何度やっても通らない。
sudo /etc/init.d/lightdm stop
とか
blacklist-nouveau.conf,nouveau-kms.confを作成し、
sudo update-initramfs -u
やっても、Unable to load the kernel module 'nvidia.ko'.が出て止まる。

敷居高い・・・

862 ：ittou四段教士：2016/08/28 23:29:27 (9年前) 0MONA/0人

コンパイラ2バージョン使って構築しないといけないことが分かり、
とりあえずCUDAインストール出来た・・・疲れたなり。

863 ：ittou四段教士：2016/08/30 01:04:29 (9年前) 0MONA/0人

>>857
ビルドはいけたようなのですが、こんな感じで進みません。ハッシュは出ているので、まるで見当違いなことをしている訳ではないと思うのですが。
[2016-08-30 00:54:28] GPU #1: GeForce GTX 1080, 52.38 MH/s
[2016-08-30 00:54:28] GPU #0: GeForce GTX 1080, 52.30 MH/s
[2016-08-30 00:54:36] GPU #1: result for 956258eb does not validate on CPU!
[2016-08-30 00:54:39] GPU #0: result for 1f480365 does not validate on CPU!

2枚挿すと、起動に失敗することがあるので、マザー交換かなぁ。電源は
EVGAのPLUTINUM1000Wを購入しました。足りないことは無いと思っています。

キーボード、マウス、モニタをとっかえひっかえしてて、疲れてきました。
どこから切り分けしていけば良いでしょうか？

864 ：電気代がペイ出来てるｗ五段：2016/08/30 01:14:51 (9年前) 0.00114114MONA/1人

does not validate on CPU!
って　-i を下げてあげると治ったようなwinの話ですが
嘘言ってたらごめんなさい

865 ：ittou四段教士：2016/08/30 01:24:59 (9年前) 0MONA/0人

>>864
iを20、18と試していますが、今のところダメみたいです。
もっと下げてみます。

866 ：ittou四段教士：2016/08/30 02:01:49 (9年前) 0MONA/0人

iを12位まで減らすと、validateは出なくなりますが、掘れる訳でも無さそうです。
*** ccminer 1.8 for nVidia GPUs by tpruvot@github ***
Built with the nVidia CUDA Toolkit 8.0
Originally based on Christian Buchner and Christian H. project
Include some of the work of djm34, sp, tsiv and klausT.
[2016-08-30 01:57:05] Intensity set to 12, 4096 cuda threads
[2016-08-30 01:57:05] Starting on stratum+tcp://stratum.asicpool.info:2105
[2016-08-30 01:57:05] 2 miner threads started, using 'lyra2v2' algorithm.
[2016-08-30 01:57:07] Stratum difficulty set to 5000
[2016-08-30 01:57:08] GPU #0: GeForce GTX 1080, 5229.81 kH/s
[2016-08-30 01:57:08] GPU #1: GeForce GTX 1080, 4991.32 kH/s
[2016-08-30 01:57:38] GPU #1: GeForce GTX 1080, 10.15 MH/s
[2016-08-30 01:57:39] GPU #0: GeForce GTX 1080, 10.20 MH/s
[2016-08-30 01:59:01] stratum.asicpool.info:2105 lyra2v2 block 758877
[2016-08-30 01:59:51] stratum.asicpool.info:2105 lyra2v2 block 758878

867 ：電気代がペイ出来てるｗ五段：2016/08/30 02:14:04 (9年前) 0.00114114MONA/1人

stratum.asicpool.info:2105>2103がいいと思います
2105はＡＳＩＣ用だったと思うので重い

868 ：ittou四段教士：2016/08/30 02:23:03 (9年前) 0MONA/0人

>>867
低いポートに行くとvalidate出まくるので、どんどん上を目指してました。
単に重いからエラーが出ないだけ？

iを下げるだけでは駄目そうなので、他のバージョンをビルドしてみます。
今は1.8-r1とr2を試しました。

869 ：くらうどまいなー七段：2016/08/30 04:22:23 (9年前) 1.00114114MONA/1人

最新のドライバだとdoes not validate on CPU!が出るっぽい？

ドライバをロールバックしたら直ったからひとつか二つ前のドライバ使ってみるといいかも！

870 ：ittou四段教士：2016/08/30 12:29:17 (9年前) 0MONA/0人

>>869
ありがとうございます。確かに最新の370を使っています。
帰ったら戻してみます。

871 ：ittou四段教士：2016/08/30 19:58:29 (9年前) 0MONA/0人

ドライバのバージョンを下げたら、何だか全く動かなくなり。
modprobe: ERROR: could not insert 'nvidia_uvm': No such device

OSクリーンインストールします・・・3回目(;_;)

872 ：外神田ちょろり軒七段尊者：2016/08/30 21:49:28 (9年前) 0.00114114MONA/1人

>>871

Ubuntu 16.04 LTS
CUDA 8.0.27
Nvidia Driver Version: 367.27

で GTX1070 稼働してます。

873 ：ittou四段教士：2016/08/31 00:44:47 (9年前) 0MONA/0人

とりあえずGPU1枚で動きました・・・疲れたけど勉強になりました。
手順整理して記録しておきたいけど、今日はもう寝ます・・・

874 ：なむやん七段教士：2016/08/31 00:51:54 (9年前) 0.00114114MONA/1人

お疲れさまです
機械が動かないと面倒ですよね
こっちは3枚させるのに2枚しか動かないです

875 ：ittou四段教士：2016/08/31 01:05:16 (9年前) 0MONA/0人

うちも何だかGPU2枚挿すと起動失敗することがあるので、先は長そうです。
SLI対応のMBじゃないとテストもしてないかもです。
今はこれ。
http://www.asrock.com/mb/intel/h110m combo-g/
http://shop.tsukumo.co.jp/special/160204k/
PCIeの樹脂コネクタがちょっと浮き上がって焦りました。ケースも4kしない
安物なので、ねじが馬鹿になったりクリアランス不足だったり色々大変。
電源はEVGAの1000W、10年保証とか太っ腹すぐる。

876 ：PEPSIMAN五段：2016/08/31 11:24:16 (9年前) 0.00114114MONA/1人

>>875
色々と大変ですね。
コネクタが浮き上がるような粗悪なマザーボードがあるとは驚きです。
自分はGIGABYTEやMSIやASUSのマザーが良さそうだと思っています。
昔のASROCKのマザーボードは何かと不調だったので（今は改善されたか？）
今はMSIにHaswell-EのCPUを使っています。
GTX1060が3枚ほどほしい・・・

877 ：ittou四段教士：2016/08/31 21:57:33 (9年前) 0MONA/0人

PCIe-1との2枚挿しにしても起動しないので、MBのPCIe給電が怪しいと想像。
認識しないとかじゃ無く2枚挿すとうんともすんとも言わないのはあやすい。

時間効率を鑑み、SLI対応のMBを買いなおすことにしますた。SLIで2枚NGは
無いだろうと。もしくは電源だけど、いずれにしても切り分けするにはパーツ
が複数ないと無理なので、MBぽちる。

878 ：PEPSIMAN五段：2016/09/02 21:06:26 (9年前) 0.00114114MONA/1人

>>877
電源容量は650W以上ありますか？

879 ：ittou四段教士：2016/09/02 23:35:44 (9年前) 0MONA/0人

一段落しました・・・というか、MB交換で普通に動いたのでPCIeからの給電
に問題があるボードだったと思われます。
とりあえず素でsshからccminerを実行して96MH/s出ています。

>>878
電源も1080と一緒に輸入して、これ使っています。最初は私も電源を疑った
のですが、1000Wの半分しか出てなくてもBOOTしないのは何か違うと感じま
した。
https://www.amazon.com/gp/product/B018JYHGQE/

880 ：PEPSIMAN五段：2016/09/02 23:42:44 (9年前) 0.00114114MONA/1人

>>879
80PLUSチタン、1次2次日本製コンデンサー、EVGAの保証、いい電源ですね。自分は米泥でSeaSonicの1200Wでも買おうかな・・・。

TDP140WのCorei7-5820kと300WのGTX690でGPUだけをフル稼働させる自分の環境では650Wの電源で足りています。
1000Wもあれば電力面では最近のボードなら2枚差しでも余裕なのは確かでしょう。

MB交換で動いてなによりです。やはり今もASROCKのマザーボードは当たり外れがありそうですね。

881 ：ittou四段教士：2016/09/03 01:02:24 (9年前) 0MONA/0人

>>880
またAsrockにしたんですけどね・・・
Z170Extreme4です。
メインがZ77Extreme4で、ど安定なので。
SLI対応ってだけで前のMBが7000円が17000円に。
Asrockを選ぶ理由がFANコネクタが多いことかなぁ。

電源は今回奮発したんですが、Titaniumだと電気代がかなり変わりそう
なので、頑張りました。

安定して100MH出るくらいまで調整したいなぁ。

882 ：くらうどまいなー七段：2016/09/03 08:43:25 (9年前) 0.28974MONA/3人

私はサブ機と部品の入れ替えをしたらピン折れで全部入れ替えだよ・・・

とほほ

883 ：電気代がペイ出来てるｗ五段：2016/09/05 11:52:34 (9年前) 0MONA/0人

NeoScryptの消費電力抑えるのをお願いしたいです＾＾

884 ：電気代がペイ出来てるｗ五段：2016/09/05 11:53:50 (9年前) 0MONA/0人

現在970×３で　700Ｗ

885 ：名無し名誉名人教士：2016/09/05 20:39:36 (9年前) 0MONA/0人

>>883
Lyra2REと同じ考え方をすると…
SMあたり4Warp動かすことで、すべてのコアを使用する。
GTX9xxにおいて、Lyra2REは2Warpで運用している。(シェアードメモリが1536バイト/スレッド×32スレッド/Warp＝48kB/Warpとなるため)
そのため、Lyra2REで掘る場合、消費電力がおよそ半分になる。

NeoScryptの場合、1スレッドあたり8192バイト(3段打ちメソッド適用時)のため、1Warpあたり256kBのメモリを使用する。
2Warp構成とする場合、8192バイト中1536バイト(約19％)をシェアードメモリで確保すればいい。
…手間がかかるうえに、速度はどうなるかな…？

886 ：電気代がペイ出来てるｗ五段：2016/09/05 20:51:13 (9年前) 0MONA/0人

大変そうですね！NeoScrypはあきらめる方向がいいかもしれないです。

887 ：名無し名誉名人教士：2016/09/06 04:17:59 (9年前) 0MONA/0人

電力効率の面で見た改造案(Maxwell,Pascal)

Lyra2REv2はすべてをシェアードメモリで確保しても、8Warp(GTX750/750Tiは5Warp)確保しているため、これ以上は電力効率を上げられない。

Lyra2REは…
GTX10xx,GTX9xxではすべてをシェアードメモリで確保し、2Warpで運用。
シェアードメモリのみを使用しているため、電力効率は高く保っているが、コアの半分が休眠状態のため、消費電力が半分になっている。
GTX750/750Tiでは、すべてL2キャッシュに収まるようにWarp数を調整している。(GTX750は10Warp、GTX750Tiは8Warp)
8Warp以上使用しているため、消費電力はフルでかかっている。
シェアードメモリフル活用の場合(2Warp構成)、3分の2をシェアードメモリ、残りをL2キャッシュという組み合わせになる。速くはならないが、電力効率は良くなるはず…(推測)

888 ：暴れ名無し二段：2016/09/07 18:03:33 (9年前) 0MONA/0人

GTX1060使ってる方でメモリクロック上がらない方いますか？
ゲームの時はちゃんと8000Mhz相当まで上がるんですがccminerだと7600Mhz相当までしか上がらないんですよね。ハッシュレート自体そんな変わらないので実害はないんですが気になって。

889 ：名無し名誉名人教士：2016/09/07 18:18:19 (9年前) 0MONA/0人

>>888
逆にGTX1080ではスペック以上になってたな…(若干だけど)

890 ：名無し四段：2016/09/07 19:45:49 (9年前) 0MONA/0人

GTX1050が来月登場みたいね。
PascalベースのGTX950程度の性能と
75Wでスロット給電で済むお手軽さ

891 ：ittou四段教士：2016/09/07 22:44:49 (9年前) 0MONA/0人

>>888
1080ですが、上限までは上がらないですね。
必要ないから上がらないのかぁと思っているけど。
今、Windowsじゃないので分からないけど5000MHzも出てなかったような。

892 ：たれぞうだで初段：2016/09/13 22:13:01 (9年前) 0MONA/0人

最近マイニング始めたばかりですが…
arch + GTX1070 * 2で採掘してみました

893 ：なむやん七段教士：2016/09/13 22:25:15 (9年前) 0.00114114MONA/1人

ようこそ....
地下世界(採掘)hへ...

894 ：たれぞうだで初段：2016/09/13 22:37:50 (9年前) 0MONA/0人

ふぇぇ…

895 ：名無し二段：2016/09/15 19:21:03 (9年前) 0MONA/0人

ZOTACのGTX1060 3GBを入れたので試してみたのですが1.8r2じゃないと
does not validate on cpu エラーが出ますね。
1.76r10や1.8r2fix2でもドライバの応答停止なんかも出たりしました。
ドライバは372.70で素の状態で1枚22.2Mほどです。

896 ：たれぞうだで初段：2016/09/15 22:50:06 (9年前) 0MONA/0人

>>895
GTX1070でも同じ症状出ますね
自分の環境だとドライバのバージョンを367.xx（Linux）または368.xx（Windows)に落とすことで1.7.6-r10を使用できるようになりました（1.8-r2-fix2はエラー出ます）
ハッシュレートは1.7.6-r10 + 367.xx or 368.xxの組み合わせの方が1.8-r2 + 372.70より1〜2MH/s程高いようです

897 ：ittou四段教士：2016/09/16 23:39:19 (9年前) 0.00114114MONA/1人

Ubuntuでも370はNGですよ。

しかし、手元で100M超えていて、サーバで60M行かないのは悲しい。

898 ：名無し二段：2016/09/19 00:16:57 (9年前) 0.00114114MONA/1人

ですねぇ。プールよりだいぶ高い値出してるんですが(350M位)プールには平均290M位しか反映されません。75000円分位無駄にしてる気持ちなので段々リグに投資するのもなんだか萎えてきました

899 ：なむやん七段教士：2016/09/19 00:28:33 (9年前) 0.00114114MONA/1人

Diffの設定が悪いとかはありませんか？
効率悪くなると聞きましたが

900 ：PEPSIMAN五段：2016/09/19 08:14:03 (9年前) 0.00114114MONA/1人

ソロでも100Mでないのでしょうか？

901 ：名無し名誉名人教士：2016/09/19 08:35:05 (9年前) 0.00114114MONA/1人

既出だが一応解説

マイナー側のハッシュレートは、実際に処理したハッシュ数から計算する。
ハッシュレート[Hash/s]＝2^32[Hash]÷(2^32個のハッシュ処理した時間)[s]

プール側では、マイナーが処理したハッシュ数は知りえないので、
指定の難易度において、送られてきたハッシュから、当該ハッシュを得るために必要なハッシュ数を推定して、ハッシュレートを計算する。

結論：マイナー側の表示は「実績値」、プール側の表示は「推定値」

ソロ掘りであれば、採掘報酬は全部もらえるから、ハッシュレートは関係ないけど、
プール掘りの場合、推定ハッシュレートで分配されるので、正しく分配される確証はない。ただ、プール内のすべてのマイナーが推定ハッシュレートで分配されるため、問題はないのでは？(プール側がハッシュをちょろまかしている可能性も拭えなくはないが…)

902 ：PEPSIMAN五段：2016/09/19 23:31:57 (9年前) 0MONA/0人

ARMv8アーキテクチャではSHA1のハードウェアアクセラレーション搭載らしい。
64ビットARM搭載の最初の純正のコアは、Cortex-A50シリーズのCortex-A53/Cortex-A57。
Cortex-A53はRaspberry Pi3 Model Bに搭載されている事で有名ですが。
Raspberry Pi3でSHA1Coinが効率的に掘れたりすることは無いのでしょうか？
（効率的に掘れたとしてもGPUの方がハッシュレート的には上か？）

INTELのAES-NI命令で掘削効率が上がったコインがあるようなので不可能ではない？
http://cryptomining-blog.com/tag/aes-ni-intel/

903 ：ittou四段教士：2016/09/22 00:22:22 (9年前) 0MONA/0人

>>898
上には上がいたー。名人殿の分配の話だとしたら問題無いはずだけど、
貰えるモナは結構増減有りますね。

>>899
diffの設定って-fでしょうか？弄ったこと無いなぁ。1より小さくすればいいのかな。

>>901
なんか、レートが低いのが続いている時は、時間当たりのモナも少ない気がします。しっかり計算した訳では有りませんが。

ところでJetsonでマイニング出来るのかな。

904 ：PEPSIMAN五段：2016/09/22 10:34:55 (9年前) 0.00114114MONA/1人

>>903「Diffの設定」
プール側に手動で設定できる項目やポートがある場合はプール側で設定した方がいいかと思われます。
VIPプールの場合はハッシュレート（KHでもMHでもなく、H）を2の21乗で割った数をDiffに推奨していますので他のプールでもGPUで1未満は小さすぎるのではないかと思われます。

>>903「NVIDIA Jetson」
JetSonはワッパは最強だと思います。しかしながら、
JetSon最上位モデルのJetSon TX1の性能はIntel Iris Graphic以下の性能みたいです。
参考：http://hackaday.com/2015/11/24/the-nvidia-jetson-tx1-its-not-for-everybody-but-it-is-very-cool/

905 ：PEPSIMAN五段：2016/09/23 13:18:29 (9年前) 0.00114114MONA/1人

>>897
GTX1080って50MH/s出るんですね。
Founders Editionではなく、OCモデルなのでしょうか？

906 ：ittou四段教士：2016/09/23 18:57:01 (9年前) 0.04228228MONA/1人

>>904
じゃあJetson100台とか(ぉぃ

>>905
OCモデルです。Ubuntuに入れたら少し低めに出てますね。48M前後です。
Winの時は52Mくらい出てました。
水冷とかすれば、もっと上がると思います。上のスロットが冷え難いので、
今は上が47M、下が49Mくらい。

907 ：PEPSIMAN五段：2016/09/23 23:41:01 (9年前) 0.00114114MONA/1人

>>906「Jetson100台とか」
TX1搭載のSHIELDTVがNVIDIAJetsonTX1より安いけれど、
それでも100台だと、29999$ぐらいかな（笑）

>>905「OCモデル」
水冷モデルって高いですよね。水冷化改造すればいいのでしょうか。
それでも1万ほど水冷化にかかりそうですね。
後、EVGAの空冷だとこれが一番クロックが高い模様。（1860MHzブーストクロック）
電源フェーズ数も10+2と多い上、ヒートパイプ接触部は銅製のようなので
リキッドプロ化すれば更にOC出来そうな気はするが。ワッパが落ちそうな気もしますね。
米泥:https://amzn.com/B01GAI64GO
分解レビュー:http://www.bit-tech.net/hardware/graphics/2016/06/15/evga-geforce-gtx-1080-ftw-review/9

908 ：ittou四段教士：2016/09/23 23:46:07 (9年前) 0MONA/0人

>>907
うちはFTW2台ですよ。8万弱かな、1台。

909 ：PEPSIMAN五段：2016/09/23 23:47:34 (9年前) 0MONA/0人

>>906
過去スレ>>727見てみましたが、EVGA 1080 FTWで50MH/sでしたか。

910 ：PEPSIMAN五段：2016/09/24 00:12:14 (9年前) 0.00114114MONA/1人

>>908
EVGA公表の消費電力が215Wなので
2枚だと430W。マイニングで-I限界値だと更に喰いそうですね。
自分が現在使用している750W電源だと無理がある気もします。
自分はCPUも140W(TDP)のi7-5820Kを使用していますし。
ittoさんは1000W級の電源を使用されているのでしょうか？

911 ：ittou四段教士：2016/09/24 12:39:43 (9年前) 0.20114114MONA/1人

>>910
電源も一緒にEVGAで買って、1000Wのプラチナムです。27Kくらいだったかな。
先月今月と請求が来て、ひいひい行ってます。。。
新規で組んだのでCPUはセロリンちゃんですが。

912 ：monyu六段：2016/09/26 15:13:58 (9年前) 0MONA/0人

EVGA使いがいらっしゃって嬉しいです。

私は8pin一個のSCの方ですが OCして50MH/s、ソロです。

そろそろ気になってくるのが、1080tiでハッシュレートがどうなるかですよね...

913 ：PEPSIMAN五段：2016/09/26 16:43:32 (9年前) 0MONA/0人

>>912
過去の傾向から予測すると、
Ti付きモデルは性能は上がるもののワッパが下がると思います。
それでも10xx番台ならペイ出来ると信じたいところですね。

914 ：PEPSIMAN五段：2016/09/26 17:09:26 (9年前) 0.00114114MONA/1人

>>911
何度も情報ありがとうございます。
GTX10xx番代を買う際に参考にさせて頂きます。

915 ：名無し名誉名人教士：2016/09/26 21:41:18 (9年前) 0.00114114MONA/1人

>>912
リークした1080Tiのスペックだと…3328コア、1623MHz(Boost)、TDP250W
GTX1080は、2560コア、Boost 1733MHz、47.68MH/sなので、
47.68MH/s×(1623MHz÷1733MHz)×(3328コア/2560コア)＝58.05MH/s
(Lyra2REv2で考察)

リーク情報だからあまりあてにはできないけど、この程度の差なら私は手を出さないな…
もう、次のコアが出るまでは1080/1070が主力だと思っている。
参考までに…Tesla P100なら、Lyra2REが速度がGTX1080の2.4倍になる見込み。やる人はいないと思うけど…
(シェアードメモリが大きく確保でき、コアすべてをアクティブにできる。ただし、現状は非対応)

916 ：ittou四段教士：2016/09/26 22:53:25 (9年前) 0MONA/0人

1080FTWに不具合があるっぽいので、RMAすることになりますた。
明日にでもばらして梱包だ。

917 ：リキプロマン六段：2016/09/27 09:22:16 (9年前) 0MONA/0人

個人的には1050tiが出てきそうな話が気になりますね
768コア、1382MHz(Boost)、TDP75Wとのことで
http://northwood.blog60.fc2.com/blog-entry-8706.html

750tiみたいにワッパ最高だったらいいなぁ・・・

918 ：名無し名誉名人教士：2016/09/27 09:35:09 (9年前) 0.00114114MONA/1人

>>917 スペックからハッシュレート･ワッパを予測
現状のワッパ(GTX1080)
47.68MH/s÷180W＝0.265MH/s･W

GTX1050Tiの場合
ハッシュレートは47.68MH/s×(1382MHz÷1733MHz)×(768コア/2560コア)＝11.40MH/s
ワッパは11.40MH/s÷70W＝0.163MH/s･W

GTX1080Tiの場合
ワッパは58.05MH/s÷250W＝0.232MH/s･W

後は価格の問題だが…？

919 ：名無し名誉名人教士：2016/09/27 09:40:31 (9年前) 0MONA/0人

ちなみに750Tiがワッパ最強だったのはL2キャッシュが大容量で、
Lyra2REv2がシェアードメモリを使用せず、1コア当たりのL2キャッシュの容量が大きかったことが挙げられます。
(コア数の割にハッシュレートが高かった)

シェアードメモリを使用する現在において、L2キャッシュを使用しないため、この理論が成り立たなくなっています。
(シェアードメモリが増強されればLyra2REで高速化が図れますが…)

920 ：PEPSIMAN五段：2016/09/27 23:12:15 (9年前) 0MONA/0人

550Ti
980Tiはワッパ最悪でしたので、
150Tiや1080Tiは前に比べればましな部類のようですね。
やはりTi付きのマイナーバージョンアップ的立ち位置のモデルの中で、
750Tiのワッパが最強だった事が奇跡だと思いますね。

921 ：名無し三段：2016/09/29 21:33:09 (9年前) 0MONA/0人

モナコインください

922 ：名無し四段：2016/10/10 22:36:53 (9年前) 0MONA/0人

GTX1070で1.8r2使ってますが
boost入らなくなるの、どうにかなりませんかねぇ。
boost入ると35MH、通常に戻ると30MH程度に
温度も60℃で余裕なんですが

923 ：名無し名誉名人教士：2016/10/11 03:17:45 (9年前) 0MONA/0人

>>922
1.7.6-r10ではどうですか？
1.8系はGPUのクロックをccminer側で弄っているようです。(tpruvotの新機能？)

924 ：名無し四段：2016/10/11 12:22:54 (9年前) 0MONA/0人

>>923
レスどうも。
今夜、1.7.6を試してみます。

925 ：ちょっとヨロシク三段：2016/10/11 17:24:15 (9年前) 0MONA/0人

知り合いから古いグラボ(nVidia Quadro FX5500)をもらったのですが採掘に使えますかね?
cudaが5.0なので無理かも…
どなたか教えてください

926 ：名無し名誉名人教士：2016/10/11 19:11:57 (9年前) 0MONA/0人

>>925
Quadro FX5500はGeforce7900ベースであり、CUDAには対応していません。
CUDA対応はQuadro FXのx600以降、ccminerが動くのは、Quadro 6000等、FX、NVS、Plexなどの文字がつかないシリーズから。
(Quadroシリーズは初期値を設定していないため、-iオプションを使用してください。)

927 ：名無し四段：2016/10/11 21:42:07 (9年前) 0MONA/0人

>>923
does not validate on CPUが出るみたいです。
ドライバ最新だからかもですが。

928 ：ittou四段教士：2016/10/11 22:10:05 (9年前) 0MONA/0人

>>927
ドライバ370だとNGでした。
それより古いのを使っています。
今は1080が2枚とも海外旅行中なので確認出来ませんが・・・
RMA早く帰ってきて。

929 ：名無し四段：2016/10/11 22:13:46 (9年前) 0MONA/0人

不思議と1.8r2だけは通るｗ
fixだと通らない、不思議！

930 ：名無し名誉名人教士：2016/10/12 01:52:42 (9年前) 0MONA/0人

>>929
だとすると、ドライバの影響もあるかも…(1.8-r2)
-iオプションでスレッド数を増やしてもだめですか？

-i 21　これでスレッド数が2097152(GTX1070のデフォルト設定)
-i 21.5 これでスレッド数が3145728
-i 22　これでスレッド数が4194304(GTX1080のデフォルト設定)
-i 22.5 これでスレッド数が6291456
-i 23　これでスレッド数が8388608

931 ：名無し四段：2016/10/12 09:01:24 (9年前) 0MONA/0人

>>930
i23まで上げましたが、特に変化無しでした。

932 ：名無し名誉名人教士：2016/10/15 20:55:38 (9年前) 2.14342228MONA/4人

しばらくプログラミングから離れていたら、1.8.3が出ていて、CUDA8(正式版？)が出ていて、最新ドライバで動かなかったりと問題が出てきたので、1.8.3ベースにして、再度作りました。

更新内容(tpruvot版1.8.3⇒1.8.3-r1)
・ソロマイニングに対応させた(動作未確認)
・Lyra2REv2を1.8-r2のものに更新(急造)
・CUDA8(最新？)でビルドを行った
・Compute2.0/2.1をビルドから外した(Kepler以降対応、Fermiの人ごめんなさい)

ソロマイニング対応バージョン(1.8.3-r1)
https://1drv.ms/u/s!Aud1FauQ46vHhnR5NYbLOB2bQlOt

ソースコード(1.8.3-r1)
https://1drv.ms/u/s!Aud1FauQ46vHhnV5NYbLOB2bQlOt

933 ：名無し名誉名人教士：2016/10/15 22:11:25 (9年前) 0.00114114MONA/1人

現在出張中でソロマイニング機能をテストできないので、だれか動作確認をお願いいたします。

934 ：名無し名誉名人教士：2016/10/16 07:11:33 (9年前) 0.00114114MONA/1人

>>932 でプール掘りすると、こんな感じ(GTX960)

935 ：ittou四段教士：2016/10/17 20:26:00 (9年前) 0.1MONA/1人

1080帰ってきた。
早速Ubuntuマシンに突っ込んで掘り始めたけど、熱い。
Linuxで掘っている人、Fanとか温度管理とかどうしてるんだろう？

936 ：ittou四段教士：2016/10/18 06:17:01 (9年前) 0.2MONA/1人

ecoオプション付けても82℃まで上がってしまう。

937 ：リキプロマン六段：2016/10/18 06:32:30 (9年前) 0.00114114MONA/1人

>>936
linuxの時はgpuのbiosを変更して、ファン回転のスピードやコアのクロックを調整してます。
ソフトウェア側から変更する方法は自分もわからないです…

>>934
久々の更新お疲れ様です！ちょっと自分は金欠でgpuを手放してしまったので、他の方検証お願いします。

938 ：ittou四段教士：2016/10/18 12:56:23 (9年前) 0.1MONA/1人

>>937
そうですか。BIOSは落ちているところを見つけましたが、基本上げ系ばかりで。Thermal limitsを75℃くらいにしたい・・・
monaだけならWinなのかな、やっぱり。
仮想に突っ込んでいるWin10をインストールできるだろうか。ライセンス的に。
こんなことなら1200円の時にもっとWin8買っておけば良かった。

939 ：リキプロマン六段：2016/10/18 17:04:07 (9年前) 0.10114114MONA/2人

>>938
https://wiki.archlinuxjp.org/index.php/NVIDIA/Tips_and_tricks
この辺りを参考にされて、ファン回転数やコアクロックを変更してみてはいかがでしょうか。
もしかしたらpascalは非対応かもしれませんが。
あとはpowermizerとかも調べてみると良いかもしれません。

940 ：ittou四段教士：2016/10/18 19:44:52 (9年前) 0.1MONA/1人

コマンドが弾かれます。GUIは表示されますが。
もしかしたら、モニターケーブルを繋いでないからかも。

$ sudo nvidia-settings

** (nvidia-settings:10950): WARNING **: Error retrieving accessibility bus address: org.freedesktop.DBus.Error.ServiceUnknown: The name org.a11y.Bus was not provided by any .service files
** Message: PRIME: Requires offloading
** Message: PRIME: is it supported? yes

941 ：ねずみ五段：2016/10/19 06:33:32 (9年前) 0MONA/0人

GTX1050と1050Tiが発表されました‼http://www.4gamer.net/games/251/G025177/20161018047/

942 ：名無し四段：2016/10/19 13:26:41 (9年前) 0MONA/0人

キャッシュメモリが750Tiの2MBってのが
やっぱり特異なんですかねぇ。
GTX1050/1050Tiは1MBになってるし。

943 ：名無し名誉名人教士：2016/10/21 23:21:34 (9年前) 0.11525514MONA/2人

出張から帰ってきたので、>>932 でソロマイニングを試してみた。

うん、ちゃんと掘れるっぽい。(あとはちゃんと掘り当てられるかを確かめる)

なお、前バージョンで掘っていた人は、本バージョンで掘れない場合があります。
その場合は、ドライバを最新のものに更新してください。

944 ：名無し名誉名人教士：2016/10/22 20:30:32 (9年前) 0MONA/0人

>>943
まだ掘り当てられていない…
なんだか嫌な予感がするな…

945 ：azure三段：2016/10/23 00:10:30 (9年前) 0MONA/0人

1.8.3-r1で動作させてみました
環境
Palit Microsystems GeForce GTX960 OC (コアクロック1500MHz)
Intel Core i5-4590
Windows 10 Home 64ビットビルド10586(バージョン 1511)
Visual C++ 2013 Redistributable 12.0.30501(マイナー付属のものは不使用)

掘れるのは掘れるんですが、まだ掘り当てられていません・_・; (グラボのスペック不足?)

946 ：名無し名誉名人教士：2016/10/23 04:47:27 (9年前) 0MONA/0人

う～ん、ソロマイニングできていないのか？
掘り当てられない…

ソロマイニングをしている方は、一旦、1.8.3-r1の利用を停止して、前バージョンを使用してください。色々調べてみます。

947 ：名無し名誉名人教士：2016/10/23 09:36:08 (9年前) 0MONA/0人

1.8.3はDiffが大きくなるとエラーになるみたいだね…
結果が32bit以上だとエラーになるっぽい…
と、いうわけで、bmw256も1.8-r2のものに置き換えてみました。
(これは高速化には寄与しません)

更新内容(1.8.3-r1⇒1.8.3-r2)
・ソロマイニングに対応させた(こんどこそ)

ソロマイニング対応バージョン(1.8.3-r2)
https://1drv.ms/u/s!Aud1FauQ46vHhnZ5NYbLOB2bQlOt

ソースコード(1.8.3-r2)
https://1drv.ms/u/s!Aud1FauQ46vHhnd5NYbLOB2bQlOt

948 ：名無し名誉名人教士：2016/10/23 09:42:25 (9年前) 0MONA/0人

ちょっとリンクミスったんで、こっちでダウンロードをお願いします。

ソロマイニング対応バージョン(1.8.3-r2)
https://1drv.ms/u/s!Aud1FauQ46vHhnh5NYbLOB2bQlOt

ソースコード(1.8.3-r2)
https://1drv.ms/u/s!Aud1FauQ46vHhnd5NYbLOB2bQlOt

949 ：名無し名誉名人教士：2016/10/23 10:04:04 (9年前) 0MONA/0人

また、しばらく試掘してみます。
今度こそうまくいくといいな…

950 ：名無しさん：2016/10/23 17:45:57 (9年前) 0MONA/0人

最近興味出たのでしばらくGPUで掘ってみようと思います…
CPUで3日ぐらい掘ってるのに全然だめだった…

951 ：ittou四段教士：2016/10/23 19:58:41 (9年前) 0MONA/0人

うちのも1.8.3-r2にしようかな。
結構Ubuntuでトラブったので、環境弄るのが怖いという。

952 ：名無し名誉名人教士：2016/10/24 06:39:23 (9年前) 0MONA/0人

やっぱり駄目だった（；’ω‘）…
プール掘りでは問題なかったんだが…(Diffが低いだけで同じ問題が潜在している可能性はある)

本格的に見直す必要があるな…

ってか最近Diff高すぎじゃね？

953 ：名無し名誉名人教士：2016/10/24 06:41:05 (9年前) 0MONA/0人

>>952
慣れない顔文字は使うべきじゃないな。
フォントの影響で変なことになってる…

954 ：名無し名誉名人教士：2016/10/24 07:07:53 (9年前) 0.00004649MONA/1人

とりあえず、tpruvot版の1.8.3にアルゴリズムを戻して検証してみる。

現状の症状
・Diffが小さい場合は問題なく掘れている。（プール掘りが該当する）
・Diffが大きい場合、「result for ******* does not vaildate on CPU」と表示される。
・どうやら、1.8-r2でも起きているようだ

問題の分析
・hashがtarget以下なら掘り当てたものと検知する。
・GPUでは、最初の32bitを検証して問題なければ結果を吐き出す。その後、CPU側で全ビットを検証する。(最大で256bitまで検証する)
・最初の32bitだけならエラーが発生しない。
・32bitを超える場合はエラーが出るようだ。

さて、どうしたものか…

955 ：もにゃ子九段錬士：2016/10/24 18:00:02 (9年前) 0MONA/0人

この所のDiffの上昇だととても980×2じゃどうにもなりません?
しばし休眠入りまぁーす

956 ：ittou四段教士：2016/10/24 18:07:52 (9年前) 0MONA/0人

1080x2で頑張っているけど、これでもしんどいかなぁ。
monaは下がるしDIFFは上がるし・・・

957 ：PEPSIMAN五段：2016/10/24 20:12:50 (9年前) 0MONA/0人

>>954 純粋に疑問を持ったので書いてみます。
仕組みがわからない者の質問ですいません。

暗号通貨の仕組み上、掘削時に検証という過程は必須なのかもしれませんが、
そうでないのであれば、検証する事でYes!とかbooo!を表示しているという事でしょうか？
その場合、検証をしない方が若干（誤差程度？）高速なのでしょうか？

958 ：名無し名誉名人教士：2016/10/24 20:23:06 (9年前) 0.00004649MONA/1人

>>957
検証を行うのは掘り当てた場合のみです。
ですので、プール掘りの場合、おおむね3～5秒に1回程度、ソロ掘りの場合は数時間に1回程度になります。
検証のオーバーヘッドはほとんどないものと考えてよさそうです。
(マイナー起動直後、Diffが低い間は速くなるかもね…)

959 ：名無し名誉名人教士：2016/10/24 20:26:31 (9年前) 0.00004649MONA/1人

>>958補足
過去、検証をバイパスしたバージョンも試してみましたが、まったくと言っていいほど影響はありませんでした。

960 ：名無し名誉名人教士：2016/10/24 20:30:52 (9年前) 0MONA/0人

>>954
試しにbmw256の検証部分を64bit化してやってみようと思います。
ちょっとだけハッシュレートが落ちるけど、仕方ないね。
掘り当てるまで、お待ちください。

なお、プール掘りではこの問題は起こらないみたいなので、ソロ掘りをしない場合は1.8.3-r1でもr2でも動くはずです。

961 ：名無し名誉名人教士：2016/10/24 20:44:57 (9年前) 0MONA/0人

なんか、速攻で掘れた…

後で更新版をアップしますね。

962 ：名無し名誉名人教士：2016/10/24 20:56:33 (9年前) 0MONA/0人

bmw256のチェックを64bitにしてみました。
(これにより、従来より若干遅くなっています)

更新内容(1.8.3-r2⇒1.8.3-r3)
・ソロマイニングに対応させた(ようやく完成？)

ソロマイニング対応バージョン(1.8.3-r3)
https://1drv.ms/u/s!Aud1FauQ46vHhnl5NYbLOB2bQlOt

ソースコード(1.8.3-r3)
https://1drv.ms/u/s!Aud1FauQ46vHhnp5NYbLOB2bQlOt

963 ：名無し名誉名人教士：2016/10/25 05:24:47 (9年前) 0MONA/0人

GTX1050Ti/1050がでるようなので、これらの初期設定も追加しようかな？

GTX1050Tiの場合
ハッシュレートは47.68MH/s×(1392MHz÷1733MHz)×(768コア/2560コア)＝11.49MH/s
初期設定値：log2(0.1s×11.49MH/s×10^6)＝20.13 ⇒ -i 20

GTX1050の場合
ハッシュレートは47.68MH/s×(1455MHz÷1733MHz)×(640コア/2560コア)＝10.01MH/s
初期設定値：log2(0.1s×10.01MH/s×10^6)＝19.93 ⇒ -i 20

964 ：名無し名誉名人教士：2016/10/25 05:25:05 (9年前) 0MONA/0人

更新内容(1.8.3-r3⇒1.8.3-r4)
・GTX1050Ti/1050に対応(使わない人は更新不要)

ソロマイニング対応バージョン(1.8.3-r4)
https://1drv.ms/u/s!Aud1FauQ46vHhnt5NYbLOB2bQlOt

ソースコード(1.8.3-r4)
https://1drv.ms/u/s!Aud1FauQ46vHhnx5NYbLOB2bQlOt

965 ：名無し名誉名人教士：2016/10/25 06:07:30 (9年前) 0MONA/0人

旧バージョンも更新してみた。(ソースのみ)

更新内容
・Lyra2REv2のソロマイニングバグを修正
・最新GPUに対応

ソースコード(1.8-r3)
https://1drv.ms/u/s!Aud1FauQ46vHhwB5NYbLOB2bQlOt

ソースコード(1.7.6-r11)
https://1drv.ms/u/s!Aud1FauQ46vHhn95NYbLOB2bQlOt

ソースコード(1.5.77-r12)
https://1drv.ms/u/s!Aud1FauQ46vHhn55NYbLOB2bQlOt

966 ：名無し名誉名人教士：2016/10/25 09:59:05 (9年前) 0MONA/0人

最近のブロック遅延って、このバグのせいだったりする？

「Diffが大きくなると、ソロマイナーが脱落する(掘れなくなる)」

みたいなことが起こるから…

967 ：名無し名誉名人教士：2016/10/25 10:29:58 (9年前) 0MONA/0人

前バージョンと混同するため、ちょっと早いけど次スレを立てました。

【マイナー必見】ソロマイニングに対応したよ【高速化Part2】
https://askmona.org/4673

968 ：名無し名誉名人教士：2016/10/25 17:49:13 (9年前) 0MONA/0人

こっちにも、スレのまとめを書いておこうかな？

969 ：名無し名誉名人教士：2016/10/25 17:49:31 (9年前) 0MONA/0人

970 ：名無し名誉名人教士：2016/10/25 17:50:22 (9年前) 0MONA/0人

ソロマイニング用の使い方(マイナー起動)
>>964でソロマイニング用をダウンロード･展開する。
そして、バッチファイルを編集する。
(実行ファイル名) -a lyra2v2 -o (IPアドレス):(ポート) -u (ユーザ名) -p (パスワード) --no-longpoll --no-getwork --coinbase-addr=(Walletアドレス)
(IPアドレス)は>>969を起動しているアドレス、
(ポート)、(ユーザ名)、(パスワード)は、>>969のrpcport、rpcuser、rpcpasswordを入力します。
(Walletアドレス)は>>969のWalletの受取り用のアドレスのことで、要は自分の財布を意味します。(Mで始まる長ったらしい文字列)
バッチファイルが完成したら実行する。
掘り当てたときのみYes!が表示されるため、見た目では掘れているかわかりにくいです。

971 ：名無し名誉名人教士：2016/10/25 17:50:59 (9年前) 0MONA/0人

ソロマイニングの動作状況(1.8.3-r4)

プールマイニングの動作状況(1.8.3-r1)

972 ：名無し名誉名人教士：2016/10/25 17:51:27 (9年前) 0MONA/0人

>>970 補足

Walletとマイナーが同一PCの場合、IPアドレスを調べなくても、127.0.0.1でいける(はず)。

Walletを起動してから、しばらくの間、同期作業が入ります。
(ブロックチェーンを全てダウンロードする。コインにより異なるが、数GB程度占有することを覚悟してください。)
同期が完了するまでマイニングができないため、マイナーを起動してもエラーを吐き続けます。
また、同期が途中で固まって、なかなか進まないことがあります。
その場合、Walletを再起動すると、また同期が再開することがあります。
(これをやると速く同期が完了する)

Wallet用に専用サーバを設ける場合(別PCの場合)、WindowsUpdateは停止しておいた方がいいかと…
ヤツは勝手に再起動して、Walletを終了させる。
再起動完了後、Walletを起動しないとマイニングが再開できない…

973 ：名無し名誉名人教士：2016/10/25 17:51:44 (9年前) 0MONA/0人

主なGPUのハッシュレート Pascal編 (Lyra2REv2のハッシュレート推定値)
GTX1050 10.01MH/s
GTX1050Ti 11.49MH/s
GTX1060 23.39MH/s
GTX1070 35.88MH/s
GTX1080 47.68MH/s

974 ：名無し名誉名人教士：2016/10/25 17:51:56 (9年前) 0MONA/0人

主なGPUのハッシュレート Maxwell編 (Lyra2REv2のハッシュレート推定値)
GTX750：4700kH/s
GTX750Ti：5875kH/s
GTX950：9309kH/s
GTX960：12.31MH/s
GTX970：20.00MH/s
GTX980：25.41MH/s
GTX980Ti：30.89MH/s
GTX TITAN X：33.70MH/s

975 ：名無し名誉名人教士：2016/10/25 17:52:09 (9年前) 0MONA/0人

主なGPUのハッシュレート Kepler:700番以降 (Lyra2REv2のハッシュレート推定値)
GT710：660kH/s
GT720：551kH/s
GT730：1248kH/s
GTX760：2699kH/s
GTX770：2872kH/s
GTX780：7472kH/s
GTX780Ti：9630kH/s
GTX TITAN：8485kH/s
GTX TITAN Black：10.17MH/s
GTX TITAN Z：18.18MH/s

976 ：名無し名誉名人教士：2016/10/25 17:52:20 (9年前) 0MONA/0人

主なGPUのハッシュレート Kepler:600番台 (Lyra2REv2のハッシュレート推定値)
GT630：1248kH/s
GT640：1254～1447kH/s
GTX650：1397kH/s
GTX650Ti：2442～2727kH/s
GTX660：3409kH/s
GTX660Ti：4528kH/s
GTX670：4528kH/s
GTX680：5587kH/s
GTX690：10.76MH/s

977 ：名無し名誉名人教士：2016/10/25 17:52:32 (9年前) 0MONA/0人

主なGPUのハッシュレート番外編 (Lyra2REv2のハッシュレート推定値)

nVidia Titan X 58.97MH/s (Pascal版国内未発売)
GTX1080Ti 58.05MH/s (リーク情報より推定値を算出)

978 ：名無し名誉名人教士：2016/10/25 17:52:58 (9年前) 0MONA/0人

>>973 補足
GTX1060には、6GB版と3GB版があり、3GB版はCUDAコア数が少なく、ハッシュレートが少しだけ低いので注意。

GTX1060(6GB) 23.39MH/s
GTX1060(3GB) 21.05MH/s

979 ：ittou四段教士：2016/10/25 19:25:15 (9年前) 0MONA/0人

DIFFあげあげで、マイニングペースが半分くらいになったです。
1.5～2hourで10monaが、4hour以上掛かるようになった。

980 ：なむやん七段教士：2016/10/25 22:30:10 (9年前) 0MONA/0人

しゃーない
今は冬の時期だ
他の通貨でも掘るしかあるまい

981 ：名無し四段：2017/01/14 23:15:30 (9年前) 0MONA/0人

スレタイと違うとは思いますが、moneroなどのCryptnightって
高速化出来ます？今使ってるのがLyra2REv2と比較して
あんまり使い切ってない感があるので。

982 ：名無し四段：2017/01/14 23:55:51 (9年前) 0MONA/0人

ccminer自体が対応してなかったんですね。
すんません。このままmona掘って
CPUだけmoneroが良さそう。

983 ：削除：2017/01/15 00:17:34 (9年前) 0MONA/0人

削除

984 ：人として行動がぶれている五段錬士：2017/01/27 17:27:56 (9年前) 0MONA/0人

Linux版はございますでしょうか
windowsは個人的に使い勝手が悪くなってきて
乗り換えたいなと思ったので

985 ：じろー六段教士：2017/01/27 18:51:09 (9年前) 0MONA/0人

>>684
自分は、CentOSで、ソースコードからビルドして使っているよ。
勉強がてらにがんばってみたら？

986 ：ittou四段教士：2017/01/27 21:08:56 (9年前) 0MONA/0人

>>984
ubuntuだけど、一か所書き換えるだけでビルド出来てる。

なお、プログラムは読めない模様・・・

987 ：名無し四段：2017/02/08 03:49:31 (9年前) 0MONA/0人

PalitのGTX1050が中古で8000円だったので購入
若干OC気味なのかな？ccminerで11.50MH/s出てます -i20です。
i.imgur.com/e6I57Je

988 ：名無し四段：2017/02/08 03:51:48 (9年前) 0MONA/0人

貼りミス・・・。ソロで早速掘れたので

989 ：名無し名誉名人教士：2017/02/08 12:54:29 (9年前) 0MONA/0人

>>987～>>988
1050では、-i値は概ねこのくらいがちょうどいいですね。
これ以上大きくすると、画面描画に影響がありそうです。
それと、Palit製は値段の割に結構OCしていますので、想定よりもハッシュレートは出るかもしれませんね。
ただ、Palit製の上位はスロット占有が結構厄介で…(1070、1080は3スロット占有)

990 ：名無し名誉名人教士：2017/02/09 21:10:27 (9年前) 0MONA/0人

monacoin walletの0.13.2.2のlinuxバイナリが上がっていたので、ソロマイニングを試してみた。

うん、ちゃんと掘れてる。特に修正する必要はなさそうだ。

991 ：あ熱帯います七段教士：2017/02/11 01:52:23 (9年前) 0MONA/0人

履歴をみると、9日の24:00付近から、掘れなくなっていたみたい。
3回ほど電源切っても立ち上げなおしてもだめだったので、ドライバーを2016/08に戻したところ、掘れるようになりました。

ずっとほっといてあるのですが、自動でドライバーが入れ替わっていたようです。

992 ：名無し名誉名人教士：2017/02/11 11:53:18 (9年前) 0MONA/0人

>>991
windows updateでドライバが更新されるみたいだね。updateは切っておいた方が良さそう。(勝手に再起動されても困るし…)

993 ：ittou四段教士：2017/02/11 12:02:58 (9年前) 0MONA/0人

Win10proは設定でUpdate止められるし、Homeもフリーソフトでそんなのが出てた気がします。

994 ：あ熱帯います七段教士：2017/02/12 21:08:54 (9年前) 0MONA/0人

>>992
>>993

win10proです。時間指定しかできないと問題になっていたけど、今は止められるようになったんですか。

995 ：凡人五段錬士：2017/04/24 17:41:02 (8年前) 0MONA/0人

Monaコインマイナーには厳しい季節となってきました。

996 ：凡人五段錬士：2017/04/24 17:41:30 (8年前) 0MONA/0人

GPUも導入したいところだけど

997 ：凡人五段錬士：2017/04/24 17:41:42 (8年前) 0MONA/0人

価格が高いからなぁ

998 ：人として行動がぶれている五段錬士：2017/04/24 22:23:02 (8年前) 0MONA/0人

>>997 クラウドマイニングか、中古で買おう
GTX1050とかでも月1000円分ぐらいは掘れるでしょ（適当）

999 ：人として行動がぶれている五段錬士：2017/04/24 22:25:37 (8年前) 0MONA/0人

そういえばNiceHashMinerに搭載されてるccminerこのトピのやつかな？
ccminer_nanashiていうウィンド名やけど

1000 ：人として行動がぶれている五段錬士：2017/04/24 22:26:08 (8年前) 0MONA/0人

1000

1001 ：

このトピックは1000を超えました。もう書けないので、新しいトピックを作ってくださいです。。。

お気に入り

新規登録してMONAをもらえた

本サイトはAsk Mona 3.0に移行しましたが、登録すると昔のAsk Monaで遊ぶことができます。