1024個のコアをもつ日本発のプロセッサーを作った天才

科学・IT 新種の採掘LSI izuna

26 Res. 1.2 MONA 3 Fav.

1 :izuna五段:2016/10/10 17:29:07  1MONA/1人

1024個のコアをもつ日本発のプロセッサーを作った天才の
人生がわかる記事です。
http://wired.jp/special/2016/motoaki-saito/

将来、仮想通貨の採掘に関係が出てくるかもしれませんね。

2016年10月7日のGIGAZINEに
「1チップに1024個のコアを持つプロセッサ「Epiphany-V」が登場」
http://gigazine.net/news/20161007-adapteva-epiphany-5/

もしかして、こういったメニーコアプロセッサ向けの仮想通貨って、もうあるのかな?

2 :Python四段:2016/10/10 17:32:03  0MONA/0人

おそらく無いかと、検索してもヒットしませんし

3 :izuna五段:2016/10/10 17:34:22  0MONA/0人

そういえばCPU向けの日本産の仮想通貨ってあったような気がしたのですが、なんでしたっけ?
(まぁ、調べれば、すぐにわかるのかもしれないですが)

メニーコアプロセッサの登場で、ハッシュアルゴリズム変更なんて、イベント起きるかもしれませんね。(笑)

4 :izuna五段:2016/10/10 17:35:16  0MONA/0人

>>2

CPU向けの仮想通貨を狙う構想は、あるかもしれないです。

5 :名無し名誉名人教士:2016/10/10 18:07:07  0MONA/0人

コア数が増えると、メモリ周りが問題になりそうだが…

CPU向け仮想通貨はメモリ使用量を増やしているが、
(コアが多いとメモリアクセスが過多になる)
このプロセッサだと、どうなのかな?

6 :izuna五段:2016/10/10 18:41:52  0MONA/0人

>>5
> (コアが多いとメモリアクセスが過多になる)

チップ上のメモリがグローバルなバスで接続されていると、そういう心配はありですね。
GIGAZINEの「Epiphany-V」には64MBのS-RAM搭載とありますね。
図をみると分散共有メモリのような、感じに見えますね。
計算するプロセッサに近い分散共有メモリへのアクセスは、遅延も性能も、いいのかもしれない。
(GPUにあるようなグローバルメモリへのアクセス過多の問題がない)

7 :名無し名誉名人教士:2016/10/10 18:50:21  0MONA/0人

>>6
64MBのSRAMってことは、1コア当たり64kBってことだから…
neo-scryptで3段打ちメソッド使えばギリギリ足りますね。
yescryptは無理かな?

8 :なむやん七段教士:2016/10/10 19:02:30  0.1MONA/1人

まるでGPUのようなCPU
これでZenyを掘ってみたい

9 :izuna五段:2016/10/10 19:18:49  0MONA/0人

>>7
> 64MBのSRAMってことは、1コア当たり64kBってことだから…

多分、分散共有メモリだと思うから、GPUのようにグローバルバスを介さずに、各プロセッサが64MBのS-RAMにアクセスできるようにしているんじゃないかな。

隣接するプロセッサのメモリも、それなりの性能でアクセスできると思う。
プロセッサ間のインターコネクトのアーキテクチャに依存するけど
両端にあるプロセッサについているメモリへのアクセスも高速である
可能性があるから、多少の性能減で、64kBより大きい仮想通貨も
いける可能性があると、みているけど。

10 :izuna五段:2016/10/10 19:25:42  0MONA/0人

>>1 紛らわしいので補足します。

日本発のプロセッサー(PEZY-SC)は、こちらになります。
http://pezy.co.jp/products/pezy-sc.html

GIGAZINEの記事のEpiphany-Vは日本発ではないです。

11 :名無し名誉名人教士:2016/10/10 19:43:22  0MONA/0人

>>9
でも、各コアで別々の演算をしているから、メモリの共用は無理かと…
(neo-scrypt 256kB 3段打ちメソッド適用で64kB)1コアあたり64kB使用して、各々排他利用(共用はできない)だから、合計64MBになる…って感じかな?

12 :izuna五段:2016/10/10 19:50:42  0MONA/0人

ちなみに僕は1990~1993年ごろ某大学の研究室で分散共有メモリのシステムのためのプロセッサへの仕事割り当てアルゴリズムを研究していた。
(やる気のない修士論文だから、読んでも意味ないよ)

Epiphany-Vが、どんなアーキテクチャなのか
https://www.parallella.org/
に僕がアクセスしても
「このサイトにアクセスできません
www.parallella.org で接続が拒否されました。」
となってしまうので、誰か、わかる人は、投稿してみよう。

13 :izuna五段:2016/10/10 19:57:50  0MONA/0人

>>11
GPUでもGCNのローカルメモリのように共有できるメモリはある。
複数のプロセッサからのアクセスがコンフリクトしないように、すればいいだけだよ。

同じサイクルで2つのアドレスを読み出せるメモリなんてのも普通にある。
作れば、どうやっても、できる。あとは効率の問題。

「1024bitの演算コアをもつ日本発のプロセッサーを作った」僕がいうのだから、間違いないよ。(爆笑)

14 :izuna五段:2016/10/10 20:04:54  0MONA/0人

>>13
>「1024bitの演算コアをもつ日本発のプロセッサーを作った」

↓これが1024bitのレジスタ4本をもつプロセッサ。
http://openicf3.idletime.tokyo/

他にモンゴメリ乗算演算器に1024bitレジスタが4本、
リード・ライトのみの1024bitレジスタが16本、
あったりする。

15 :名無し名誉名人教士:2016/10/10 20:43:04  0MONA/0人

>>13
なんか話が食い違うと思ったら…
うん、帯域はそうだね。でも容量は…

16 :izuna五段:2016/10/10 20:54:32  0MONA/0人

>>15
> うん、帯域はそうだね。でも容量は…

そうですね。
容量についてはモナコインのLyra2REv2のように真ん中の1か所でのみ
メモリアクセスが多いというようなアルゴリズムでないと64kBを
超えるのは、難しいかな。

17 :izuna五段:2016/10/10 20:58:49  0MONA/0人

>>16
性能半減しても、まだ採掘LSIとして優位なら、半分の512個の
プロセッサだけを使って128kBを使えるようにする方法は、あるね。

18 :izuna五段:2016/10/10 21:05:45  0MONA/0人

>>17 もう少しいい解があった

512スレッドにして、1スレッドに2個のプロセッサを割り当てて
並列処理すれば、もう少し性能が上がるかも。
ただ仮想通貨でよく使われるハッシュは、あまり並列性がないけど
CPU向きの仮想通貨では、並列性があれば、それなりに性能が上がるね。

19 :名無し名誉名人教士:2016/10/10 22:04:09  0MONA/0人

そうか、冷静に考えたらCUDAじゃないから、各スレッドで別の演算をすることもできるのかな?
だったら、neoscrypt(yescryptも?)ではchachaとsalsaの演算で並列処理ができるから…
4分割(3段打ちメソッド)×2並列(chachaとsalsa)×128スレッド=1024コアが可能になる。1コアあたり32kBで実行可能だな。

20 :izuna五段:2016/10/10 23:53:30  0MONA/0人

さっきは https://www.parallella.org/ のサイトにいっても接続拒否されて読めなかったけど

プロセッサ間のインターコネクトは
Three 136-bit wide 2D mesh NOCs
と、書いてあるね。NOCは、Network-on-Chip の略語のようです。

英語は苦手だが、これが読めないはずないだろう。

21 :名無し三段:2016/10/11 01:39:43  0.1MONA/1人

暗号解読にいいな

22 :izuna五段:2016/10/11 05:47:54  0MONA/0人

>>21
そうですね!

ただ国産のファイル暗号でメニーコアプロセッサが必要なものは、あまりないかも。量産化で安くなっているGPUで解読できるものが多い。

さらに国産のファイル暗号はビットコインで使われているSHA-256を使っているものが、わりとあるから、中国のビットコイン採掘工場が本気を出して暗号解読をすると、危険かも。

23 :izuna五段:2016/10/11 06:10:47  0MONA/0人

>>22
日本で有名なファイル暗号、アタッシェケースが、メジャーバージョンアップをして暗号解読しにくくなるような改善を、つい先月行ったようだ。幸いにもビットコインのSHA-256ではないのでビットコインの採掘ASICによる脅威はないが、しかし強度はあまり高くない。

一応、セキュリティの専門家として、ちょっとGPUによる解読ソフトの試作をしてみた。1週間前に試作は完成したんだけど、完成した直後にパソコンのOS起動用SSDが、真っ白になって、復旧に1週間かかった。
いま性能を上げるための最適化をしている最中だが、ループアンローリングとかしても、全然、性能があがらない。性能改悪になる場合が多くて、ちょっと想定外だった。

NTT-X StoreでAMDのRX470のオーバークロックモデルが21,981円だったから、買って、商品が到着するのを待っている状態。
RX470はプロセッサ数 2048、クロックは1256 MHz
メニーコアLSIが、このコストパフォーマンスを超えられるか?というところかな、AMDは消費電力が大きいみたいだから運用コストも考えないといけないのだけど、なにも電気の高い日本で解読する必要はなくて、電気の安い国のGPU搭載パソコンを借りてネットワークで操作すればいいからね。

24 :izuna五段:2016/10/11 06:40:01  0MONA/0人

>>23 (続き)
新しいバージョンのアタッシェケースは、モナコインの以前のハッシュアルゴリズム、Scryptと同じPBKDF2だ。モナコインはSHA-256を使ったPBKDF2だが、アタッシェケースはSHA-1。

そう、僕が、1999年にIBMの5倍以上の性能のASICを開発したSHA-1。
( http://www.canal.mokuren.ne.jp/memo/sha1ronri.html )

モナコイン界で有名な、びりある氏も、Scrypt(PBKDF2-SHA256)の高速化記事を書いているけど、僕が2009年に公開したファイル暗ToraTora(http://icanal.idletime.tokyo/toratora/index.html)がPBKDF2-SHA-1だったりする。AMDのOpenCLのサンプルにToraToraのコード貼り付けて動かすことに成功した。

ToraToraはアタッシェケースと同じアルゴリズムだが、アタッシェケースではループ回数が1000回なのに対してToraToraは、もっといっぱいループさせているので安全なのだ。

25 :izuna五段:2016/10/11 07:02:30  0MONA/0人

参考までに、僕の学生の頃の研究室の話をするなら、並列化コンパイラの研究室だった。ループ中にある配列変数の添え字を見てデータ依存解析とかして、自動的に並列化するというもの。

簡単にいうと、ループアンローリングとか研究している研究室ってことかな。僕自身は、関与していなかったけど。

僕は静岡県の沼津にある富士通のスパコンにモデムで接続してメモリの転送性能とか測定させてもらったことあるよ。
当時のスパコンには分散共有メモリというものはなかったが、集中共有メモリを分散共有メモリだと思って、研究を進めるみたいな。
>>5 の人が、プロセッサ数が多くなるとメモリアクセスが厳しくなるといっているけど、まさに、そのための研究かな。

26 :izuna五段:2016/10/13 12:49:37  0MONA/0人

>>25 (余談の余談)

僕の研究室の教授が、IEEE Computer Society会長に当選したみたいです。
70年の歴史の中で、北米以外からの初めての会長就任という快挙のようです。
笠原教授、おめでとうございます。

* 学会からの正式アナウンス:
https://www.computer.org/web/pressroom/2017-cs-president-elect
* 選挙結果
https://www.computer.org/web/election/past-election-results

お気に入り

新規登録してMONAをもらおう

登録すると、投稿したり、MONAをもらったりすることができます。質問したり、答えたりしてMONAを手に入れてください。

新規登録ログイン