PRML 第5章 - nykergoto’s blog

ニューラルネットワークのところを読んでいますが詰まりました．

${\displaystyle y_k(x,w)=\sigma(\sum^M_jw^{2}_{ik}h(\sum^D_iw^{1}_{ji}x_i)) }$

という風になっていて、

そこで疑問なのが、
例えばKクラスの分類問題をニューラルネットワークに説かせようと思った時、
この最後の ${\sigma}$ の部分をソフトマックス関数

${\displaystyle \sigma=\exp(a_k)/\sum_j\exp(a_j) }$
とすれば良い
（ただし ${a_k}$ は出力ユニットへの活性である）

という説明があるのだけれど、疑問がひとつ．

最終の出力ユニットの活性 ${a_k}$ は ${a_k=\sum^M_kw^{2}_{kj}a_j}$ となっているのだから、
出力ユニットjへの入力は既に隠れユニットの出力 ${a_j}$ と重み ${w_{kj}}$ の積の和になっているはずで、

そこからどうやって各々の ${a_j}$ を計算しなおしてるんだろうか…という

なんか多分どうでもいい勘違いなんだろうけど凄くイライラ．