Мы только что рассмотрели софтмакс функцию активации (хотя это не совсем функция активации...):
SMi(y⃗ )=eyi∑Nj=1eyjSMi(y→)=eyi∑j=1Neyj SM_i (\vec y) = \frac{ e^{y_i} }{ \sum_{j=1}^{N} {e^{y_j}} }
А зачем в этой формуле, в знаменателе, сумма экспонент по всем выходам, если мы ищем вероятность чего-либо?..

  • без этого результат может быть больше 1, вероятности не бывают более 100%
  • без этого результат может иногда быть равным 0, это плохо для дифференцирования
  • без этого результат может оказаться отрицательным, вероятность не бывает меньше 0
Для просмотра статистики ответов нужно залогиниться.