다층 퍼셉트론 - Multilayer perceptron

다층 퍼셉트론 (MLP)는 클래스의 피드 포워드 신경망 (ANN). MLP라는 용어는 모호하게, 때로는 모든 피드 포워드 ANN 대해 느슨하게 사용되며 , 때로는 엄격하게 여러 계층의 퍼셉트론 (임계 값 활성화 포함) 으로 구성된 네트워크를 지칭하기 위해 사용됩니다 . § 용어 참조 . 다층 퍼셉트론은 특히 단일 은닉층이있는 경우 "바닐라"신경망이라고도합니다. [1]

MLP는 입력 레이어, 히든 레이어 및 출력 레이어의 3 개 이상의 노드 레이어로 구성됩니다. 입력 노드를 제외하고 각 노드는 비선형 활성화 함수 를 사용하는 뉴런입니다 . MLP는 훈련을 위해 역전 파라지도 학습 기술을 사용합니다 . [2] [3] 다중 레이어와 비선형 활성화는 MLP를 선형 퍼셉트론 과 구별 합니다. 선형으로 분리 할 수없는 데이터를 구별 할 수 있습니다 . [4]

이론

활성화 기능

다층 퍼셉트론이 모든 뉴런에서 선형 활성화 함수 , 즉 가중치가 적용된 입력 을 각 뉴런의 출력에 매핑하는 선형 함수 갖는 경우 선형 대수 는 임의의 수의 계층을 2 계층 입력으로 줄일 수 있음을 보여줍니다. 출력 모델. MLP에서 일부 뉴런 은 생물학적 뉴런 활동 전위 또는 발사 빈도를 모델링하기 위해 개발 비선형 활성화 함수를 사용합니다 .

역사적으로 일반적인 두 가지 활성화 함수는 모두 시그 모이 드 이며 다음과 같이 설명됩니다.

.

최근 발전에서 딥 러닝 정류기 선형 부 (ReLU) 자주 수치 극복 할 수있는 방법의 하나로서 사용되는 문제 sigmoids 관련있다.

첫 번째는 -1에서 1 사이 쌍곡 탄젠트 이고 다른 하나는 모양이 비슷하지만 0에서 1 사이의 범위 인 로지스틱 함수입니다 . 의 출력입니다 번째 노드 (뉴런) 및 입력 연결의 가중 합계입니다. 정류기 및 소프트 플러스 기능을 포함한 대체 활성화 기능이 제안되었습니다 . 보다 전문화 된 활성화 함수에는 방사형 기저 함수 ( 방사형 기저 네트워크 , 또 다른 종류의 감독 신경망 모델에 사용됨 )가 포함됩니다.

레이어

MLP는 비선형 활성화 노드 의 3 개 이상의 레이어 (하나 이상의 숨겨진 레이어가 있는 입력 및 출력 레이어 )로 구성됩니다. MLP가 완전히 연결되어 있기 때문에 한 레이어의 각 노드는 특정 가중치로 연결됩니다. 다음 레이어의 모든 노드에.

배우기

학습은 예상 결과와 비교 한 출력의 오류 양을 기반으로 각 데이터 조각이 처리 된 후 연결 가중치를 변경하여 퍼셉트론에서 발생합니다. 이것은 지도 학습 의 예이며 , 선형 퍼셉트론에서 최소 평균 제곱 알고리즘 의 일반화 인 역 전파 를 통해 수행됩니다 .

출력 노드의 오류 정도를 나타낼 수 있습니다. 데이터 포인트 (훈련 예) , 어디 목표 값이고 퍼셉트론이 생성하는 값입니다. 노드 가중치는 다음과 같이 전체 출력의 오류를 최소화하는 수정을 기반으로 조정할 수 있습니다.

.

경사 하강 법을 사용하면 각 가중치의 변화는 다음과 같습니다.

어디 이전 뉴런의 출력이고 는 IS 학습 속도 진동하지 않고, 무게는 신속하게 응답으로 수렴하도록 선택됩니다.

계산할 미분은 유도 된 로컬 필드에 따라 다릅니다. , 그 자체가 다릅니다. 출력 노드의 경우이 파생물이 다음과 같이 단순화 될 수 있음을 쉽게 증명할 수 있습니다.

어디 위에서 설명한 활성화 함수의 파생물이며 그 자체는 변하지 않습니다. 은닉 노드에 대한 가중치 변경에 대해서는 분석이 더 어렵지만 관련 도함수는 다음과 같음을 알 수 있습니다.

.

이것은 무게의 변화에 ​​달려 있습니다 th nodes, which represent the output layer. So to change the hidden layer weights, the output layer weights change according to the derivative of the activation function, and so this algorithm represents a backpropagation of the activation function.[5]


Terminology

The term "multilayer perceptron" does not refer to a single perceptron that has multiple layers. Rather, it contains many perceptrons that are organized into layers. An alternative is "multilayer perceptron network". Moreover, MLP "perceptrons" are not perceptrons in the strictest possible sense. True perceptrons are formally a special case of artificial neurons that use a threshold activation function such as the Heaviside step function. MLP perceptrons can employ arbitrary activation functions. A true perceptron performs binary classification, an MLP neuron is free to either perform classification or regression, depending upon its activation function.

The term "multilayer perceptron" later was applied without respect to nature of the nodes/layers, which can be composed of arbitrarily defined artificial neurons, and not perceptrons specifically. This interpretation avoids the loosening of the definition of "perceptron" to mean an artificial neuron in general.

Applications

MLPs are useful in research for their ability to solve problems stochastically, which often allows approximate solutions for extremely complex problems like fitness approximation.

MLPs are universal function approximators as shown by Cybenko's theorem,[4] so they can be used to create mathematical models by regression analysis. As classification is a particular case of regression when the response variable is categorical, MLPs make good classifier algorithms.

MLPs were a popular machine learning solution in the 1980s, finding applications in diverse fields such as speech recognition, image recognition, and machine translation software,[6] but thereafter faced strong competition from much simpler (and related[7]) support vector machines. Interest in backpropagation networks returned due to the successes of deep learning.

References

  1. ^ Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009.
  2. ^ Rosenblatt, Frank. x. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Spartan Books, Washington DC, 1961
  3. ^ Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.
  4. ^ a b Cybenko, G. 1989. Approximation by superpositions of a sigmoidal function Mathematics of Control, Signals, and Systems, 2(4), 303–314.
  5. ^ Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation (2 ed.). Prentice Hall. ISBN 0-13-273350-1.
  6. ^ Neural networks. II. What are they and why is everybody so interested in them now?; Wasserman, P.D.; Schwartz, T.; Page(s): 10-15; IEEE Expert, 1988, Volume 3, Issue 1
  7. ^ R. Collobert and S. Bengio (2004). Links between Perceptrons, MLPs and SVMs. Proc. Int'l Conf. on Machine Learning (ICML).

External links