Transformer
시작으로 먼저 Transformer에 대해서 이야기를 해볼까 합니다.
요약하면 sequence transduction models는 encoder and a decode를 포함하는 복잡한 recurrent or convolutional neural networks에 기초한다. 가장 성능이 좋은 모델은 attention mechanism을 통해 encoder and decode를 연결한다. 우리는 recurrence and convolutions neural networks를 제거하고 오로지 attention mechanisms에만 기초한 새롭고 간단한 network 구조를 제안한다.
우리는 Transformer가 크고 제한된 훈련 자료로 영어 문법 해석에 성공적으로 적용됨으로써 다른 tasks에서도 잘 일반화됨을 보여준다.
이제 이를 바탕으로, 인코더와 디코더를 중심의 NLU, ULG 분야가 나뉘게 됩니다.
NLU 분야는 Bert 계열입니다.
Bert: https://lnkd.in/gFnUqqH
RoBERTa: https://lnkd.in/gWxFMmy
SpanBERT: https://lnkd.in/gTkpyKf
ULG 분야는 GPT 계열입니다.
GPT-1: https://lnkd.in/gekdtQV
GPT-2: https://lnkd.in/gzi_62a
XLNet: https://lnkd.in/gzBH-YX
그리고 트랜스포머 자체의 성능을 높이는 논문들도 있습니다.
Transformer-XL: https://lnkd.in/g7VYGEw
Performer: https://lnkd.in/g9RqFec
T5: https://lnkd.in/gE7ArRe
흥미롭게도 이제는 비전, NLP, 음성 모두 트랜스포머를 사용하고 있습니다. 뿐만 아니라 거의 모든 분야에서 사용하는 중입니다.
ViT: https://lnkd.in/gP86yQk
JDI-T: https://lnkd.in/gRBM4Am
TabNet: https://lnkd.in/gkKHKjV
TFT: https://lnkd.in/gs-PpMd
A Survey of Transformers: https://lnkd.in/gZ_mN6s
요즘은 GPT-3와 같은 초 거대 모델이 화제가 되고 있죠.
다음은 Transformer를 따르지 않고, 전혀 새로운 길을 개척하는 논문들을 소개할까 합니다.
Liquid
액체가 흐르면서 움직이는 전기 회로를 상상할 수 있을까?
MIT 연구원들은 이 유연한 알고리즘을 ‘액체 네트워크’라고 불렀다. 연구진에 따르면 알고리듬의 이러한 발전은 의료 진단 및 자율주행 관련자를 포함해 시간이 지남에 따라 변화하는 데이터 스트림을 기반으로 하는 의사결정에 도움이 될 수 있다고 하사니 연구원은 전했다.
하사니 교수는 “시계열 데이터는 어디서나 볼 수 있으며 이 세계를 이해하는 데 필수적인 것으로 실제로 우리의 현실을 만들어낸다.”라고 강조했다.
그는 또, “이렇게 끊임없이 변화하는 데이터 스트림은 예측할 수 없으므로 이러한 데이터를 실시간으로 분석해 미래 행동을 예측하기 위해 액체 네트워크 알고리즘을 만들었다”고 밝혔다.
기술이 이런 추세로 발전한다면, 액체 신경망으로 이뤄진 액체 인공지능 뇌의 완전한 모습을 볼 날도 머지않을 것으로 기대된다.
현실로 다가오는 액체 인공지능 뇌...보다 유연한 AI 개발을 위한 도전
http://www.aitimes.com/news/articleView.html?idxno=138840
We then conduct a series of time-series prediction experiments to manifest the approximation capability of Liquid Time-Constant Networks (LTCs) compared to classical and modern RNNs. Code and data are available at this https://github.com/raminmh/liquid_time_constant_networks
Liquid Time-constant Networks https://arxiv.org/abs/2006.04439
아직은 정말로 액체 뇌를 구현한 것은 아닙니다. 이에 대한 동작 원리를 만들었죠. 정말 흥미로운 기술입니다.
GLOM
힌튼 교수는 논문에서 ”인간의 뇌는 ‘파스 트리(parse tree)’라고 불리는 기능으로 전체-부분 관계를 이해한다. 파스 트리는 전체와 부분, 하위 부분 간의 계층적 관계를 보여주는 트리 형태다.”라고 말했다. 일례로, 얼굴은 트리의 가장 높이 있고, 구성요소인 눈, 코, 귀, 입은 아래 가지를 형성한다.
그에 따르면 다층 인공신경망 연구에는 여전히 주요 난제들이 남아 있는데 인공지능이 물체의 부분-전체를 이해하기 어려운 점들도 그 중의 하나라는 것.
힌튼은 일부 전문가들의 비평에도 불구하고, 글롬을 통해 이 문제를 해결할 것이며, 이는 딥러닝 기술과는 다르다고 논문에서 밝혔다.
그는 “글롬이 언제든 작동한다면, 이는 현재의 인공신경망보다 훨씬 더 인간과 비슷한 방식으로 지각하게 될 것”이라는 희망 섞인 메시지를 전달했다.
ML의 한계, 이제 글롬(GLOM)을 주목하라! ...제프리 힌튼의 새로운 도전
http://www.aitimes.com/news/articleView.html?idxno=138348
If GLOM can be made to work, it should significantly improve the interpretability of the representations produced by transformer-like systems when applied to vision or language. https://github.com/lucidrains/glom-pytorch
How to represent part-whole hierarchies in a neural network https://arxiv.org/abs/2102.12627
새로운 딥러닝 모델이 만들어지고 있습니다. 이들은, 일반적인 DNN, 트랜스포머 심지어 불가능하다는 말도 따르지 않죠.
기존의 시스템을 의심하고, 실패를 두려워하지 않고 나아가며, 우리의 상상 이상의 결과를 만들고 있습니다. 물론 Transformer를 쓰는 곳도 많습니다.
RL
In this article we hypothesise that intelligence, and its associated abilities, can be understood as subserving the maximisation of reward. Accordingly, reward is enough to drive behaviour that exhibits abilities studied in natural and artificial intelligence, including knowledge, learning, perception, social intelligence, language, generalisation and imitation. This is in contrast to the view that specialised problem formulations are needed for each ability, based on other signals or objectives. Furthermore, we suggest that agents that learn through trial and error experience to maximise reward could learn behaviour that exhibits most if not all of these abilities, and therefore that powerful reinforcement learning agents could constitute a solution to artificial general intelligence.
https://www.sciencedirect.com/science/article/pii/S0004370221000862
과연 누가 미래를 지배할까요? 아직은 전혀 모르겠습니다 ㅎㅎㅎ
미래는 언제나 기대됩니다. 우리의 상상을 뛰어넘는 위대한 발견이 매일 등장합니다.
Liquid, GLOM, RL, Transformer? 미래의 인공지능은 무엇이 지배할까요?
http://www.aitimes.com/news/articleView.html?idxno=133028
확실히 LM은 매력적입니다. 그럼에도 우리는
FermiNet
결국 영자로 회귀할까요?
효율적인 표현 문제를 해결하기 위해 DeepMind의 연구원들은 인공 지능 문제에 역사적으로 고차원 함수를 적용한 양자 파동 함수를 나타내는 데 신경망을 사용할 수 있다고 제안했습니다. FermiNet죠.
신경망은 계층으로 배열되며 수학적 기능인 뉴런을 포함합니다. 이 뉴런은 입력 데이터에서 신호를 전송하고 각 연결의 시냅스 강도를 천천히 조정합니다. 이렇게 하면 기능을 추출하고 예측하는 방법을 배웁니다.
전자는 페르미온으로 알려진 입자의 한 유형이기 때문에 파동 함수는 비대칭이어야 합니다. 행렬의 행렬 식의 속성과 마찬가지로 두 전자의 위치가 바뀌면 파동 함수에 -1을 곱합니다. 이것은 서로 위에 두 개의 전자가 있으면 파동 함수와 그 구성의 확률이 0이 됨을 의미합니다.
DeepMind Open-Sources The FermiNet: A Deep Learning Model For Computing The Energy Of Atoms
https://www.marktechpost.com/2020/10/21/deepmind-open-sources-the-ferminet-a-deep-learning-model-for-computing-the-energy-of-atoms/
https://doooob.tistory.com/221
FermiNets: Quantum Physics and Chemistry from First Principles
An implementation of the algorithm and experiments defined in "Ab-Initio Solution of the Many-Electron Schroedinger Equation with Deep Neural Networks", David Pfau, James S. Spencer, Alex G de G Matthews and W.M.C. Foulkes, Phys. Rev. Research 2, 033429 (2020). FermiNet is a neural network for learning the ground state wavefunctions of atoms and molecules using a variational Monte Carlo approach.
https://github.com/deepmind/ferminet
공부해야 될 게 너무 많아서, 감도 안 잡히는 요즘입니다 ㅎㅎ
어떤 알고리즘이 가장 흥미롭나요? 세상일은 모르죠. 저 모든 알고리즘을 하나로 통일할 수 있는 천재가 등장할지, 모두 사용할지, 하나만 사용할지 궁금합니다.