본문 바로가기

AI 이야기

인공지능의 미래 | 새로운 지능은 어떻게 만들어질 것인가?

Transformer

시작으로 먼저 Transformer에 대해서 이야기를 해볼까 합니다.

 

ATTENTION IS ALL YOU NEED 논문 리뷰

RNN이나 CNN이 아닌 새로운 구조를 개척한 Attention Is All You Need을 리뷰를 해보겠다. 특이한 구조를 가지고 있다. 한국어 리뷰1, 한국어 리뷰2, 논문을 참고하자. ABSTRACT sequence transduction models..

hipgyung.tistory.com

 

The Illustrated Transformer

Discussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Chinese (Simplified), French, Japanese, Korean, Russian, Spanish, Vietnamese Watch: MIT’s Deep Learning State of the Art lecture referencing

jalammar.github.io


요약하면 sequence transduction models는 encoder and a decode를 포함하는 복잡한 recurrent or convolutional neural networks에 기초한다. 가장 성능이 좋은 모델은 attention mechanism을 통해 encoder and decode를 연결한다. 우리는 recurrence and convolutions neural networks를 제거하고 오로지 attention mechanisms에만 기초한 새롭고 간단한 network 구조를 제안한다.

우리는 Transformer가 크고 제한된 훈련 자료로 영어 문법 해석에 성공적으로 적용됨으로써 다른 tasks에서도 잘 일반화됨을 보여준다.

이제 이를 바탕으로, 인코더와 디코더를 중심의 NLU, ULG 분야가 나뉘게 됩니다.

NLU 분야는 Bert 계열입니다.
Bert: https://lnkd.in/gFnUqqH
RoBERTa: https://lnkd.in/gWxFMmy
SpanBERT: https://lnkd.in/gTkpyKf

ULG 분야는 GPT 계열입니다.
GPT-1: https://lnkd.in/gekdtQV
GPT-2: https://lnkd.in/gzi_62a
XLNet: https://lnkd.in/gzBH-YX

그리고 트랜스포머 자체의 성능을 높이는 논문들도 있습니다.
Transformer-XL: https://lnkd.in/g7VYGEw
Performer: https://lnkd.in/g9RqFec
T5: https://lnkd.in/gE7ArRe

흥미롭게도 이제는 비전, NLP, 음성 모두 트랜스포머를 사용하고 있습니다. 뿐만 아니라 거의 모든 분야에서 사용하는 중입니다.
ViT: https://lnkd.in/gP86yQk
JDI-T: https://lnkd.in/gRBM4Am
TabNet: https://lnkd.in/gkKHKjV
TFT: https://lnkd.in/gs-PpMd
A Survey of Transformers: https://lnkd.in/gZ_mN6s

요즘은 GPT-3와 같은 초 거대 모델이 화제가 되고 있죠.

 

AI의 명암을 모두 담은 소우주, GPT-3 - MIT Technology Review

오픈AI의 GPT-3는 완벽한 영어 구사로 대중을 감탄하게 했다. 하지만 만약 이것이 허상이라면?

www.technologyreview.kr

 

GPT-3, 인류 역사상 가장 뛰어난 '언어 인공지능'이다 - 인공지능신문

필자 김종윤은 현재, 스캐터랩 코파운더 및 대표이사로 2013년 카카오톡 대화를 통한 감정분석 ‘텍스트앳’ 출시, 2015년 커플 메신저 비트윈과의 협업으로 사랑을 이해하는 인공지능 ‘진저’

www.aitimes.kr

 

GPT-3 - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search 2020 text-generating language model Generative Pre-trained Transformer 3 (GPT-3) is an autoregressive language model that uses deep learning to produce human-like text. It is the third

en.wikipedia.org

 

다음은 Transformer를 따르지 않고, 전혀 새로운 길을 개척하는 논문들을 소개할까 합니다.


Liquid

액체가 흐르면서 움직이는 전기 회로를 상상할 수 있을까?

MIT 연구원들은 이 유연한 알고리즘을 ‘액체 네트워크’라고 불렀다. 연구진에 따르면 알고리듬의 이러한 발전은 의료 진단 및 자율주행 관련자를 포함해 시간이 지남에 따라 변화하는 데이터 스트림을 기반으로 하는 의사결정에 도움이 될 수 있다고 하사니 연구원은 전했다.

하사니 교수는 “시계열 데이터는 어디서나 볼 수 있으며 이 세계를 이해하는 데 필수적인 것으로 실제로 우리의 현실을 만들어낸다.”라고 강조했다.

그는 또, “이렇게 끊임없이 변화하는 데이터 스트림은 예측할 수 없으므로 이러한 데이터를 실시간으로 분석해 미래 행동을 예측하기 위해 액체 네트워크 알고리즘을 만들었다”고 밝혔다.

기술이 이런 추세로 발전한다면, 액체 신경망으로 이뤄진 액체 인공지능 뇌의 완전한 모습을 볼 날도 머지않을 것으로 기대된다.

현실로 다가오는 액체 인공지능 뇌...보다 유연한 AI 개발을 위한 도전
http://www.aitimes.com/news/articleView.html?idxno=138840

 

 

“Liquid” machine-learning system adapts to changing conditions

MIT researchers developed a neural network that learns on the job, not just during training. The “liquid” network varies its equations’ parameters, enhancing its ability to analyze time series data. The advance could boost autonomous driving, medical

news.mit.edu

 

Fast nanoparticle rotational and translational diffusion in synovial fluid and hyaluronic acid solutions

Nanoparticles are under investigation as diagnostic and therapeutic agents for joint diseases, such as osteoarthritis. However, there is incomplete understanding of nanoparticle diffusion in synovial fluid, the fluid inside the joint, which consists of a m

advances.sciencemag.org

https://github.com/mlech26l/keras-ncp

 

We then conduct a series of time-series prediction experiments to manifest the approximation capability of Liquid Time-Constant Networks (LTCs) compared to classical and modern RNNs. Code and data are available at this https://github.com/raminmh/liquid_time_constant_networks

Liquid Time-constant Networks
https://arxiv.org/abs/2006.04439

 

아직은 정말로 액체 뇌를 구현한 것은 아닙니다. 이에 대한 동작 원리를 만들었죠. 정말 흥미로운 기술입니다.


GLOM

힌튼 교수는 논문에서 ”인간의 뇌는 ‘파스 트리(parse tree)’라고 불리는 기능으로 전체-부분 관계를 이해한다. 파스 트리는 전체와 부분, 하위 부분 간의 계층적 관계를 보여주는 트리 형태다.”라고 말했다. 일례로, 얼굴은 트리의 가장 높이 있고, 구성요소인 눈, 코, 귀, 입은 아래 가지를 형성한다.

그에 따르면 다층 인공신경망 연구에는 여전히 주요 난제들이 남아 있는데 인공지능이 물체의 부분-전체를 이해하기 어려운 점들도 그 중의 하나라는 것.

힌튼은 일부 전문가들의 비평에도 불구하고, 글롬을 통해 이 문제를 해결할 것이며, 이는 딥러닝 기술과는 다르다고 논문에서 밝혔다.

그는 “글롬이 언제든 작동한다면, 이는 현재의 인공신경망보다 훨씬 더 인간과 비슷한 방식으로 지각하게 될 것”이라는 희망 섞인 메시지를 전달했다.

ML의 한계, 이제 글롬(GLOM)을 주목하라! ...제프리 힌튼의 새로운 도전
http://www.aitimes.com/news/articleView.html?idxno=138348

https://www.technologyreview.kr/geoffrey-hinton-glom-godfather-ai-neural-networks/

 

제프리 힌튼, AI의 다음 단계를 예견하다 - MIT Technology Review

10년 전 인공지능의 선구자 힌튼은 획기적인 돌파구로 이 분야를 탈바꿈시켰다. 지금 그는 GLOM이라는 새로운 가상시스템을 연구하고 있다.

www.technologyreview.kr

https://github.com/lucidrains/glom-pytorch

 

If GLOM can be made to work, it should significantly improve the interpretability of the representations produced by transformer-like systems when applied to vision or language. https://github.com/lucidrains/glom-pytorch

How to represent part-whole hierarchies in a neural network
https://arxiv.org/abs/2102.12627


새로운 딥러닝 모델이 만들어지고 있습니다. 이들은, 일반적인 DNN, 트랜스포머 심지어 불가능하다는 말도 따르지 않죠.

 

실패를 두려워하지 않았던 딥러닝의 대가들 – Sciencetimes

 

www.sciencetimes.co.kr

 

기존의 시스템을 의심하고, 실패를 두려워하지 않고 나아가며, 우리의 상상 이상의 결과를 만들고 있습니다. 물론 Transformer를 쓰는 곳도 많습니다.


RL

딥마인드 연구진은 도토리를 하나씩 따다 보관해 굶주림을 최소화하는 보상이 동반되는 작업을 수행하는 다람쥐와 청결이라는 단일 목표를 위해 각 과정마다 임무를 완성해가는 주방용 로봇을 예로 들어 강화학습의 보상이 AGI를 만드는 데 최적의 방법이라고 설명했다. (그림=Reward is Enough 논문 발췌).

 

 

딥마인드 “강화학습이 범용AI 달성하는 시대 곧 온다” - AI타임스

딥마인드 연구진이 머신러닝의 한 영역인 강화학습(Reinforcement Learning)이 머지않은 미래 인간의 인지 능력을 복제하고 범용인공지능(Artificial General Intelligence, AGI) 수준으로 발전할 것이라고 주장.

www.aitimes.com

 

데이터·AI가 이끄는 과학기술계의 패러다임 전환 – Sciencetimes

 

www.sciencetimes.co.kr

 

정송 KAIST AI대학원장 “초거대AI 언어모델 다음은 강화학습 시대” - AI타임스

미래 사회 의사결정은 강화학습이 담당할 것입니다.초거대 언어모델에 이어 인공지능(AI)계를 이끌 차세대 주인공으로 강화학습이 지목됐다. 딥마인드 알파고로 유명한 강화학습이 학계를 넘어

www.aitimes.com

정송 원장이 제시한 ICML 2018 논문 주제 순위. 강화학습이 2위다.(사진=박성은 기자)

In this article we hypothesise that intelligence, and its associated abilities, can be understood as subserving the maximisation of reward. Accordingly, reward is enough to drive behaviour that exhibits abilities studied in natural and artificial intelligence, including knowledge, learning, perception, social intelligence, language, generalisation and imitation. This is in contrast to the view that specialised problem formulations are needed for each ability, based on other signals or objectives. Furthermore, we suggest that agents that learn through trial and error experience to maximise reward could learn behaviour that exhibits most if not all of these abilities, and therefore that powerful reinforcement learning agents could constitute a solution to artificial general intelligence.

https://www.sciencedirect.com/science/article/pii/S0004370221000862
 

Reward is enough

In this article we hypothesise that intelligence, and its associated abilities, can be understood as subserving the maximisation of reward. Accordingl…

www.sciencedirect.com

 

과연 누가 미래를 지배할까요? 아직은 전혀 모르겠습니다 ㅎㅎㅎ

미래는 언제나 기대됩니다. 우리의 상상을 뛰어넘는 위대한 발견이 매일 등장합니다.

Liquid, GLOM, RL, Transformer? 미래의 인공지능은 무엇이 지배할까요?

https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021

 

Translating lost languages using machine learning

MIT researchers have created a machine learning system that aims to help linguists decipher lost languages.

news.mit.edu

 

사진 = 구글 파브리시우스

http://www.aitimes.com/news/articleView.html?idxno=133028 

 

MIT, 퓨샷(few-shot)러닝으로 사라진 언어 해독 알고리즘 개발 - AI타임스

MIT 컴퓨터 공학 인공지능 연구소(CSAIL)가 대조 가능한 연관 언어 없이도 비지도학습을 통해 잊혀진 고대문자를 해독할 수 있는 인공지능(AI) 알고리즘을 새로 개발했다고 21일(현지시간) MIT 뉴스

www.aitimes.com

 

확실히 LM은 매력적입니다. 그럼에도 우리는

FermiNet

결국 영자로 회귀할까요?

효율적인 표현 문제를 해결하기 위해 DeepMind의 연구원들은 인공 지능 문제에 역사적으로 고차원 함수를 적용한 양자 파동 함수를 나타내는 데 신경망을 사용할 수 있다고 제안했습니다. FermiNet죠.

신경망은 계층으로 배열되며 수학적 기능인 뉴런을 포함합니다. 이 뉴런은 입력 데이터에서 신호를 전송하고 각 연결의 시냅스 강도를 천천히 조정합니다. 이렇게 하면 기능을 추출하고 예측하는 방법을 배웁니다.

전자는 페르미온으로 알려진 입자의 한 유형이기 때문에 파동 함수는 비대칭이어야 합니다. 행렬의 행렬 식의 속성과 마찬가지로 두 전자의 위치가 바뀌면 파동 함수에 -1을 곱합니다. 이것은 서로 위에 두 개의 전자가 있으면 파동 함수와 그 구성의 확률이 0이 됨을 의미합니다. 
DeepMind Open-Sources The FermiNet: A Deep Learning Model For Computing The Energy Of Atoms

https://www.marktechpost.com/2020/10/21/deepmind-open-sources-the-ferminet-a-deep-learning-model-for-computing-the-energy-of-atoms/
 

DeepMind Open-Sources The FermiNet: A Deep Learning Model For Computing The Energy Of Atoms

DeepMind Open-Sources the FermiNet: A Deep Learning Model For Computing The Energy Of Atoms.

www.marktechpost.com

https://doooob.tistory.com/221

 

최초로 신경망 양자화학 계산을 실현한 시스템이 오픈소스화

AlphaGo 등을 개발하는 DeepMind가 양자화학 계산을 신경망으로 하는 시스템 FermiNet을 2020 년 9 월에 발표했습니다. 또한 연구팀은 발전을 목표로 FermiNet의 오픈소스화를 공표하고 있습니다. Ab initio

doooob.tistory.com

https://www.marktechpost.com/2020/10/21/deepmind-open-sources-the-ferminet-a-deep-learning-model-for-computing-the-energy-of-atoms/

 

 

DeepMind Open-Sources The FermiNet: A Deep Learning Model For Computing The Energy Of Atoms

DeepMind Open-Sources the FermiNet: A Deep Learning Model For Computing The Energy Of Atoms.

www.marktechpost.com

 

http://www.aitimes.com/news/articleView.html?idxno=133045

 

구글 딥마인드 '페르미넷' 양자역학의 세계로 - AI타임스

앤트맨이 다녀왔던 양자역학의 세계를 탐방할 날이 머지않았을 수도 있다. 구글 딥마인드가 양자역학의 세계를 파헤치기 위해 깊숙히 들어간다.20일(현지시간) 인공지능 개발 업체 구글 딥마인

www.aitimes.com

https://deepmind.com/blog/article/FermiNet

 

FermiNets: Quantum Physics and Chemistry from First Principles

We’ve developed a new neural network architecture, the Fermionic Neural Network or FermiNet, which is well-suited to modeling the quantum state of large collections of electrons, the fundamental building blocks of chemical bonds.

deepmind.com

FermiNets: Quantum Physics and Chemistry from First Principles

An implementation of the algorithm and experiments defined in "Ab-Initio Solution of the Many-Electron Schroedinger Equation with Deep Neural Networks", David Pfau, James S. Spencer, Alex G de G Matthews and W.M.C. Foulkes, Phys. Rev. Research 2, 033429 (2020). FermiNet is a neural network for learning the ground state wavefunctions of atoms and molecules using a variational Monte Carlo approach.

https://github.com/deepmind/ferminet

 

공부해야 될 게 너무 많아서, 감도 안 잡히는 요즘입니다 ㅎㅎ

어떤 알고리즘이 가장 흥미롭나요? 세상일은 모르죠. 저 모든 알고리즘을 하나로 통일할 수 있는 천재가 등장할지, 모두 사용할지, 하나만 사용할지 궁금합니다.