본문 바로가기


[2024.05] AI 소식

1. Meta에서 대규모 멀티모달 모델 LMM(Large Multi-modal Model) 카멜레온(Chameleon)을 발표했습니다.

처음부터 이미지, 텍스트 등을 단일 모델로 처리하는 초기 융합 토큰 기반 혼합 모달(early-fusion token-based mixed-modal)’을 사용하여 학습된 모델로서, 4.4T 크기의 토크나이저와 340B크기의 파라미터를 갖습니다.



메타, 첨단 멀티모달 모델 ‘카멜레온’ 공개..."GPT-4o와 동일한 '초기 융합' 방식" - AI타임스

메타가 택스트나 이미지 등 다른 양식을 처리하기 위해 복수의 모델을 하나로 결합하는 대신, 단일 모델에서 한꺼번에 처리하는 첨단 멀티모달 언어모델(LMM)을 공개했다. 이 방식을 사용하는 것



2. Anthropic에서 LLM의 마인드 매핑(Mapping the mind of LLM)을 발표했습니다.

앤트로픽의 연구팀은 클로드 소넷(Claude Sonnet) 모델과 딕셔너리 러닝(dictionary learning)이라는 기법을 사용해, 특정한 개념에 반응하는 feature가 존재한다는 사실을 밝혔습니다.



앤트로픽 "LLM 작동 방식 첫 해석 성공...모델 조작도 가능" - AI타임스

앤트로픽이 처음으로 대형언어모델(LLM)의 내부 작동 방식을 자세히 들여다보는 데 성공했다고 밝혔다. 또 이를 통해 LLM을 조작한 사례도 공개했다. 이를 통해 LLM의 \'블랙박스\' 문제를 해결한




Mapping the Mind of a Large Language Model

We have identified how millions of concepts are represented inside Claude Sonnet, one of our deployed large language models. This is the first ever detailed look inside a modern, production-grade large language model.


3. Cohere에서 23개 언어를 지원하는 대규모 다국어 언어 모델 Aya23을 발표했습니다.

Aya는 119개국 3천여명의 다국적 연구자들이 참여하는 비영리 연구 프로젝트로, 총 513M크기의 데이터셋을 구축하고 모델을 학습시켜

101개 언어를 지원하는 13B크기의 Aya101과 23개 언어에 집중하여 성능을 높힌 Aya23 8B와 13B를 공개했습니다.




Cohere’s non-profit research lab, C4AI, released the Aya model, a state-of-the-art, open source, massively multilingual, research LLM covering 101 languages – including more than 50 previously underserved languages.



4. 일론 머스크가 설립한 AI회사 xAI가 최근 60억달러(약 8조2000억원) 규모의 투자를 유치했습니다.

일론 머스크는 내년 말까지 엔비디아의 최신 AI 칩 10만개를 사용하는 데이터센터를 건설할 계획이라고 밝혔습니다.

엔비디아는 역대 최고가인 1,150 달러 돌파를 눈앞에 두고있습니다.


'인공지능 > 트렌드' 카테고리의 다른 글

[2024.03.11~2024.03.17] AI 소식  (0) 2024.03.18