һ�ĳ��׸㶮��ģ̬ - ��ģ̬��

��ģ̬��
��ģ̬��漰��ֲ�ͬ�ĸ�֪ģ̬����Ӿ����ģ̬��Ϣ��ͼƬ��ı��Ƶ��ȡ��ģ̬��Ŀ��ǴӲ�ͬģ̬��Ϣ�л�ȡ��ȫ�桢��׼ȷ��֪ʶ��֧�ָ��񣬰���Ӿ��ʴ��Ӿ��ʶ��Ӿ��Ե��ȡ��֣�֪ʶͼ��ģ̬����һ��˽��ģ̬Ӧ�ã��ģ̬������ģ̬��

һ��֪ʶͼ��

ʲô��֪ʶͼ�ף�Knowledge Graph��֪ʶͼ��һ��ṹ��֪ʶ��ͼ��ʽ��ʾ�ʹ洢��ʵ��е�ʵ�塢����໥��ϵ��Щʵ��Ǿ��ˡ��ص㡢��Ҳ��ǳ��ĸ��˼�롣

�ڵ���ʵ��е�ʵ�壨��ˡ��ص㡢����ȣ��ÿ��ʵ��ͨ��һ��Ψһ�ı�ʶ��ʾ��
��ʾ��Щʵ��֮��Ĺ�ϵ��

֪ʶͼ�׵��ɵ�λ����ʵ������ϵ��ʵ������Ԫ��Լ�ʵ�弰����ֵ��ʵ��ͨ��ϵ�໥��ᣬ��״��֪ʶ�ṹ��KG = ��E��R��T��KG��ʾ֪ʶͼ�ס�E��ʾʵ�弯�ϡ�R��ʾ��ϵ��ϡ�T��ʾ֪ʶ��Ԫ�鼯�ϡ�

֪ʶͼ��

ʲô��֪ʶͼ��Multimodal Reasoning with Knowledge Graph��֪ʶͼ��ָ��֪ʶͼ��е��ʵ�͹�ϵ��ͨ��߼��ͳ�ƻ��ѧϰ�ȷ��֪��Ϣ��ƶϳ��µ��Ϣ��ϵ�Ĺ��̡�֪ʶͼ��Ŀ��Ǵ��޵��ʵ��Ƶ��֪ʶ��֪ʶͼ��еĿհ׻��ǿͼ�׵ı��

֪ʶͼ��

һ��ڹ��ѧϰ��ͨ��ھ�ͼ��е��߼��ù��ƥ��Ԥ��µ�ʵ��͹�ϵ����磺��д�߼��Rewriting Logic����ʾΪ��д��򣬲�ͨ��ݹ�Ӧ��д��

��·��
��ͼ��ʵ��·��ѧϰ��ͨ��·��Ŀ��Ŷ��ƶ�ʵ��Ĺ�ϵ����磺·��㷨��Path-Ranking Algorithm��PRA����ߺͻ��ƣ�ִ�ж��н��Ѱ�ҹ�ϵ·��

��ڱ�ʾѧϰ��
��ʵ��͹�ϵǶ�뵽��ά��ռ䣬ͨ��Զ����磺��ģ�ͣ��TransE��TransH��TransR�ȣ���Щģ��Ϊ֪ʶͼ��е�ÿ��ʵ��͹�ϵѧϰһ��ʾ��ͨ��ϵ��ƶ��µ�ʵ��͹�ϵ��

�ġ��ѧϰ��ģ�Ͳ�׽ͼ��еĽṹ��Ϣ��ͨ��ǰ�򴫲��Ԥ�⡣��磺��ͼ��磨GNN����ע��Ƶ�ͼ��磨Graph Attention Network��GAT��ͨ��ʵ��֮��ƶȽ��м�Ȩ��ƶ�ʵ��֮��Ĺ�ϵ��

����ģ̬��

ʲô�Ƕ�ģ̬��Multi-Modal Reasoning Task��ģ̬��ָ��ö��ָ�֪ģ̬��Ϣ��ۺϷ��ж��Ĺ��̡�

��ģ̬��

һ��Ӿ��ʴ�Visual Question Answering��VQA���Ӿ��ʴ�ָ��Ǹ��һ��ͼƬ��һ��ʽ��Ȼ��⣬Ҫ��Ȼ��Դ𰸡��𰸿��Ƕ����ʡ�(yes/no)��Ӽ��ܵĴ��ѡ��ȷ�𰸡�

�� VQA��һ��͵Ķ�ģ̬��⣬�ں��˼��Ӿ��CV��Ȼ��Դ��NLP��ļ��Ҫͬʱѧ��ͼ��֡�

�� Ϊ�˻ش�ĳЩ��⣬��Ҫ�˽ⳣʶ��ڳ�ʶ��common-sense resoning��

��Ӿ��ʶ��Visual Commonsense Reasoning��VCR��

�Ӿ��ʶ��Ҫ��ı��Ļ��Ͻ��ͼƬ��Ϣ��ڳ�ʶ��һ��ͼƬ��ͼ��һϵ��б�ǩ��bounding box��VCRʵ��ϰ��{Q->A}��ѡ��𰸣�{QA->R}��ʹ𰸽��Ϊʲôѡ��ô𰸡�

�� VCR��ݼ��ɴ��ͼƬ-�ʴ��ɣ��Ҫ��ģ�ͶԿ�ģ̬��ͳ�ʶ��

�� Ԥѵ��ܰ��BERT��MLM��NSPԤѵ��չ��ģ̬��ȡ�

��Ӿ��Ե��Vision Language Navigation��

�Ӿ��Ե��һ�ּ��˼��Ӿ��Ȼ��Դ��ѧϰ��ļ��ʹ��ܹ��Ȼ��ָ��е��

�� 岻��ܹ��ָ���ָ��ӽ��п��Կ��ͼ��Ϣ��

�� Ҫ�ڻ��ж��״̬��е��޸��Ӧ�Ķ��ԴﵽĿ��λ�á�

ԭ�ĳ��ԣ�

https://mp.weixin.qq.com/s/KnR1aMV5GaPwWiVNghBRdw