Trong AI marketing, việc biết thuật ngữ đúng chưa đủ — bạn cần biết làm gì cụ thể. Bài này trình bày framework 5 lớp để thương hiệu xuất hiện trong câu trả lời của AI LLM, giải thích logic kỹ thuật đằng sau mỗi lớp, và hướng dẫn AI marketing ưu tiên triển khai theo nguồn lực thực tế.
1. Tại sao chiến lược SEO truyền thống không đủ — và “viết content thân thiện với AI” cũng chưa đủ
Một nhầm lẫn phổ biến khi doanh nghiệp bắt đầu nghĩ đến GEO là họ nghĩ bài toán chỉ nằm ở nội dung: viết hay hơn, có cấu trúc hơn, thêm FAQ, thêm schema — xong.
Điều đó đúng một phần, nhưng chỉ giải quyết được một trong năm lớp vấn đề.
Để hiểu tại sao, cần nhớ lại từ Bài 1: LLM quyết định đề xuất thương hiệu nào dựa trên ba pipeline — parametric knowledge (những gì mô hình đã học), RAG retrieval (những gì mô hình tìm thấy khi cần thông tin mới), và query fan-out (cách mô hình mở rộng câu hỏi của người dùng thành nhiều sub-query). Ba pipeline này không phụ thuộc vào một yếu tố duy nhất. Chúng phụ thuộc vào tổng thể tín hiệu mà thương hiệu của bạn tạo ra trên toàn bộ môi trường số.
Nói cụ thể hơn: một thương hiệu có website nội dung tốt nhưng không có hiện diện bên ngoài website sẽ vẫn bị LLM bỏ qua — vì LLM không chỉ đọc website của bạn. Ngược lại, một thương hiệu được nhắc đến nhiều trên các nguồn uy tín nhưng nội dung website hỗn loạn sẽ bị trích dẫn nhầm hoặc mô tả sai.
Framework 5 lớp dưới đây giải quyết toàn bộ bức tranh đó, theo đúng thứ tự ưu tiên từ nền tảng đến bề mặt.
2. Framework 5 lớp — tổng quan trước khi đi vào chi tiết
Lớp 1 — Entity Authority Nền tảng: LLM phải "biết" bạn là ai
Lớp 2 — Content Architecture Cấu trúc: LLM phải đọc được nội dung của bạn
Lớp 3 — Citation Ecosystem Tín hiệu ngoài: Nguồn uy tín phải xác nhận bạn
Lớp 4 — Technical Foundation Kỹ thuật: Website phải machine-readable
Lớp 5 — Off-platform Presence Phạm vi: LLM phải gặp bạn ở nhiều nơi
Ba lớp đầu quyết định liệu LLM có đề xuất bạn hay không. Hai lớp sau quyết định mức độ chính xác và tần suất. Bỏ lớp nào cũng tạo ra điểm yếu — nhưng không phải lớp nào cũng cần đầu tư bằng nhau ngay từ đầu.
3. Lớp 1 — Entity Authority: AI phải “biết” thương hiệu của bạn đang tồn tại
Vấn đề cần giải quyết
Khi người dùng hỏi ChatGPT một câu hỏi không kích hoạt web search — ví dụ: “Các công ty tư vấn chiến lược uy tín ở Việt Nam là gì?” — ChatGPT trả lời thuần từ parametric knowledge. Không có RAG. Không có tìm kiếm web.
Nếu thương hiệu của bạn không đủ hiện diện trong dữ liệu training, mô hình đơn giản là không biết bạn tồn tại. Không phải vì bạn kém — mà vì bạn chưa để lại đủ dấu vết trong corpus văn bản mà mô hình học từ đó.
Đây là lý do các thương hiệu lớn luôn được đề xuất nhiều hơn trong câu trả lời AI, ngay cả khi không làm gì đặc biệt để “tối ưu AI” — họ đã có entity presence từ trước.
Wikipedia và Wikidata là hai tín hiệu có trọng số cao nhất trong hầu hết training corpus. Lý do không phải vì LLM “đọc Wikipedia” — mà vì Wikipedia là nguồn được trích dẫn lại rất nhiều lần trong vô số văn bản khác nhau trên internet. Một thực thể có Wikipedia entry sẽ xuất hiện dày đặc hơn trong training data so với một thực thể chỉ tồn tại trên website của mình.
Nếu thương hiệu hoặc người sáng lập chưa có Wikipedia page, bước trước là xây dựng nền tảng để đủ điều kiện tạo: được trích dẫn trong ít nhất 2-3 nguồn báo chí uy tín độc lập, có hoạt động đáng chú ý có thể kiểm chứng, và không có conflict of interest khi tạo entry.
Google Knowledge Panel là tín hiệu entity recognition của Google — và vì Gemini được training trên dữ liệu Google, Knowledge Panel có ảnh hưởng đến cả LLM ecosystem. Để có Knowledge Panel, cần: Schema markup Organization chuẩn trên website, Google Business Profile được verify, và nhất quán tên thương hiệu trên các nguồn tham chiếu.
Wikidata entity là nơi lưu trữ dữ liệu có cấu trúc về thực thể — ngày thành lập, lĩnh vực hoạt động, người sáng lập, địa điểm. LLM không đọc Wikidata như người dùng đọc Wikipedia, nhưng Wikidata cung cấp structured facts mà các hệ thống knowledge graph (bao gồm Google’s Knowledge Graph) dùng để xác nhận và làm rõ thực thể.
Entity consistency là yếu tố thường bị bỏ qua nhưng gây hại lớn nhất. Nếu tên thương hiệu được viết khác nhau trên các nền tảng — trang web viết “The Masters Reach”, LinkedIn viết “TheMastersReach”, báo chí viết “Masters Reach” — LLM có thể treat đây là ba thực thể khác nhau, làm loãng toàn bộ tín hiệu. Cần audit và chuẩn hóa: tên chính xác, mô tả ngắn nhất quán (elevator pitch 1-2 câu), lĩnh vực hoạt động, và thông tin liên lạc trên mọi điểm hiện diện.
Thời gian tác động
Entity authority là lớp chậm nhất — từ 3-6 tháng trở lên trước khi LLM bắt đầu nhận ra thương hiệu ổn định. Nhưng đây là lớp có tác động dài hạn nhất và khó đảo ngược nhất khi đã thiết lập. Bắt đầu sớm là lợi thế không thể mua được sau này.
4. Lớp 2 — Content Architecture: Cấu trúc để AI đọc được và dùng được
Vấn đề cần giải quyết
Khi RAG được kích hoạt, LLM không đọc nội dung website của bạn như người đọc. Nó thực hiện vector search — tìm kiếm ngữ nghĩa để xác định đoạn văn nào phù hợp nhất với sub-query đang xử lý, sau đó trích xuất đoạn đó vào context window để tổng hợp câu trả lời.
Hai vấn đề thường gặp với nội dung không được tối ưu: Thứ nhất, LLM không thể xác định được đoạn nào trả lời câu hỏi nào — vì nội dung viết theo dạng prose liên tục, không có điểm neo ngữ nghĩa rõ ràng. Thứ hai, LLM trích xuất được đoạn văn nhưng đoạn đó không đứng độc lập được — thiếu context, dùng pronoun không rõ tham chiếu, hoặc giả định người đọc đã biết thông tin từ các phần trước.
Nguyên tắc Answer-first
Nguyên tắc cốt lõi của content architecture cho GEO là answer-first: câu trả lời đi trước, giải thích đi sau.
SEO truyền thống thường xây dựng nội dung theo dạng funnel ngược — dẫn dắt dần đến kết luận. Cấu trúc này tối ưu cho người đọc có thời gian và muốn được thuyết phục. Nhưng LLM cần tìm câu trả lời nhanh trong một đoạn văn ngắn. Nếu câu trả lời nằm ở đoạn cuối bài sau 800 từ dẫn nhập, LLM sẽ không tìm thấy — hoặc tìm thấy nhưng không trích xuất được vì thiếu context.
Cấu trúc answer-first cho mỗi section:
- H2/H3: Câu hỏi mà section này trả lời, viết như người dùng thực sự sẽ hỏi
- Câu đầu tiên ngay sau heading: Câu trả lời trực tiếp, 1-2 câu, đứng độc lập được
- Phần còn lại: Giải thích, context, ví dụ, số liệu để support
Ví dụ cụ thể:
Không tối ưu:
Sự khác biệt giữa B2B và B2C trong marketing Marketing B2B và B2C đều có chung một số nguyên tắc cơ bản như hiểu khách hàng, xây dựng thương hiệu… [200 từ giải thích chung] … Do đó, có thể thấy B2B tập trung vào logic và ROI trong khi B2C tập trung vào cảm xúc.
Tối ưu cho GEO:
Marketing B2B khác B2C ở điểm gì cốt lõi? Marketing B2B tập trung vào logic, ROI, và quy trình mua hàng dài với nhiều decision-maker, trong khi B2C tập trung vào cảm xúc, tiện lợi, và quyết định mua nhanh của cá nhân. [Phần còn lại: giải thích chi tiết từng điểm]
Modular content blocks
Ngoài answer-first, nội dung cần được tổ chức thành các khối độc lập — mỗi khối trả lời một câu hỏi cụ thể, đứng được một mình mà không cần đọc toàn bộ bài.
Điều này đặc biệt quan trọng với query fan-out: khi LLM tạo ra 5-6 sub-query từ một câu hỏi, mỗi sub-query sẽ retrieve một đoạn văn khác nhau từ nhiều nguồn khác nhau. Nếu nội dung của bạn được tổ chức thành các modular block, nhiều sub-query có thể retrieve từ cùng một trang của bạn — tăng đáng kể tỷ lệ xuất hiện trong câu trả lời cuối cùng.
Freshness signals
LLM với RAG ưu tiên nội dung mới hơn, đặc biệt với các query liên quan đến thị trường, sản phẩm, hoặc xu hướng. Freshness không có nghĩa là viết bài mới liên tục — mà là cập nhật nội dung hiện có với tín hiệu thời gian rõ ràng.
Các freshness signal hiệu quả: ghi rõ ngày cập nhật cuối cùng trong schema, dùng cụm từ định thời gian tự nhiên như “tính đến Q1 2025” hoặc “số liệu cập nhật tháng 3/2025”, và thêm một section “cập nhật” vào các bài quan trọng khi có thông tin mới thay vì viết bài hoàn toàn mới.
5. Lớp 3 — Citation Ecosystem: Nguồn uy tín bên ngoài phải xác nhận bạn
Đây là lớp bị underestimate nhất
Nếu Lớp 2 là về những gì bạn nói về bản thân, thì Lớp 3 là về những gì người khác nói về bạn — và điều đó có trọng số lớn hơn nhiều trong mắt LLM.
Lý do kỹ thuật: LLM được train để nhận biết và ưu tiên các nguồn uy tín. Khi một thương hiệu được nhắc đến cùng nhau với các đánh giá tích cực, so sánh, hoặc đề xuất từ nhiều nguồn độc lập khác nhau — đặc biệt là các nguồn có domain authority cao — LLM học rằng thương hiệu đó đáng được đề xuất trong category đó.
Đây là lý do tại sao chiến lược Digital PR và link building cho GEO khác về chất so với SEO truyền thống. SEO truyền thống quan tâm đến số lượng backlink và anchor text. GEO quan tâm đến ngữ cảnh của đề cập — thương hiệu được nhắc đến trong ngữ cảnh nào, cùng với những thực thể nào, và trên loại nguồn nào.
Ba loại citation có giá trị cao nhất cho GEO
Loại 1 — Category mentions trên nguồn ngành: Xuất hiện trong các bài “top X công ty/sản phẩm trong category Y” trên các website ngành uy tín. LLM thường sử dụng chính xác những danh sách này khi trả lời câu hỏi dạng “recommend me the best…”. Điều này có nghĩa là: một đề cập trong một roundup article trên một trang ngành có giá trị GEO cao hơn nhiều một backlink từ directory site.
Loại 2 — Review và comparison content: G2, Capterra, Clutch, Trustpilot (với B2B/SaaS), hoặc các trang review ngành tương đương. LLM được train để treat review platform như nguồn xác nhận bên thứ ba. Một thương hiệu có 50 reviews tốt trên G2 nhưng không có backlink sẽ được đề xuất nhiều hơn trong ChatGPT so với một thương hiệu có 500 backlinks nhưng không có reviews.
Loại 3 — Báo chí và media coverage: Được nhắc đến trong bài phân tích, interview, hoặc case study trên báo chí kinh tế và chuyên ngành. Không cần số lượng lớn — chất lượng và tính độc lập quan trọng hơn. Một bài trên Forbes Vietnam hoặc VnEconomy có trọng số cao hơn nhiều bài trên blog nhỏ.
Chiến lược xây dựng citation ecosystem thực tế
Bước 1 — Audit citation hiện tại: Dùng Ahrefs Brand Radar hoặc Peec AI để xem thương hiệu đang được nhắc đến ở đâu, trong ngữ cảnh nào, và bị thiếu ở những nguồn quan trọng nào so với đối thủ.
Bước 2 — Xác định các nguồn “AI-cited” trong category: Hỏi trực tiếp ChatGPT hoặc Perplexity các câu hỏi mà khách hàng của bạn sẽ hỏi. Xem LLM trích dẫn nguồn nào. Đó là danh sách mục tiêu để đưa thương hiệu vào.
Bước 3 — Tạo nội dung để được cite: Nghiên cứu gốc, survey dữ liệu ngành, hoặc báo cáo có thể được báo chí và blog ngành trích dẫn là loại nội dung hiệu quả nhất để xây dựng citation tự nhiên từ các nguồn uy tín.
6. Lớp 4 — Technical Foundation: Website phải machine-readable ở chuẩn cao hơn SEO thông thường
Schema markup — không phải tùy chọn
Schema markup là ngôn ngữ mà máy tính, search engine, và LLM dùng để hiểu nội dung trang của bạn mà không cần đọc toàn bộ văn bản. Đây không phải khái niệm mới — nhưng với GEO, yêu cầu triển khai cụ thể hơn SEO truyền thống.
Các schema types cần thiết theo thứ tự ưu tiên:
Organization schema là nền tảng bắt buộc. Phải bao gồm: tên chính xác (name), URL, logo, mô tả (description), lĩnh vực hoạt động (areaServed / knowsAbout), và sameAs pointing đến các profile chính thức (LinkedIn, Wikipedia nếu có, Wikidata). Trường sameAs đặc biệt quan trọng vì nó giúp LLM kết nối các mentions về thương hiệu trên nhiều nguồn thành cùng một entity.
FAQPage schema là loại có tác động trực tiếp nhất đến AEO. Mỗi cặp câu hỏi-trả lời được đánh dấu bằng FAQPage đều trở thành một unit độc lập mà LLM có thể retrieve và sử dụng nguyên vẹn.
Article schema với đầy đủ datePublished, dateModified, author, và publisher cung cấp freshness signal và authority signal đồng thời.
Nếu phù hợp với business: Product, Service, HowTo, Review schema đều có giá trị cho các context query cụ thể.
llms.txt — chuẩn mới cần theo dõi
llms.txt là một convention đang được đề xuất (tương tự robots.txt) cho phép website cung cấp một file văn bản hướng dẫn LLM về cách đọc và sử dụng nội dung của site. Không phải LLM nào cũng support tại thời điểm này, nhưng đây là tín hiệu forward-looking đáng implement sớm.
File llms.txt thường đặt ở root domain và chứa: mô tả tổ chức, danh sách các trang quan trọng nhất, hướng dẫn về cách sử dụng nội dung, và thông tin liên hệ cho AI crawlers.
Crawlability cho AI bots
Kiểm tra robots.txt để đảm bảo không vô tình block các AI crawler quan trọng. Các bot cần được phép crawl:
GPTBot(OpenAI/ChatGPT)Google-Extended(Gemini)PerplexityBot(Perplexity)ClaudeBot(Anthropic)anthropic-ai
Một số website block toàn bộ AI bots để bảo vệ nội dung — quyết định đó có thể hợp lý từ góc độ copyright, nhưng đồng nghĩa với việc hoàn toàn từ bỏ RAG retrieval visibility.
Tốc độ và Core Web Vitals
LLM crawlers ưu tiên nội dung từ các trang load nhanh. Trang load chậm không chỉ ảnh hưởng đến SEO truyền thống mà còn giảm khả năng được crawl đầy đủ và index kịp thời.
7. Lớp 5 — Off-platform Presence: LLM gặp thương hiệu của bạn ở đâu ngoài website
Tại sao lớp này thường bị bỏ qua
Nhiều chiến lược GEO chỉ tập trung vào tối ưu website. Đây là giới hạn lớn vì LLM training corpus không chỉ gồm website — nó bao gồm cả forum, mạng xã hội, video transcripts, podcast transcripts, Q&A platforms, và nhiều loại nội dung khác.
Thương hiệu được nhắc đến tự nhiên và tích cực trong các môi trường này sẽ có tần suất xuất hiện trong training data cao hơn, tạo ra co-occurrence mạnh hơn với các topic liên quan — từ đó tăng khả năng được LLM nhớ đến và đề xuất.
Các kênh off-platform có giá trị cao nhất
Reddit có lẽ là kênh off-platform quan trọng nhất với LLM. OpenAI, Google, và Anthropic đều đã ký thỏa thuận dữ liệu với Reddit và train mô hình của mình trên Reddit content. Câu hỏi và thảo luận trên Reddit phản ánh ngôn ngữ người dùng thực — đây cũng là lý do tại sao câu trả lời của LLM thường có tone gần với Reddit hơn là Wikipedia.
Chiến lược Reddit không phải là spam hay self-promotion — điều đó phản tác dụng và vi phạm community rules. Mà là đóng góp chuyên môn thực sự vào các subreddit liên quan đến ngành, trả lời câu hỏi, và xây dựng presence theo cách tự nhiên.
Quora là nền tảng Q&A được LLM crawl và train mạnh, đặc biệt cho các câu hỏi dạng “how to” và “what is the best way to”. Một câu trả lời chuyên sâu và được upvote nhiều trên Quora có thể xuất hiện trực tiếp trong câu trả lời của Perplexity hoặc được LLM dùng như reference.
YouTube với transcript: LLM crawl YouTube transcripts — nội dung video kỹ thuật chuyên sâu, interview, hoặc educational content về lĩnh vực của bạn đều contribute vào training signal. Một kênh YouTube trong ngành với transcript đầy đủ có thể drive đáng kể AI visibility.
LinkedIn và các publication ngành: LinkedIn Articles và posts của người sáng lập hoặc chuyên gia trong tổ chức đóng góp vào entity authority của cả cá nhân lẫn thương hiệu. LLM liên kết expertise của cá nhân với tổ chức họ đại diện — đây là lý do cá nhân hoá brand (personal branding của founders) có giá trị GEO thực sự, không chỉ là marketing tự phát.
Podcast transcripts: Ngày càng nhiều LLM index podcast transcripts, đặc biệt khi podcast được publish kèm full transcript. Đây là kênh đang underutilized nhưng sẽ tăng trọng số trong các training cycle tiếp theo.
8. Ưu tiên triển khai theo nguồn lực
Không có tổ chức nào cần làm cả 5 lớp đồng thời ngay từ đầu. Dưới đây là roadmap ưu tiên thực tế theo ba cấp độ nguồn lực:
Giai đoạn 1 — Nền tảng tối thiểu (1-2 tháng đầu)
Mục tiêu: Đảm bảo LLM có thể nhận ra và mô tả đúng thương hiệu của bạn.
- Chuẩn hóa entity: tên, mô tả ngắn nhất quán trên mọi kênh
Organizationschema đầy đủ vớisameAslinks- Kiểm tra và cập nhật Google Business Profile, LinkedIn Company Page
- Audit nội dung website: identify 5-10 trang quan trọng nhất, restructure theo answer-first
FAQPageschema trên các trang FAQ và blog quan trọng- Kiểm tra
robots.txt— đảm bảo AI crawlers không bị block
Đây là giai đoạn đầu tư thấp nhất nhưng tạo ra foundation cần thiết cho mọi nỗ lực tiếp theo.
Giai đoạn 2 — Xây dựng momentum (tháng 3-6)
Mục tiêu: Mở rộng citation footprint và tăng topic authority.
- Research: hỏi ChatGPT và Perplexity các câu hỏi khách hàng của bạn sẽ hỏi → xác định ai đang được đề xuất và tại sao
- Xác định top 3-5 nguồn “AI-cited” trong category → làm việc để có mặt trong đó
- Bắt đầu xây dựng presence trên Reddit và Quora với nội dung chuyên môn thực chất
- Tạo ít nhất một “citable research” — survey, báo cáo nhỏ, hoặc data analysis — để drive inbound citations
- Implement
Articleschema với đầy đủ freshness signals trên toàn bộ blog
Giai đoạn 3 — Optimization và scale (tháng 6 trở đi)
Mục tiêu: Đo lường, tối ưu, và mở rộng những gì đã hoạt động.
- Setup AI visibility tracking (xem chi tiết trong Bài 3 của series)
- Audit competitors: so sánh citation sources của bạn với đối thủ đang được đề xuất nhiều hơn
- Mở rộng content coverage sang các topic cluster liên quan — để bao phủ nhiều sub-query fan-out hơn
- Wikipedia page nếu đủ điều kiện notability
- Explore podcast và YouTube transcript strategy nếu phù hợp với resources
9. Một điểm cần nhấn mạnh về timeline
GEO không tạo ra kết quả trong 2-4 tuần như chạy Google Ads. Nhưng nó cũng không chậm như xây dựng domain authority SEO từ zero.
Các yếu tố tác động nhanh nhất (4-8 tuần): Content architecture — restructure answer-first, thêm FAQ schema — ảnh hưởng đến RAG retrieval tương đối nhanh vì LLM crawl và index nội dung mới liên tục. Citation từ các nguồn lớn (báo chí, review platforms) cũng có tác động trong vòng 1-3 tháng sau khi publish.
Các yếu tố tác động chậm (6-12+ tháng): Entity authority và parametric knowledge — vì phụ thuộc vào chu kỳ training của mô hình. Dữ liệu training không được cập nhật theo thời gian thực. Tín hiệu bạn tạo ra hôm nay sẽ được đưa vào training cycle tiếp theo — và mỗi chu kỳ có thể cách nhau vài tháng đến một năm tùy mô hình.
Kết luận thực dụng: bắt đầu với các lớp có tác động nhanh (Lớp 2 và 4) để có kết quả sớm cho RAG context, đồng thời xây dựng song song các lớp dài hạn (Lớp 1 và 3) để đảm bảo tác động bền vững.
10. Kết luận: Framework là bản đồ, không phải checklist
Năm lớp trong framework này không phải là danh sách việc cần làm tuần tự rồi tick off. Chúng là năm chiều tác động đồng thời — mạnh hay yếu ở chiều nào đều tạo ra giới hạn cho toàn bộ hệ thống.
Thương hiệu có nội dung tốt nhưng entity authority yếu sẽ bị LLM bỏ qua trong parametric recall. Thương hiệu có entity authority tốt nhưng content architecture hỗn loạn sẽ được nhắc đến nhưng bị mô tả sai hoặc thiếu chính xác. Thương hiệu đầu tư đủ bốn lớp đầu nhưng không có off-platform presence sẽ bị giới hạn trong những query kích hoạt web search — và bỏ qua toàn bộ parametric recall context.
Bắt đầu từ nền tảng, xây dựng theo thứ tự, đo lường liên tục.
Bài tiếp theo và cuối cùng trong series sẽ đi vào đúng phần đo lường đó: cách theo dõi AI brand visibility, đánh giá các công cụ hiện có, và những giới hạn cấu trúc mà không có dashboard nào có thể giải quyết được.
Bài 2/3 trong series AI Brand Visibility của The Masters Reach.
← Bài 1: GEO, AEO, AIO, LLMO — Giải mã thuật ngữ AI marketing
→ Bài 3: Đo lường AI Brand Visibility — Hướng dẫn thực tế và giới hạn của các công cụ hiện tại
Tags: GEO Strategy, AI Brand Visibility, LLM Optimization, Generative Engine Optimization, Content Architecture, Entity Authority, Citation Building, Schema Markup, ChatGPT Marketing

